際際滷

際際滷Share a Scribd company logo
WebART project 
Web Archive Retrieval Tools 
Jaap Kamps, Richard Rogers, Arjen de Vries 
Hildelies Balk, Ren辿 Voorburg 
! 
Anat Ben-David, Hugo Huurdeman, Thaer Sammar 
Flickr: LucViatour 
NCDD Studiedag Webarchivering in Nederland, Beeld en Geluid, 30 oktober 2014
WebART project 
Web Archive Retrieval Tools 
Jaap Kamps, Richard Rogers, Arjen de Vries 
Hildelies Balk, Ren辿 Voorburg 
! 
Anat Ben-David, Hugo Huurdeman, Thaer Sammar 
Flickr: LucViatour 
Hoe maak je webarchieven 
br uikbaar voor onderzoek?
Het doel van een webarchief
Beyond preservation 
 Initi谷le focus: bewaren & conserveren webmateriaal 
 minder op gebruik van gearchiveerde materiaal 
 Perspectief presentatie: het Webarchief als bron 
voor huidig 辿n toekomstig onderzoek
1. WebART & Webarchief
2012-2016
Hildelies Balk 
Ren辿 Voorburg 
Arjen de Vries Jaap Kamps Richard Rogers 
Thaer Samar 
PhD/programmer 
Hugo Huurdeman 
PhD researcher 
Anat Ben-David 
Postdoc (2012-14)
Doelen WebART 
 Evalueren huidige curatie en selectieprocedures 
van webarchieven 
 Inzicht krijgen in huidig gebruik webarchieven in 
de context van onderzoek 
 Het ontwikkelen van nieuwe methoden en tools 
voor onderzoek m.b.v. webarchieven
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
Original image: A N P
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
Ondersteuning: Wayback Machine
Ondersteuning: Wayback Machine
Ondersteuning: Wayback Machine
Ondersteuning 
 Wayback Machine: Single URL approach: 
 kennis URL benodigd (geen zoekfunctionaliteit) 
 辿辿n URL tegelijk bekijken 
 vergelijkingen maken moeilijk 
[Ben-David e.a. 14, Rogers, 13]
Verbetering ondersteuning: Living Lab setting 
allansanders.co.uk
2. Workshops & zoektools
2. WebART workshops 
 09/12 DMI Summer School 
11/12 Web Archiving: Theorized Practices 
 01/13 DMI Winter School 
05/13 Exploring Israeli Politics online 
 09/13 DMI Web Archiving day - evaluation WebART tools 
11/13 New Media Research Masters - Web archive research 
scenarios
2.1 DMI Summer School (2012) 
Flickr: Silvertje 
Data: Selection lists KB
DMI Summer School (2012)
2.2 DMI Winter School (2013) 
 Digital Methods Winter School (Jan. 13) 
 Co-design workshop (Living Lab) 
 New Media onderzoekers en ontwikkelaars 
nu.nl subset webarchief 
(432 crawls, 14 GB) 
! 
Zoekmachine
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
Content analyse: Word frequency analysis 
800! 
700! 
600! 
500! 
400! 
300! 
200! 
100! 
0! 
May-11! Jul-11! Aug-11! Oct-11! Dec-11! Jan-12! Mar-12! 
Mubarek 
Assad 
Putin 
Kim Jung Il
Co-Word Analyse
Geomapping: locatie bron nieuws
project.wnyc.org 
1 
1 
1 abcnews.go.com 
brucespringsteen.net 
1 
theverge.com 
1 
sportamerika.nl 
1 
reuters.com 
1 
ebird.org 
1 
googleblog.blogspot.co.uk 
1 
presscentre.sony.eu 
1 
bbc.com 
1 
poynter.org 
1 
abclocal.go.com 
1 
en.wikipedia.org 
1 
nhc.noaa.gov 
1 
nypost.com 
2 
earthcam.com 
2 
maps.google.com 
3 
hp.com 
4 
google.org 
4 
edition.cnn.com 
Syria 
Sandy 
7 
wired.com 
volkskrant.nl 
7 
8 
allthingsd.com 
7 
abcnews.go.com 
7 
thesun.co.uk 
7 
allesoversterrenkunde.nl 
9 
fd.nl 
9 
nos.nl 
9 
mobiel.nuvideo.nl 
9 
guardian.co.uk 
10 
bit.ly 
10 
billboard.biz 
10 
cbsnews.com 
11 
usmagazine.com 
11 
variety.com 
12 
theverge.com 
12 
people.com 
13 
Rutte en Verhagen leggen schuld bij PVV 
13 
telegraaf.nl 
14 
washingtonpost.com 
18 
edition.cnn.com 
19 
bbc.co.uk 
20 
youtube.com 
20 
nytimes.com 
21 
styletoday.nl 
21 
bloomberg.com 
24 
thesistools.com 
26 
hollywoodreporter.com 
30 
online.wsj.com 
30 
deadline.com 
33 
poll.nupubliek.nl 
34 
spaarrente.nl 
39 
gamer.nl 
48 
reuters.com 
52 
tmz.com 
57 
open.spotify.com 
78 
peil.nl 
93 
gezondheidsnet.nl 
US Election 
4 
youtube.com 
1 
1 
blogs.aljazeera.net 
1 
1 
#NAME 
worldpressphoto.org 
1 
1 wikileaks.org 
2 
peil.nl 
washingtonpost.com 
1 
eubusiness.com 
1 
vesti.bg 
1 
trouw.nl 
1 
en.wikipedia.org 
1 
l 
1 
sana.sy 
1 
hosted.ap.org 
1 
shariah4belgium.com 
1 
nrc.nl 
1 
guardian.co.uk 
1 
geopolicity.com 
1 
nctb.nl 
1 
rt.com 
1 
kaspersky.com 
2 
todayszaman.com 
2 
volkskrant.nl 
2 
spaarrente.nl 
2 
reuters.com 
2 
hrw.org 
2 
uk.reuters.com 
2 
cbsnews.com 
3 
telegraph.co.uk 
3 
maps.google.nl 
4 
bbc.co.uk 
5 
edition.cnn.com 
5 
aljazeera.com 
english.alarabiya.net 
7 
maps.google.com 
Linkstructuur: Outlink Analyse
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
Media: Temporal Image Analyse
2.2 DMI Winter School (2013) 
lees meer: [Huurdeman et al, 2013] 
 Nieuwe mogelijkheden voor exploratie en gebruik 
van gearchiveerd materiaal 
 van single site browsing naar (cross-)collection search 
 bottom-up aanpak: adaptatie functionaliteit systeem aan 
behoeften gebruikers 
 Echter: grote vraag naar export-functies voor verdere 
analyse  in eigen tools onderzoekers 
 Kunnen we meer typen analyses ondersteunen?
enrichments 
KB archive data 
Geodata 
KB metadata 
Link structure
host+1 
nu.nl
host+1 
nu.nl
host+1 
nu.nl 
Volledige index KB Webarchief
Volledige index KB Webarchief 
host+1 
nu.nl 
57.913 documenten 
43.533.104 documenten 
253.649 documenten
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
2.3 DMI Web Archiving Day (2013) 
Opmerkingen onderzoekers: 
 looking at data rather than 
single sites 
 supports the shift to studying 
Web archives through queries 
 aggregate views and bar graphs 
are extremely useful 
!
2.3 DMI Web Archiving Day (2013) 
 Interesses onderzoekers Nieuwe Media: 
 derive periodizations of the Web (Web history) 
 e.g. the rise of social media 
 source hierarchy (dominant sources in archive) 
 e.g. financial crisis 
 keyword uptake (terms over time) 
 e.g. geenstijl language in archive 
 accidental/incidental archiving 
 e.g. the guilty pleasures of the Web of innocence
2.3 DMI Web Archiving Day (2013) 
 Suggesties onderzoekers voor uitbreiding WebARTist: 
 selecties: bijv. sampling en subsets 
 vergelijkingen: bijv. verschillen in resultaatsets 
 collecties: bijv. cre谷ren eigen collecties en annotaties 
 transparantie: bijv. selectieprocedures, algoritmes en 
(in)compleetheid 
 data is still a crucial factor 
 quantity & quality: inherente incompleetheid van een 
webarchief
3. Van zoek- naar onderzoekstools
(Onder)zoeken 
 Van Wayback Machine naar een doorzoekbaar 
Webarchief 
 Grote stap voorwaarts 
 van URL browsing naar full-text zoeken: nieuwe 
onderzoeksmogelijkheden 
 Potenti谷le ondersteuning verschillende stappen 
onderzoeksproces, bv. exploratie en data-collectie 
 Echter, ook enige beperkingen
Beperkingen zoektools 
1. Datasets en verrijkingen gepredefinieerd 
2. Zoekmachines en functionaliteit gepredefinieerd 
 Trade-off: ondersteuning universele versus specifieke 
taken en onderzoeksvragen 
 Een zoeksysteem kan niet 叩lle specifieke taken 
ondersteunen 
 Volledige ondersteuning onderzoeksproces: 
meer flexibiliteit benodigd!
Meer flexibiliteit (1) 
gebruik van Hadoop computer-clusters voor genereren datasets, verrijkingen en analyse
Finding pages in the Unarchived Web! ! DL 2014 
1. Gearchiveerde paginas 
in selectielijst (2012) 
 10.2 miljoen 
! 
2. Gearchiveerde paginas 
niet in selectielijst (2012) 
 0.9 miljoen 
Dutch Web Archive 1 2 
Voorbeeld
Finding pages in the Unarchived Web !! DL 2014 
 het aura van het web-archief 
 niet-gearchiveerde paginas 
 bestaan daarvan kan 
worden afgeleid uit de 
linkstructuur van het archief 
! 
 extractie en analyse via 
Hadoop computer-cluster 
Dutch Web Archive 1 2
Finding pages in the Unarchived Web !! DL 2014 
3. Aura: niet-gearchiveerde 
paginas 
 10.7 miljoen 
! 
 Mogelijkheid: representaties 
genereren voor deze paginas! 
 op basis van anchor text 
 met effectieve resultaten 
! 
 Lees meer: 
Dutch Web Archive 1 2 3 
[Huurdeman, Ben-David, Kamps, Samar, De Vries, 2014]
Meer flexibiliteit (2) 
 Cre谷ren van customizable systems, ofwel 
toolmakers tools 
 Aanbieden bouwblokken 
 custom zoekmachines 
 zoekstrategie谷n 
 complexe queries 
[Kamps 11, de Vries e.a. 10]
De volgende stap (2) 
in 
eurocrisis, schuldencrisis
Van zoek- naar onderzoekstools 
Wayback 
Machine 
Search 
engine Research engine 
ondersteuning volledige 
onderzoekstaak
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
Conclusie 
WebART & Webarchieven 
Workshops & zoektools 
 Van zoek- naar onderzoekstools
Bronnen 
 Ben-David A. & Huurdeman H. (2014). Web Archive Search as Research: 
Methodological and Theoretical Implications. Alexandria Journal, Volume 25, 
No. 1 (2014) 
 Kamps J. (2011). Toward a model of interaction for complex search tasks. 
Proc. ESAIR 2011 
 Rogers R. (2013). Digital Methods. MIT Press 2013 
 Huurdeman H., Ben-David A., Samar T. (2013). Sprint Methods for Web 
Archive Research. Proc. Web Science 2013. 
 Huurdeman H., Ben-David A., Kamps J., Samar T., de Vries (2014). Finding 
Pages in the Unarchived Web. Proc. DL 2014. 
 de Vries A., Alink W., Cornacchia R. (2010). Search by Strategy. Proc. ESAIR 
'10
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
webarchiving.nl 
@webart12
WebART project 
Web Archive Retrieval Tools 
Jaap Kamps, Richard Rogers, Arjen de Vries 
Hildelies Balk, Ren辿 Voorburg 
! 
Anat Ben-David, Hugo Huurdeman, Thaer Sammar 
Flickr: LucViatour 
NCDD Studiedag Webarchivering in Nederland, Beeld en Geluid, 30 oktober 2014

More Related Content

WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)

  • 1. WebART project Web Archive Retrieval Tools Jaap Kamps, Richard Rogers, Arjen de Vries Hildelies Balk, Ren辿 Voorburg ! Anat Ben-David, Hugo Huurdeman, Thaer Sammar Flickr: LucViatour NCDD Studiedag Webarchivering in Nederland, Beeld en Geluid, 30 oktober 2014
  • 2. WebART project Web Archive Retrieval Tools Jaap Kamps, Richard Rogers, Arjen de Vries Hildelies Balk, Ren辿 Voorburg ! Anat Ben-David, Hugo Huurdeman, Thaer Sammar Flickr: LucViatour Hoe maak je webarchieven br uikbaar voor onderzoek?
  • 3. Het doel van een webarchief
  • 4. Beyond preservation Initi谷le focus: bewaren & conserveren webmateriaal minder op gebruik van gearchiveerde materiaal Perspectief presentatie: het Webarchief als bron voor huidig 辿n toekomstig onderzoek
  • 5. 1. WebART & Webarchief
  • 7. Hildelies Balk Ren辿 Voorburg Arjen de Vries Jaap Kamps Richard Rogers Thaer Samar PhD/programmer Hugo Huurdeman PhD researcher Anat Ben-David Postdoc (2012-14)
  • 8. Doelen WebART Evalueren huidige curatie en selectieprocedures van webarchieven Inzicht krijgen in huidig gebruik webarchieven in de context van onderzoek Het ontwikkelen van nieuwe methoden en tools voor onderzoek m.b.v. webarchieven
  • 17. Ondersteuning Wayback Machine: Single URL approach: kennis URL benodigd (geen zoekfunctionaliteit) 辿辿n URL tegelijk bekijken vergelijkingen maken moeilijk [Ben-David e.a. 14, Rogers, 13]
  • 18. Verbetering ondersteuning: Living Lab setting allansanders.co.uk
  • 19. 2. Workshops & zoektools
  • 20. 2. WebART workshops 09/12 DMI Summer School 11/12 Web Archiving: Theorized Practices 01/13 DMI Winter School 05/13 Exploring Israeli Politics online 09/13 DMI Web Archiving day - evaluation WebART tools 11/13 New Media Research Masters - Web archive research scenarios
  • 21. 2.1 DMI Summer School (2012) Flickr: Silvertje Data: Selection lists KB
  • 23. 2.2 DMI Winter School (2013) Digital Methods Winter School (Jan. 13) Co-design workshop (Living Lab) New Media onderzoekers en ontwikkelaars nu.nl subset webarchief (432 crawls, 14 GB) ! Zoekmachine
  • 29. Content analyse: Word frequency analysis 800! 700! 600! 500! 400! 300! 200! 100! 0! May-11! Jul-11! Aug-11! Oct-11! Dec-11! Jan-12! Mar-12! Mubarek Assad Putin Kim Jung Il
  • 32. project.wnyc.org 1 1 1 abcnews.go.com brucespringsteen.net 1 theverge.com 1 sportamerika.nl 1 reuters.com 1 ebird.org 1 googleblog.blogspot.co.uk 1 presscentre.sony.eu 1 bbc.com 1 poynter.org 1 abclocal.go.com 1 en.wikipedia.org 1 nhc.noaa.gov 1 nypost.com 2 earthcam.com 2 maps.google.com 3 hp.com 4 google.org 4 edition.cnn.com Syria Sandy 7 wired.com volkskrant.nl 7 8 allthingsd.com 7 abcnews.go.com 7 thesun.co.uk 7 allesoversterrenkunde.nl 9 fd.nl 9 nos.nl 9 mobiel.nuvideo.nl 9 guardian.co.uk 10 bit.ly 10 billboard.biz 10 cbsnews.com 11 usmagazine.com 11 variety.com 12 theverge.com 12 people.com 13 Rutte en Verhagen leggen schuld bij PVV 13 telegraaf.nl 14 washingtonpost.com 18 edition.cnn.com 19 bbc.co.uk 20 youtube.com 20 nytimes.com 21 styletoday.nl 21 bloomberg.com 24 thesistools.com 26 hollywoodreporter.com 30 online.wsj.com 30 deadline.com 33 poll.nupubliek.nl 34 spaarrente.nl 39 gamer.nl 48 reuters.com 52 tmz.com 57 open.spotify.com 78 peil.nl 93 gezondheidsnet.nl US Election 4 youtube.com 1 1 blogs.aljazeera.net 1 1 #NAME worldpressphoto.org 1 1 wikileaks.org 2 peil.nl washingtonpost.com 1 eubusiness.com 1 vesti.bg 1 trouw.nl 1 en.wikipedia.org 1 l 1 sana.sy 1 hosted.ap.org 1 shariah4belgium.com 1 nrc.nl 1 guardian.co.uk 1 geopolicity.com 1 nctb.nl 1 rt.com 1 kaspersky.com 2 todayszaman.com 2 volkskrant.nl 2 spaarrente.nl 2 reuters.com 2 hrw.org 2 uk.reuters.com 2 cbsnews.com 3 telegraph.co.uk 3 maps.google.nl 4 bbc.co.uk 5 edition.cnn.com 5 aljazeera.com english.alarabiya.net 7 maps.google.com Linkstructuur: Outlink Analyse
  • 37. 2.2 DMI Winter School (2013) lees meer: [Huurdeman et al, 2013] Nieuwe mogelijkheden voor exploratie en gebruik van gearchiveerd materiaal van single site browsing naar (cross-)collection search bottom-up aanpak: adaptatie functionaliteit systeem aan behoeften gebruikers Echter: grote vraag naar export-functies voor verdere analyse in eigen tools onderzoekers Kunnen we meer typen analyses ondersteunen?
  • 38. enrichments KB archive data Geodata KB metadata Link structure
  • 41. host+1 nu.nl Volledige index KB Webarchief
  • 42. Volledige index KB Webarchief host+1 nu.nl 57.913 documenten 43.533.104 documenten 253.649 documenten
  • 47. 2.3 DMI Web Archiving Day (2013) Opmerkingen onderzoekers: looking at data rather than single sites supports the shift to studying Web archives through queries aggregate views and bar graphs are extremely useful !
  • 48. 2.3 DMI Web Archiving Day (2013) Interesses onderzoekers Nieuwe Media: derive periodizations of the Web (Web history) e.g. the rise of social media source hierarchy (dominant sources in archive) e.g. financial crisis keyword uptake (terms over time) e.g. geenstijl language in archive accidental/incidental archiving e.g. the guilty pleasures of the Web of innocence
  • 49. 2.3 DMI Web Archiving Day (2013) Suggesties onderzoekers voor uitbreiding WebARTist: selecties: bijv. sampling en subsets vergelijkingen: bijv. verschillen in resultaatsets collecties: bijv. cre谷ren eigen collecties en annotaties transparantie: bijv. selectieprocedures, algoritmes en (in)compleetheid data is still a crucial factor quantity & quality: inherente incompleetheid van een webarchief
  • 50. 3. Van zoek- naar onderzoekstools
  • 51. (Onder)zoeken Van Wayback Machine naar een doorzoekbaar Webarchief Grote stap voorwaarts van URL browsing naar full-text zoeken: nieuwe onderzoeksmogelijkheden Potenti谷le ondersteuning verschillende stappen onderzoeksproces, bv. exploratie en data-collectie Echter, ook enige beperkingen
  • 52. Beperkingen zoektools 1. Datasets en verrijkingen gepredefinieerd 2. Zoekmachines en functionaliteit gepredefinieerd Trade-off: ondersteuning universele versus specifieke taken en onderzoeksvragen Een zoeksysteem kan niet 叩lle specifieke taken ondersteunen Volledige ondersteuning onderzoeksproces: meer flexibiliteit benodigd!
  • 53. Meer flexibiliteit (1) gebruik van Hadoop computer-clusters voor genereren datasets, verrijkingen en analyse
  • 54. Finding pages in the Unarchived Web! ! DL 2014 1. Gearchiveerde paginas in selectielijst (2012) 10.2 miljoen ! 2. Gearchiveerde paginas niet in selectielijst (2012) 0.9 miljoen Dutch Web Archive 1 2 Voorbeeld
  • 55. Finding pages in the Unarchived Web !! DL 2014 het aura van het web-archief niet-gearchiveerde paginas bestaan daarvan kan worden afgeleid uit de linkstructuur van het archief ! extractie en analyse via Hadoop computer-cluster Dutch Web Archive 1 2
  • 56. Finding pages in the Unarchived Web !! DL 2014 3. Aura: niet-gearchiveerde paginas 10.7 miljoen ! Mogelijkheid: representaties genereren voor deze paginas! op basis van anchor text met effectieve resultaten ! Lees meer: Dutch Web Archive 1 2 3 [Huurdeman, Ben-David, Kamps, Samar, De Vries, 2014]
  • 57. Meer flexibiliteit (2) Cre谷ren van customizable systems, ofwel toolmakers tools Aanbieden bouwblokken custom zoekmachines zoekstrategie谷n complexe queries [Kamps 11, de Vries e.a. 10]
  • 58. De volgende stap (2) in eurocrisis, schuldencrisis
  • 59. Van zoek- naar onderzoekstools Wayback Machine Search engine Research engine ondersteuning volledige onderzoekstaak
  • 61. Conclusie WebART & Webarchieven Workshops & zoektools Van zoek- naar onderzoekstools
  • 62. Bronnen Ben-David A. & Huurdeman H. (2014). Web Archive Search as Research: Methodological and Theoretical Implications. Alexandria Journal, Volume 25, No. 1 (2014) Kamps J. (2011). Toward a model of interaction for complex search tasks. Proc. ESAIR 2011 Rogers R. (2013). Digital Methods. MIT Press 2013 Huurdeman H., Ben-David A., Samar T. (2013). Sprint Methods for Web Archive Research. Proc. Web Science 2013. Huurdeman H., Ben-David A., Kamps J., Samar T., de Vries (2014). Finding Pages in the Unarchived Web. Proc. DL 2014. de Vries A., Alink W., Cornacchia R. (2010). Search by Strategy. Proc. ESAIR '10
  • 65. WebART project Web Archive Retrieval Tools Jaap Kamps, Richard Rogers, Arjen de Vries Hildelies Balk, Ren辿 Voorburg ! Anat Ben-David, Hugo Huurdeman, Thaer Sammar Flickr: LucViatour NCDD Studiedag Webarchivering in Nederland, Beeld en Geluid, 30 oktober 2014