(Dutch) Presentatie namens WebART op studiedag "Webarchivering in Nederland" // WebART presentation at "Web archiving in the Netherlands" symposium, 30 Oct 2014 [http://www.webarchiving.nl/news/ncdd-webarchivering-in-nederland]. Related work: http://www.slideshare.net/TimelessFuture/finding-pages-on-the-unarchived-web-dl-2014
1 of 65
More Related Content
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
1. WebART project
Web Archive Retrieval Tools
Jaap Kamps, Richard Rogers, Arjen de Vries
Hildelies Balk, Ren辿 Voorburg
!
Anat Ben-David, Hugo Huurdeman, Thaer Sammar
Flickr: LucViatour
NCDD Studiedag Webarchivering in Nederland, Beeld en Geluid, 30 oktober 2014
2. WebART project
Web Archive Retrieval Tools
Jaap Kamps, Richard Rogers, Arjen de Vries
Hildelies Balk, Ren辿 Voorburg
!
Anat Ben-David, Hugo Huurdeman, Thaer Sammar
Flickr: LucViatour
Hoe maak je webarchieven
br uikbaar voor onderzoek?
4. Beyond preservation
Initi谷le focus: bewaren & conserveren webmateriaal
minder op gebruik van gearchiveerde materiaal
Perspectief presentatie: het Webarchief als bron
voor huidig 辿n toekomstig onderzoek
7. Hildelies Balk
Ren辿 Voorburg
Arjen de Vries Jaap Kamps Richard Rogers
Thaer Samar
PhD/programmer
Hugo Huurdeman
PhD researcher
Anat Ben-David
Postdoc (2012-14)
8. Doelen WebART
Evalueren huidige curatie en selectieprocedures
van webarchieven
Inzicht krijgen in huidig gebruik webarchieven in
de context van onderzoek
Het ontwikkelen van nieuwe methoden en tools
voor onderzoek m.b.v. webarchieven
20. 2. WebART workshops
09/12 DMI Summer School
11/12 Web Archiving: Theorized Practices
01/13 DMI Winter School
05/13 Exploring Israeli Politics online
09/13 DMI Web Archiving day - evaluation WebART tools
11/13 New Media Research Masters - Web archive research
scenarios
23. 2.2 DMI Winter School (2013)
Digital Methods Winter School (Jan. 13)
Co-design workshop (Living Lab)
New Media onderzoekers en ontwikkelaars
nu.nl subset webarchief
(432 crawls, 14 GB)
!
Zoekmachine
29. Content analyse: Word frequency analysis
800!
700!
600!
500!
400!
300!
200!
100!
0!
May-11! Jul-11! Aug-11! Oct-11! Dec-11! Jan-12! Mar-12!
Mubarek
Assad
Putin
Kim Jung Il
37. 2.2 DMI Winter School (2013)
lees meer: [Huurdeman et al, 2013]
Nieuwe mogelijkheden voor exploratie en gebruik
van gearchiveerd materiaal
van single site browsing naar (cross-)collection search
bottom-up aanpak: adaptatie functionaliteit systeem aan
behoeften gebruikers
Echter: grote vraag naar export-functies voor verdere
analyse in eigen tools onderzoekers
Kunnen we meer typen analyses ondersteunen?
47. 2.3 DMI Web Archiving Day (2013)
Opmerkingen onderzoekers:
looking at data rather than
single sites
supports the shift to studying
Web archives through queries
aggregate views and bar graphs
are extremely useful
!
48. 2.3 DMI Web Archiving Day (2013)
Interesses onderzoekers Nieuwe Media:
derive periodizations of the Web (Web history)
e.g. the rise of social media
source hierarchy (dominant sources in archive)
e.g. financial crisis
keyword uptake (terms over time)
e.g. geenstijl language in archive
accidental/incidental archiving
e.g. the guilty pleasures of the Web of innocence
49. 2.3 DMI Web Archiving Day (2013)
Suggesties onderzoekers voor uitbreiding WebARTist:
selecties: bijv. sampling en subsets
vergelijkingen: bijv. verschillen in resultaatsets
collecties: bijv. cre谷ren eigen collecties en annotaties
transparantie: bijv. selectieprocedures, algoritmes en
(in)compleetheid
data is still a crucial factor
quantity & quality: inherente incompleetheid van een
webarchief
51. (Onder)zoeken
Van Wayback Machine naar een doorzoekbaar
Webarchief
Grote stap voorwaarts
van URL browsing naar full-text zoeken: nieuwe
onderzoeksmogelijkheden
Potenti谷le ondersteuning verschillende stappen
onderzoeksproces, bv. exploratie en data-collectie
Echter, ook enige beperkingen
52. Beperkingen zoektools
1. Datasets en verrijkingen gepredefinieerd
2. Zoekmachines en functionaliteit gepredefinieerd
Trade-off: ondersteuning universele versus specifieke
taken en onderzoeksvragen
Een zoeksysteem kan niet 叩lle specifieke taken
ondersteunen
Volledige ondersteuning onderzoeksproces:
meer flexibiliteit benodigd!
53. Meer flexibiliteit (1)
gebruik van Hadoop computer-clusters voor genereren datasets, verrijkingen en analyse
54. Finding pages in the Unarchived Web! ! DL 2014
1. Gearchiveerde paginas
in selectielijst (2012)
10.2 miljoen
!
2. Gearchiveerde paginas
niet in selectielijst (2012)
0.9 miljoen
Dutch Web Archive 1 2
Voorbeeld
55. Finding pages in the Unarchived Web !! DL 2014
het aura van het web-archief
niet-gearchiveerde paginas
bestaan daarvan kan
worden afgeleid uit de
linkstructuur van het archief
!
extractie en analyse via
Hadoop computer-cluster
Dutch Web Archive 1 2
56. Finding pages in the Unarchived Web !! DL 2014
3. Aura: niet-gearchiveerde
paginas
10.7 miljoen
!
Mogelijkheid: representaties
genereren voor deze paginas!
op basis van anchor text
met effectieve resultaten
!
Lees meer:
Dutch Web Archive 1 2 3
[Huurdeman, Ben-David, Kamps, Samar, De Vries, 2014]
57. Meer flexibiliteit (2)
Cre谷ren van customizable systems, ofwel
toolmakers tools
Aanbieden bouwblokken
custom zoekmachines
zoekstrategie谷n
complexe queries
[Kamps 11, de Vries e.a. 10]
59. Van zoek- naar onderzoekstools
Wayback
Machine
Search
engine Research engine
ondersteuning volledige
onderzoekstaak
61. Conclusie
WebART & Webarchieven
Workshops & zoektools
Van zoek- naar onderzoekstools
62. Bronnen
Ben-David A. & Huurdeman H. (2014). Web Archive Search as Research:
Methodological and Theoretical Implications. Alexandria Journal, Volume 25,
No. 1 (2014)
Kamps J. (2011). Toward a model of interaction for complex search tasks.
Proc. ESAIR 2011
Rogers R. (2013). Digital Methods. MIT Press 2013
Huurdeman H., Ben-David A., Samar T. (2013). Sprint Methods for Web
Archive Research. Proc. Web Science 2013.
Huurdeman H., Ben-David A., Kamps J., Samar T., de Vries (2014). Finding
Pages in the Unarchived Web. Proc. DL 2014.
de Vries A., Alink W., Cornacchia R. (2010). Search by Strategy. Proc. ESAIR
'10