Presentation held at invited public lecture of the "Jinonice Information Mondays" series at the Institute of Information Studies and Librarienship, Faculty of Arts, Charles University in Prague, December 3, 2012
1 of 31
Download to read offline
More Related Content
Projekt Europeana Newspapers - online brána k evropským historickým novinám
1. Projekt Europeana Newspapers
online brána k evropským historickým novinám
Aleš Pekárek, Asociace evropských vědeckých knihoven
(LIBER)
3. Ročník doktorského studia na ÚISK FF UK
Jinonické informační pondělky, Praha, 3.12.2012
2. Obsah
• Cíle a záměry projektu
• Partnerské instituce
• Oblasti projektových aktivit
• Komunikace a diseminace projektu
• Přidružení partneři projektu
2
3. Proč zrovna noviny?
„Noviny jsou bazarem dějin“ (Die Zeitungen sind der Sekundenzeiger der
Geschichte)
Arthur Schopenhauer
„Noviny jsou jedním z nejpopulárnějších materiálů v naší knihovně, protože
přímo přetékají informacemi a mají co říci širokému spektru našich
návštěvníků. V rámci projektu dodáme do Europeany 2 milliony našich plně
digitalizovaných stránek, čímž je zpřístupníme mnohem většímu okruhu
uživatelů a v mnohem širším kontextu než doposud.“
Lily Knibbeler,
Ředitelka Marketingu a Služeb Královské (Národní) knihovny Nizozemí
V novinách si zkrátka každý něco najde!
3
4. Cíle & Záměry
1) Výběr, Rafinace („refinement“) a Agregace obsahu
• Učinit z Europeany největšího poskytovatele pan-evropské digitální sbírky
novin
• Dodání více než 18 million novinových stránek do Europeany, mnoho z
nich společně s vyextrahovaným fulltextem (OCR, OLR, NER)
2) Analýza existujících digitálních novinových sbírek
• Celoevropský průzkum
3) Kvalita & Doporučení nejlepší praxe
• Vytvoření optimalizovaného workflow a infrastruktur pro agregaci dat
• Doporučení nejlepších praxí pro pročištění, workflow, metadata a evaluačních
nástrojů v oblasti digitalizace novinových sbírek
4) Prezentace obsahu a fulltextové vyhledávání
• Vylepšený přístup k novinovým sbírkám v rámci Europeany (Content
Browser)
4
5. Projektové konsorcium & Stakeholdeři
• 17 partnerů z 12 zemí
• Národní knihovny – obsahoví a techničtí partneři
• Univerzitní knihovny – převážně techničtí partneři
• Malý a střední podnik (CCS – Content Conversion Specialists)
• Externí partneři a stakeholdeři:
• Zapojení knihoven vně projektového konsorcia
• Celkový rámec:
• Financováno jako Best Practice Network v programu ICT-PSP
Evropské komise
• Trvání projektu: Únor 2012 – Leden 2015
5
6. Partneři projektu Europeana Newspapers
NLE NLF
LIBER
TEL
SUB HH
NLL
CCS
USAL
NLP
BL SBB
KB ONB
NLT
UIBK
BnF
UB
LFT
7. Partneři projektu
1. Staatsbibliothek zu Berlin 9. University of Salford
(koordinátor projektu) 10. CCS Content Conversion
2. National Library of the Specialists GmbH
Netherlands 11. Stichting LIBER
3. National Library of Estonia 12. National Library of Latvia
4. Österreichische 13. National Library of Turkey
Nationalbibliothek 14. University Library of Belgrade
5. National Library of Finland 15. University of Innsbruck
6. Staats- und 16. Landesbibliothek Dr.
Universitätsbibliothek Hamburg Friedrich Tessmann
7. Bibliothèque nationale de 17. The British Library
France
8. National Library of Poland
8. Struktura projektových aktivit (+ koordinátoři)
• Work Package 1: Koordinace a řízení projektu
• Berlin State Library (SBB)
• Work Package 2: Výběr a rafinace digitalizovaných novin
• National Library of the Netherlands (KB)
• Work Package 3: Evaluace a hodnocení kvality výběru
• University of Salford (USAL)
• Work Package 4: Agregace a příprava novin pro Europeanu
• The European Library (TEL)
• Work Package 5: Doporučení „Best Practice“ v oblasti novinových
metadat
• University of Innsbruck (UIBK)
• Work Package 6: Diseminace a zužitkování projektu
• Association of European Research Libraries (LIBER)
9. WP 1: Koordinace a řízení projektu
• Administrace projektu
• Řízení všech finančních a organizačních záležitostí
• Finanční kontrola
• Projektová komunikace
• Sharepoint
• Zajištění kvality projektu
• monitoring, evaluace a reporting výsledků
• Risk managament
• Předcházení konfliktů v rámci konsorcia
10. WP 2: Rafinace digitalizovaných novin
• Analýza obsahu a výběr vhodných souborů z digitálních
novinových sbírek k “zušlechtění” (rafinaci)
• Definice požadavků na minimální kvalitu digitalizovaných
novin
• Koordinace zušlechťování vybraného novinového obsahu –
novin poskytnutých partnerskými institucemi
• Doporučení nejlepších praxí v oblasti rafinace digitálních
novinových sbírek
11. WP2: Rafinace – OCR and OLR
• 8 millionů stránek bude do Europeany
naagregováno „tak jak jsou”
==================================
• 10 millionů zrafinovaných stránek: CCS: Automatické rozpoznávání a
OCR (UIBK, Rakousko) segmentace novinových
Z toho: sloupků a článků
2 milliony:
OCR/OLR (segmentace článků)
(CCS, Německo)
UIBK obohatí vyextrahovaný obsah
strukturálními informacemi z její „Platformy
porozumění dokumentům“,
CCS pak informacemi o sloupcích, článcích;
zoning; segmentace článků a jejich úrovní
CCS zároveň poskytuje knihovnám
technologii pro manuální korekci výsledných UIBK: Detekce titulků a poznámek;
strukturálních informací Automatické generování obsahu
20. WP 3: Evaluace a hodnocení kvality
• Vytvoření uživatelských scénářů se vzorovými profily, datovými
sadami, „ground truth“ a nástroji hodnocení kvality výstupů
• Přehled faktorů využitelnosti, limitů a reálného potenciálu
existujících vstupních materiálů
• Identifikace kritických míst procesu společně s návrhem řešení
• Evaluace jednotlivých aktivit procesu
• Doporučení nejlepších praxí pro podobné post-digitalizační
pojekty
21. WP 4: Agregace a příprava obsahu pro Europeanu
• Identifikace a analýza veřejných i soukromých zdigitalizovaných
novinových sbírek napříč Evropou
• Vytvoření reálného časového rámce agregace novinového obsahu
• Vytvoření celoevropského registru digitalizovaných novinových
sbírek
• Doporučení, jak napasovat existující novinová metadata na EDM
(standard Europeany)
• Agregace novinových metadat partnerů projektu
• Vytvoření fulltextového indexu novinového obsahu
• Vývoj a spuštění prohlížeče obsahu (full-text + metadata +
originálni skeny či náhledy
22. WP 4: Agregace obsahu
• Agregace 18 millionů digitalizovaných
novinových stránek do služby Europeana
prostřednictvím Evropské knihovny
(jednotný portál evropských národních
knihoven)
www.europeana.eu
• Transformace vstupních metadat na bázi
EDM
• Distribuce dat do Europeany (po jejich
finální transformaci v rámci TEL)
www.theeuropeanlibrary.org
22
23. WP 4: Prezentace & Přístup k plným textům
Funkce obsahového browseru:
• Fulltextové vyhledávání, např.
• podle klíčového slova,
• podle jmenných entit
• podle novinových sbírek
• podle data vydání novin...
• Prohlížení naskenovaných
novinových stránek
• Propojení s příbuzným obsahem
nenovinového typu (fotky, hudba,
pohlednice...)
24. WP 5: Doporučení nejlepších praxí v oblasti metadat
• Analýza novinových metadatových formátů používaných
v evropských zemích
• Propojení existujících metadatových modelů se
standardem METS/ALTO a vydání doporučení
nejlepších praxí
• Použitelnost doporučení bude testováno v rámci
specifického evaluačního cyklu
25. Standard METS
METS – Metadata Encoding and Transmission Standard
vznikl v roce 2001
otevřený na bázi XML
Připraven pro Digital Library Federation (DLF)
Jerome McDonoughem a týmem METS
schéma hotováno LOC
udržováno redakční radou METS
Současná verze: 1.9
26. Funkce METS
Popisuje zdigitalizovaný objekt
Tištěná media (kniha, noviny, časopis)
audio/video materiály
Umožňuje včlenění jiných druhů metadat
Popisná metadata (DC, MODS, MARC, Premis)
Technická metadata (Mix, …)
Možnost strukturálních informací
Fyzická struktura
Logická struktura
Umí odkazovat na jakýkoliv jiný digitální objekt
Obrázky
Audio / video streamy
Text
Externí metadatové objekty
27. Standard ALTO
ALTO – Analyzed Layout and Text Object
XML based open standard
Schema is hosted at LOC (Library of Congress)
Maintained by METS Editorial Board
Current version: 2.0
28. WP 6: Komunikace a diseminace projektu
• Cíle
• Vytvoření celoevropské publicity
• Větší používanost Europeany
• Zajištění informovanosti cílových skupin
• Úkoly
1. Komunikace v mediích
2. Workshopy a účast na konferencích
• Tři hlavní diseminační workshopy
(rafinace, agregace, závěrečný)
• Národní informační dny (minimálně 10)
• Rozšíření sítě o další partnery
3. Zužitkování výsledků projektu
28
29. Hlavní komunikační kanály projektu
WWW: http://www.europeana-newspapers.eu/
Twitter: @eurnews
Facebook: https://www.facebook.com/EuropeanaNewspapers
Newsletter: http://bit.ly/TsoMpY (najdete na webové stránce projektu)
ݺߣshare: http://www.slideshare.net/Europeana_Newspapers
29
30. Přidružení partneři projektu
• Rozšíření sítě o tzv. Přidružené partnery projektu (nefinancované,
nepřímé benefity z partnerství)
• Možnost poskytnutí metadat digitálních novinových sbírek do Europeany v
rámci procesů projektu rapidní nárust návštěvníků
• Využití a přístup k výsledkům projektu (doporučení, dokumentace, SW
nástroje, metodika workflow)
• Hlavně pro držitele obsahu
• Většina identifikována v rámci průzkumu (40 vyplněných dotazníků, 35
potenciálních přidružených partnerů – o metodě výběru se stále diskutuje)
• Za ČR zájem projevila NK ČR a MZK (i ostatní instituce s digitálními
novinovými sbírkami jsou vítány)
30
31. Děkuji za pozornost
pekarek.ales@gmail.com
www.europeana-newspapers.eu
www.libereurope.eu