ݺߣ

ݺߣShare a Scribd company logo
Projekt Europeana Newspapers
                   online brána k evropským historickým novinám

Aleš Pekárek, Asociace evropských vědeckých knihoven
(LIBER)
3. Ročník doktorského studia na ÚISK FF UK

Jinonické informační pondělky, Praha, 3.12.2012
Obsah

•   Cíle a záměry projektu
•   Partnerské instituce
•   Oblasti projektových aktivit
•   Komunikace a diseminace projektu
•   Přidružení partneři projektu




                                       2
Proč zrovna noviny?


 „Noviny jsou bazarem dějin“ (Die Zeitungen sind der Sekundenzeiger der
  Geschichte)

Arthur Schopenhauer

 „Noviny jsou jedním z nejpopulárnějších materiálů v naší knihovně, protože
 přímo přetékají informacemi a mají co říci širokému spektru našich
 návštěvníků. V rámci projektu dodáme do Europeany 2 milliony našich plně
 digitalizovaných stránek, čímž je zpřístupníme mnohem většímu okruhu
 uživatelů a v mnohem širším kontextu než doposud.“

Lily Knibbeler,
Ředitelka Marketingu a Služeb Královské (Národní) knihovny Nizozemí

                 V novinách si zkrátka každý něco najde!


                                                                              3
Cíle & Záměry

1) Výběr, Rafinace („refinement“) a Agregace obsahu
• Učinit z Europeany největšího poskytovatele pan-evropské digitální sbírky
    novin
• Dodání více než 18 million novinových stránek do Europeany, mnoho z
    nich společně s vyextrahovaným fulltextem (OCR, OLR, NER)
2) Analýza existujících digitálních novinových sbírek
• Celoevropský průzkum
3) Kvalita & Doporučení nejlepší praxe
• Vytvoření optimalizovaného workflow a infrastruktur pro agregaci dat
• Doporučení nejlepších praxí pro pročištění, workflow, metadata a evaluačních
    nástrojů v oblasti digitalizace novinových sbírek
4) Prezentace obsahu a fulltextové vyhledávání
• Vylepšený přístup k novinovým sbírkám v rámci Europeany (Content
    Browser)



                                                                                 4
Projektové konsorcium & Stakeholdeři

• 17 partnerů z 12 zemí
    • Národní knihovny – obsahoví a techničtí partneři
    • Univerzitní knihovny – převážně techničtí partneři
    • Malý a střední podnik (CCS – Content Conversion Specialists)

• Externí partneři a stakeholdeři:
    • Zapojení knihoven vně projektového konsorcia

• Celkový rámec:
    • Financováno jako Best Practice Network v programu ICT-PSP
      Evropské komise
    • Trvání projektu: Únor 2012 – Leden 2015

                                                                     5
Partneři projektu Europeana Newspapers


                                    NLE                        NLF
                   LIBER
       TEL
                              SUB HH
                                                         NLL
                                        CCS
USAL
                                                   NLP

       BL                         SBB
                      KB                  ONB

                                                                 NLT
                           UIBK
             BnF

                                              UB
                             LFT
Partneři projektu

1. Staatsbibliothek zu Berlin    9. University of Salford
(koordinátor projektu)           10. CCS Content Conversion
2. National Library of the       Specialists GmbH
Netherlands                      11. Stichting LIBER
3. National Library of Estonia   12. National Library of Latvia
4. Österreichische               13. National Library of Turkey
Nationalbibliothek               14. University Library of Belgrade
5. National Library of Finland   15. University of Innsbruck
6. Staats- und                   16. Landesbibliothek Dr.
Universitätsbibliothek Hamburg   Friedrich Tessmann
7. Bibliothèque nationale de     17. The British Library
France
8. National Library of Poland
Struktura projektových aktivit (+ koordinátoři)

• Work Package 1: Koordinace a řízení projektu
  • Berlin State Library (SBB)
• Work Package 2: Výběr a rafinace digitalizovaných novin
  • National Library of the Netherlands (KB)
• Work Package 3: Evaluace a hodnocení kvality výběru
  • University of Salford (USAL)
• Work Package 4: Agregace a příprava novin pro Europeanu
  • The European Library (TEL)
• Work Package 5: Doporučení „Best Practice“ v oblasti novinových
 metadat
  • University of Innsbruck (UIBK)
• Work Package 6: Diseminace a zužitkování projektu
  • Association of European Research Libraries (LIBER)
WP 1: Koordinace a řízení projektu

• Administrace projektu
  • Řízení všech finančních a organizačních záležitostí
• Finanční kontrola
• Projektová komunikace
  • Sharepoint
• Zajištění kvality projektu
  • monitoring, evaluace a reporting výsledků
• Risk managament
  • Předcházení konfliktů v rámci konsorcia 
WP 2: Rafinace digitalizovaných novin

• Analýza obsahu a výběr vhodných souborů z digitálních
 novinových sbírek k “zušlechtění” (rafinaci)

• Definice požadavků na minimální kvalitu digitalizovaných
 novin

• Koordinace zušlechťování vybraného novinového obsahu –
 novin poskytnutých partnerskými institucemi

• Doporučení nejlepších praxí v oblasti rafinace digitálních
 novinových sbírek
WP2: Rafinace – OCR and OLR

• 8 millionů stránek bude do Europeany
  naagregováno „tak jak jsou”
==================================
• 10 millionů zrafinovaných stránek:            CCS: Automatické rozpoznávání a
  OCR (UIBK, Rakousko)                          segmentace novinových
Z toho:                                         sloupků a článků
2 milliony:
  OCR/OLR (segmentace článků)
  (CCS, Německo)

 UIBK obohatí vyextrahovaný obsah
 strukturálními informacemi z její „Platformy
 porozumění dokumentům“,
 CCS pak informacemi o sloupcích, článcích;
 zoning; segmentace článků a jejich úrovní
 CCS zároveň poskytuje knihovnám
 technologii pro manuální korekci výsledných         UIBK: Detekce titulků a poznámek;
 strukturálních informací                            Automatické generování obsahu
Projekt Europeana Newspapers - online brána k evropským historickým novinám
WP 2: Rafinace – Rozpoznávání jmenných entit

• KB dodala systém rozpoznávání jmenných entit (NER) (pro holandštinu,
 angličtinu a němčinu)
Projekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinám
WP 2: Rafinace – Rozpoznávání jmenných entit

• KB dodala systém rozpoznávání jmenných entit (NER) (pro holandštinu,
 angličtinu a němčinu)
WP 3: Evaluace a hodnocení kvality

• Vytvoření uživatelských scénářů se vzorovými profily, datovými
 sadami, „ground truth“ a nástroji hodnocení kvality výstupů

• Přehled faktorů využitelnosti, limitů a reálného potenciálu
 existujících vstupních materiálů

• Identifikace kritických míst procesu společně s návrhem řešení

• Evaluace jednotlivých aktivit procesu

• Doporučení nejlepších praxí pro podobné post-digitalizační
 pojekty
WP 4: Agregace a příprava obsahu pro Europeanu


• Identifikace a analýza veřejných i soukromých zdigitalizovaných
  novinových sbírek napříč Evropou
• Vytvoření reálného časového rámce agregace novinového obsahu
• Vytvoření celoevropského registru digitalizovaných novinových
  sbírek
• Doporučení, jak napasovat existující novinová metadata na EDM
  (standard Europeany)
• Agregace novinových metadat partnerů projektu
• Vytvoření fulltextového indexu novinového obsahu
• Vývoj a spuštění prohlížeče obsahu (full-text + metadata +
  originálni skeny či náhledy
WP 4: Agregace obsahu

• Agregace 18 millionů digitalizovaných
  novinových stránek do služby Europeana
  prostřednictvím Evropské knihovny
  (jednotný portál evropských národních
  knihoven)
                                              www.europeana.eu
• Transformace vstupních metadat na bázi
  EDM

• Distribuce dat do Europeany (po jejich
  finální transformaci v rámci TEL)

                                           www.theeuropeanlibrary.org


                                                                 22
WP 4: Prezentace & Přístup k plným textům

Funkce obsahového browseru:
• Fulltextové vyhledávání, např.
  •   podle klíčového slova,
  •   podle jmenných entit
  •   podle novinových sbírek
  •   podle data vydání novin...
• Prohlížení naskenovaných
  novinových stránek
• Propojení s příbuzným obsahem
  nenovinového typu (fotky, hudba,
  pohlednice...)
WP 5: Doporučení nejlepších praxí v oblasti metadat


• Analýza novinových metadatových formátů používaných
 v evropských zemích

• Propojení existujících metadatových modelů se
 standardem METS/ALTO a vydání doporučení
 nejlepších praxí

  • Použitelnost doporučení bude testováno v rámci
    specifického evaluačního cyklu
Standard METS


METS – Metadata Encoding and Transmission Standard

 vznikl v roce 2001
 otevřený na bázi XML
 Připraven pro Digital Library Federation (DLF)
   Jerome McDonoughem a týmem METS

 schéma hotováno LOC
 udržováno redakční radou METS
 Současná verze: 1.9
Funkce METS


 Popisuje zdigitalizovaný objekt
    Tištěná media (kniha, noviny, časopis)
    audio/video materiály

 Umožňuje včlenění jiných druhů metadat
    Popisná metadata (DC, MODS, MARC, Premis)
    Technická metadata (Mix, …)

 Možnost strukturálních informací
    Fyzická struktura
    Logická struktura

 Umí odkazovat na jakýkoliv jiný digitální objekt
      Obrázky
      Audio / video streamy
      Text
      Externí metadatové objekty
Standard ALTO



ALTO – Analyzed Layout and Text Object

 XML based open standard
 Schema is hosted at LOC (Library of Congress)
 Maintained by METS Editorial Board
 Current version: 2.0
WP 6: Komunikace a diseminace projektu

• Cíle
     • Vytvoření celoevropské publicity
     • Větší používanost Europeany
     • Zajištění informovanosti cílových skupin
•   Úkoly
     1. Komunikace v mediích
     2. Workshopy a účast na konferencích
         • Tři hlavní diseminační workshopy
           (rafinace, agregace, závěrečný)
         • Národní informační dny (minimálně 10)
         • Rozšíření sítě o další partnery
     3. Zužitkování výsledků projektu


                                                   28
Hlavní komunikační kanály projektu

WWW: http://www.europeana-newspapers.eu/
Twitter: @eurnews
Facebook: https://www.facebook.com/EuropeanaNewspapers
Newsletter: http://bit.ly/TsoMpY (najdete na webové stránce projektu)
ݺߣshare: http://www.slideshare.net/Europeana_Newspapers




                                                                        29
Přidružení partneři projektu

• Rozšíření sítě o tzv. Přidružené partnery projektu (nefinancované,
  nepřímé benefity z partnerství)
   • Možnost poskytnutí metadat digitálních novinových sbírek do Europeany v
     rámci procesů projektu  rapidní nárust návštěvníků
   • Využití a přístup k výsledkům projektu (doporučení, dokumentace, SW
     nástroje, metodika workflow)

   • Hlavně pro držitele obsahu

   • Většina identifikována v rámci průzkumu (40 vyplněných dotazníků, 35
     potenciálních přidružených partnerů – o metodě výběru se stále diskutuje)

   • Za ČR zájem projevila NK ČR a MZK (i ostatní instituce s digitálními
     novinovými sbírkami jsou vítány)


                                                                                 30
Děkuji za pozornost

  pekarek.ales@gmail.com
www.europeana-newspapers.eu
    www.libereurope.eu

More Related Content

Projekt Europeana Newspapers - online brána k evropským historickým novinám

  • 1. Projekt Europeana Newspapers online brána k evropským historickým novinám Aleš Pekárek, Asociace evropských vědeckých knihoven (LIBER) 3. Ročník doktorského studia na ÚISK FF UK Jinonické informační pondělky, Praha, 3.12.2012
  • 2. Obsah • Cíle a záměry projektu • Partnerské instituce • Oblasti projektových aktivit • Komunikace a diseminace projektu • Přidružení partneři projektu 2
  • 3. Proč zrovna noviny? „Noviny jsou bazarem dějin“ (Die Zeitungen sind der Sekundenzeiger der Geschichte) Arthur Schopenhauer „Noviny jsou jedním z nejpopulárnějších materiálů v naší knihovně, protože přímo přetékají informacemi a mají co říci širokému spektru našich návštěvníků. V rámci projektu dodáme do Europeany 2 milliony našich plně digitalizovaných stránek, čímž je zpřístupníme mnohem většímu okruhu uživatelů a v mnohem širším kontextu než doposud.“ Lily Knibbeler, Ředitelka Marketingu a Služeb Královské (Národní) knihovny Nizozemí V novinách si zkrátka každý něco najde! 3
  • 4. Cíle & Záměry 1) Výběr, Rafinace („refinement“) a Agregace obsahu • Učinit z Europeany největšího poskytovatele pan-evropské digitální sbírky novin • Dodání více než 18 million novinových stránek do Europeany, mnoho z nich společně s vyextrahovaným fulltextem (OCR, OLR, NER) 2) Analýza existujících digitálních novinových sbírek • Celoevropský průzkum 3) Kvalita & Doporučení nejlepší praxe • Vytvoření optimalizovaného workflow a infrastruktur pro agregaci dat • Doporučení nejlepších praxí pro pročištění, workflow, metadata a evaluačních nástrojů v oblasti digitalizace novinových sbírek 4) Prezentace obsahu a fulltextové vyhledávání • Vylepšený přístup k novinovým sbírkám v rámci Europeany (Content Browser) 4
  • 5. Projektové konsorcium & Stakeholdeři • 17 partnerů z 12 zemí • Národní knihovny – obsahoví a techničtí partneři • Univerzitní knihovny – převážně techničtí partneři • Malý a střední podnik (CCS – Content Conversion Specialists) • Externí partneři a stakeholdeři: • Zapojení knihoven vně projektového konsorcia • Celkový rámec: • Financováno jako Best Practice Network v programu ICT-PSP Evropské komise • Trvání projektu: Únor 2012 – Leden 2015 5
  • 6. Partneři projektu Europeana Newspapers NLE NLF LIBER TEL SUB HH NLL CCS USAL NLP BL SBB KB ONB NLT UIBK BnF UB LFT
  • 7. Partneři projektu 1. Staatsbibliothek zu Berlin 9. University of Salford (koordinátor projektu) 10. CCS Content Conversion 2. National Library of the Specialists GmbH Netherlands 11. Stichting LIBER 3. National Library of Estonia 12. National Library of Latvia 4. Österreichische 13. National Library of Turkey Nationalbibliothek 14. University Library of Belgrade 5. National Library of Finland 15. University of Innsbruck 6. Staats- und 16. Landesbibliothek Dr. Universitätsbibliothek Hamburg Friedrich Tessmann 7. Bibliothèque nationale de 17. The British Library France 8. National Library of Poland
  • 8. Struktura projektových aktivit (+ koordinátoři) • Work Package 1: Koordinace a řízení projektu • Berlin State Library (SBB) • Work Package 2: Výběr a rafinace digitalizovaných novin • National Library of the Netherlands (KB) • Work Package 3: Evaluace a hodnocení kvality výběru • University of Salford (USAL) • Work Package 4: Agregace a příprava novin pro Europeanu • The European Library (TEL) • Work Package 5: Doporučení „Best Practice“ v oblasti novinových metadat • University of Innsbruck (UIBK) • Work Package 6: Diseminace a zužitkování projektu • Association of European Research Libraries (LIBER)
  • 9. WP 1: Koordinace a řízení projektu • Administrace projektu • Řízení všech finančních a organizačních záležitostí • Finanční kontrola • Projektová komunikace • Sharepoint • Zajištění kvality projektu • monitoring, evaluace a reporting výsledků • Risk managament • Předcházení konfliktů v rámci konsorcia 
  • 10. WP 2: Rafinace digitalizovaných novin • Analýza obsahu a výběr vhodných souborů z digitálních novinových sbírek k “zušlechtění” (rafinaci) • Definice požadavků na minimální kvalitu digitalizovaných novin • Koordinace zušlechťování vybraného novinového obsahu – novin poskytnutých partnerskými institucemi • Doporučení nejlepších praxí v oblasti rafinace digitálních novinových sbírek
  • 11. WP2: Rafinace – OCR and OLR • 8 millionů stránek bude do Europeany naagregováno „tak jak jsou” ================================== • 10 millionů zrafinovaných stránek: CCS: Automatické rozpoznávání a OCR (UIBK, Rakousko) segmentace novinových Z toho: sloupků a článků 2 milliony: OCR/OLR (segmentace článků) (CCS, Německo) UIBK obohatí vyextrahovaný obsah strukturálními informacemi z její „Platformy porozumění dokumentům“, CCS pak informacemi o sloupcích, článcích; zoning; segmentace článků a jejich úrovní CCS zároveň poskytuje knihovnám technologii pro manuální korekci výsledných UIBK: Detekce titulků a poznámek; strukturálních informací Automatické generování obsahu
  • 13. WP 2: Rafinace – Rozpoznávání jmenných entit • KB dodala systém rozpoznávání jmenných entit (NER) (pro holandštinu, angličtinu a němčinu)
  • 19. WP 2: Rafinace – Rozpoznávání jmenných entit • KB dodala systém rozpoznávání jmenných entit (NER) (pro holandštinu, angličtinu a němčinu)
  • 20. WP 3: Evaluace a hodnocení kvality • Vytvoření uživatelských scénářů se vzorovými profily, datovými sadami, „ground truth“ a nástroji hodnocení kvality výstupů • Přehled faktorů využitelnosti, limitů a reálného potenciálu existujících vstupních materiálů • Identifikace kritických míst procesu společně s návrhem řešení • Evaluace jednotlivých aktivit procesu • Doporučení nejlepších praxí pro podobné post-digitalizační pojekty
  • 21. WP 4: Agregace a příprava obsahu pro Europeanu • Identifikace a analýza veřejných i soukromých zdigitalizovaných novinových sbírek napříč Evropou • Vytvoření reálného časového rámce agregace novinového obsahu • Vytvoření celoevropského registru digitalizovaných novinových sbírek • Doporučení, jak napasovat existující novinová metadata na EDM (standard Europeany) • Agregace novinových metadat partnerů projektu • Vytvoření fulltextového indexu novinového obsahu • Vývoj a spuštění prohlížeče obsahu (full-text + metadata + originálni skeny či náhledy
  • 22. WP 4: Agregace obsahu • Agregace 18 millionů digitalizovaných novinových stránek do služby Europeana prostřednictvím Evropské knihovny (jednotný portál evropských národních knihoven) www.europeana.eu • Transformace vstupních metadat na bázi EDM • Distribuce dat do Europeany (po jejich finální transformaci v rámci TEL) www.theeuropeanlibrary.org 22
  • 23. WP 4: Prezentace & Přístup k plným textům Funkce obsahového browseru: • Fulltextové vyhledávání, např. • podle klíčového slova, • podle jmenných entit • podle novinových sbírek • podle data vydání novin... • Prohlížení naskenovaných novinových stránek • Propojení s příbuzným obsahem nenovinového typu (fotky, hudba, pohlednice...)
  • 24. WP 5: Doporučení nejlepších praxí v oblasti metadat • Analýza novinových metadatových formátů používaných v evropských zemích • Propojení existujících metadatových modelů se standardem METS/ALTO a vydání doporučení nejlepších praxí • Použitelnost doporučení bude testováno v rámci specifického evaluačního cyklu
  • 25. Standard METS METS – Metadata Encoding and Transmission Standard  vznikl v roce 2001  otevřený na bázi XML  Připraven pro Digital Library Federation (DLF) Jerome McDonoughem a týmem METS  schéma hotováno LOC  udržováno redakční radou METS  Současná verze: 1.9
  • 26. Funkce METS  Popisuje zdigitalizovaný objekt  Tištěná media (kniha, noviny, časopis)  audio/video materiály  Umožňuje včlenění jiných druhů metadat  Popisná metadata (DC, MODS, MARC, Premis)  Technická metadata (Mix, …)  Možnost strukturálních informací  Fyzická struktura  Logická struktura  Umí odkazovat na jakýkoliv jiný digitální objekt  Obrázky  Audio / video streamy  Text  Externí metadatové objekty
  • 27. Standard ALTO ALTO – Analyzed Layout and Text Object  XML based open standard  Schema is hosted at LOC (Library of Congress)  Maintained by METS Editorial Board  Current version: 2.0
  • 28. WP 6: Komunikace a diseminace projektu • Cíle • Vytvoření celoevropské publicity • Větší používanost Europeany • Zajištění informovanosti cílových skupin • Úkoly 1. Komunikace v mediích 2. Workshopy a účast na konferencích • Tři hlavní diseminační workshopy (rafinace, agregace, závěrečný) • Národní informační dny (minimálně 10) • Rozšíření sítě o další partnery 3. Zužitkování výsledků projektu 28
  • 29. Hlavní komunikační kanály projektu WWW: http://www.europeana-newspapers.eu/ Twitter: @eurnews Facebook: https://www.facebook.com/EuropeanaNewspapers Newsletter: http://bit.ly/TsoMpY (najdete na webové stránce projektu) ݺߣshare: http://www.slideshare.net/Europeana_Newspapers 29
  • 30. Přidružení partneři projektu • Rozšíření sítě o tzv. Přidružené partnery projektu (nefinancované, nepřímé benefity z partnerství) • Možnost poskytnutí metadat digitálních novinových sbírek do Europeany v rámci procesů projektu  rapidní nárust návštěvníků • Využití a přístup k výsledkům projektu (doporučení, dokumentace, SW nástroje, metodika workflow) • Hlavně pro držitele obsahu • Většina identifikována v rámci průzkumu (40 vyplněných dotazníků, 35 potenciálních přidružených partnerů – o metodě výběru se stále diskutuje) • Za ČR zájem projevila NK ČR a MZK (i ostatní instituce s digitálními novinovými sbírkami jsou vítány) 30
  • 31. Děkuji za pozornost pekarek.ales@gmail.com www.europeana-newspapers.eu www.libereurope.eu