際際滷

際際滷Share a Scribd company logo
Paola Gargiulo
                 p.gargiulo@cineca.it

19 aprile 2013
     Assistiamo alla produzione in costante crescita di dati della
    ricerca in formato digitale in moltissime discipline, non solo nelle
    scienze (astronomia, fisica, climatologia, vulcanologia, medicina,
    chimica, matermatica ecc) ma anche nelle scienze sociali e umane
    (statistica, economia, psicologia, archeologia, storia dellarte ecc.)

   La ricerca diventa, pertanto, sempre pi湛 data-intensive

   La ricerca utilizza pertanto sempre di pi湛 tecnologie avanzate di
    comunicazione, di informazione e di calcolo, incrementando le
    forme di collaborazione tra ricercatori facilitate dalla costituzione
    di network di macchine sempre pi湛 potenti e performanti

   Parliamo di E-Research/eResearch e di E-Science/eScience e anche
    di Science 2.0
   Che cosa si intende per eResearch
   Collaborazione tra ricercatori che avviene tramite la
    rete indipendentemente dalla distanza tramite luso
       risorse di calcolo/computer distribuite per la produzione, elaborazione
        dati condivisi
       strumenti di collaborazione via web dai sw di social bookmarking per
        condividere bibliografie, report, testi completi, immagini alle video-
        conference e qualsiasi altra tecnologia di condivisione
   Gestione dei dati e condivisione/Data management and
    sharing
       Facilitare larchiviazione (storage) e la catalogazione di dati
        della ricerca (data sets) al fine di permettere ai ricercatori di
        continuare ad accedere a questi dati (conservazione a lungo
        termine) e poterli riutilizzare
   High Performing Computing
       sistemi di calcolo molto potenti e performanti distribuiti in
        rete che grazie alla loro potenza e alla memoria sono in
        grado di analizzare grandi quantit di dati (large data sets) di
        creare modelli di sistemi complessi, di ricercare enormi
        database e di trovare soluzioni a grossi problemi (in ambiti di
        applicazione: modelli per i cambiamenti climatici, allo studio
        dei social network, ecc)

   Visualizzazione
           Tecnologie che permettono di visualizzare i dati in
            modo da comprendere data set complessi e concetti
            astratti
   E-Science is about global collaboration in key areas of
    science,and the next generatiion of infrastructure
    that will enable it
       John Taylor- Director General Research Councils- Office of
        Science and Technology (2000)

   La scienza basata su sistemi di calcolo molto potenti e
    performanti distribuiti in rete che grazie alla loro potenza e alla
    memoria sono in grado di analizzare grandi quantit di dati
    (large data sets)
   Linfrastruttura che sostiene questi sistemi di calcolo 竪 condivisa
    tra scienziati delle varie discipline nel mondo, nessun scienziato,
    nessun gruppo, nessuna istituzione sarebbe in grado di
    mantenere/gestire una tale infrastruttura

       Esempi di E-Science :
        Large Hadron Collider (CERN);
        European Grid infrastructure
     si intendono i dati raccolti, osservati, o creati per essere
    analizzati e produrre i risultati originali di una ricerca
      questi dati, che vengono generati per scopi diversi e
    attraverso procedure diverse sono divisi in categorie:
       Dati risultati da osservazioni (dati catturati in tempo reale,non
        riproducibili, per es. dati dei sensori, di indagini, immagine
        neurologiche ecc)
       Dati sperimentali (dati di laboratorio, riproducibili ma costosi ,
        per es. le sequenze dei geni, ecc)
       Dati generati da simulazioni (per es. modelli climatici, modelli
        economici)
       Dati derivati o compilati (dati riproducibili ma costosi, per es. i
        test e i dati estratti/text and data mining, modelli 3D
       Dati di riferimento o dati di canone (statici e organici) per es. le
        banche dati di sequenze di geni, le strutture chimiche, i portali
        con dati spaziali
                                  MA NON SOLO
   I documenti in word o i fogli excel
    Appunti di laboratorio, diari
    Questionari, le trascrizioni,
    Le registrazioni audio e video
    Fotografie e i film
    Le risposte ai test
    Le presentazioni in ppt, artifatti,
    Collezioni di oggetti digitali acquisiti e
    generati durante un processo di ricerca
    I file di programmi (data files)
   Database che contengono video, audio,
    testi, immagini

   Modelli, algoritmi, programmi sw

    File di log per lanalisi di sw, sw per la
    simulazione, schemi

   Metodologie e flussi di lavoro

   Procedure operative standard e protocolli
   Database che contengono video, audio,
    testi, immagini

   Modelli, algoritmi, programmi sw

    File di log per lanalisi di sw, sw per la
    simulazione, schemi

   Metodologie e flussi di lavoro

   Procedure operative standard e protocolli
   I dati raccolti durante la vita di un
    progetto /Research Records

     i file elettronici di un progetto
    il bando del progetto
   I rapporti tecnici
    I rapporti sulla ricerca
Dati strutturati
  Matrici di dati
  Dati transazionali

 Grafi
  Web e Social network
  Strutture molecolari

 Dati Ordinati
  Dati spaziali
  Serie storiche
  Sequenze
  Sequenze genetiche

 Dati non strutturati
  Documenti testuali
  Immagini
  Audio e Video

Cortesy: Roberta Turra  r.turra@cineca.it
    I dati quando vengono processati, organizzati,
    strutturati o presentati in un contesto che li
    renda utili diventano informazione

   I metadati sono dati strutturati sui dati per
    renderne possibile la consultazione, il discovery,
    il ri-uso, la conservazione a medio e lungo
    termine, ecc
 La selezione                  Problematiche connesse con la
                                conservazione a lungo termine dei dati
 La gestione
                                Definizione del periodo della durata dei
 L integrit, la sicurezza   dati
 Descrizione/metadatazione     Migrazione dei dati nei formati pi湛 adatti
 I formati                     Migrazioni dei dati sui supporti pi湛 adatti
 Larchiviazione/storage       Creazione di metadati per la
                               conservazione e documentazione
 Laccesso ai dati
                                La conservazione dei dati
 La condivisione, il riuso,

 La ridistribuzione

 La conservazione a medio
lungo termine
   Oggi si sta affermando sempre di pi湛 una
    nuova figura professionale in UK,negli USA, nei
    paesi del Nord Europa chiamata il liaison
    librarian

   Si tratta di un bibliotecario che lavora a
    stretto contatto con i ricercatori e i gruppi di
    ricerca di ununiversit o di un ente di ricerca
    e che svolge delle attivit attinenti al loro
    lavoro e ai loro bisogni
   Fornire suggerimenti su fonti di finanziamento per i progetti

   Fornire un servizio di aggiornamento di notizie di interesse al ricercatore
    e/o gruppo di ricerca /literature reviews or current awareness alerts

   Fornire assistenza durante i processi di valutazione dei ricercatori/ su aspetti
    bibliometrici, misura dellimpatto

   Consulenza sul diritto dautore

   Addestramento nelluso dei sw per la creazione di bibliografie (bibliographic
    software per es. ReferenceWork, Zotero, Mendeley etc

   Promozione della disseminazione dei risultati della ricerca (pubblicazioni e
    anche i dati della ricerca) attraverso le strategie dellAccesso Aperto: 1.
    auto-archiviazione degli articoli e dei dati della ricerca nellarchivio
    istituzionale o archivi disciplinari o archivi dati aperti 2. pubblicazione degli
    articoli in riviste ad Accesso Aperto, deposito dei dati della ricerca in archivi
    di dati aperti
   Aumentare la consapevolezza dei ricercatori sulle problematiche connesse alla
    gestione dei dati della ricerca
    Assistere i ricercatori nella elaborazione del piano di gestione dei dati Data
    Management Plan che oggi viene richiesto in diversi paesi dagli enti finanziatori
    della ricerca
       Il piano deve documentare in modo articolato come i dati della ricerca saranno descritti, archiviati,
        condivisi, resi accessibili, ri-utilizzabili durante la durata del progetto e successivamente
   Consigliare la scelta dei formati da adottare
   Consigliare sugli aspetti relativi alla propriet intellettuale, allaccesso aperto dei
    dati, al riuso de dati
   Fornire supporto per la citazione dei dati e per luso di identificatori persistenti
   Fornire consulenza su aspetti etici e di privacy
   Fornire informazioni sugli aspetti relativi allarchiviazione/storage e alla sicurezza
    dei dati / back-up
   Offrire consulenza sugli aspetti relativi alla conservazione a lungo tempo
   Occuparsi della metadatazione dei dati in collaborazione con lesperto/a di
    dominio/data scientist
   Occuparsi della gestione del repository/catalogo dei dati o suggerire soluzioni in
    cloud computing
Fonte: DDI Structural Reform Group. DDI Version 3.0 Conceptual Model." DDI Alliance. 2004.
Fonte: Boston Universities Libraries  Research Data Management  Data Life Cycle
1. Offrire assistenza nella gestione
                                                          dei dati
                                                      2. Contribuire allo sviluppo dei
                                                          metadati e standard dei dati e
                                                          fornire servizi di metadatazione
                                                      3. Creare le figure professionali dei
                                                          data librarian
                                                      4. Partecipare attivamente nelle
                                                          creazione di policy sui dati della
                                                          ricerca delle istituzioni
                                                      5. Collaborare con i ricercatori e
                                                          gruppi di ricerca per la creazione di
                                                          infrastruttrure interoperabili per
                                                          laccesso ai dati e alla condivisione
                                                          dei dati
                                                      6. Sostenere il ciclo di vita dei dati
                                                          fornendo servizi di archiviazione,
                                                          discovery e accesso permanente
                                                      7. Promuovere lutilizzo di identificatori
                                                          persistenti per laccesso
                                                          permanente ai dati
                                                      8. Fornire un catalogo dei dati
                                                      9. Familiarit con la gestione di dati
                                                          nelle varie discipline
                                                      10. Offrire o mediare larchiviazione
                                           2012           sicura in collaborazione con le
                                                          strutture IT o con servizi di cloud-
                                                          computing
http://www.libereurope.eu/news/ten-recommendations-for-libraries-to-get-started-with-research-data-management
http://www.jisc.ac.uk/media/documents/programmes/digitalrepositories/dataskillscareersfinalreport.pdf
La gestione dei dati della ricerca e il ruolo delle biblioteche: quali sfide e quali prospettive / Paola Gargiulo
http://libraries.ucsd.edu/services/data-curation/
https://www.lib.umn.edu/datamanagement
http://www.lib.cam.ac.uk/dataman/
   OpenAIRE e OpenAIRE plus
   un portale per
    laccesso ai risultati
    e ai dati della
    ricerca finanziata
    nel 7属 Programma
    Quadro
   questionari/
    follow up


                               http://www.openaire.eu/it
   EUDAT: progetto collaborativo europeo per
    uninfrastruttura comune per i dati
   evitare un
    nuovo
    digital divide:
    lEuropa deve
    procedere allo
    stesso passo



          http://www.eudat.eu/
s馨温姻岳禽温岳温:   progetto
             finanziato dal CINECA per
             gestire le nuove
             problematiche BigData ed
             HPC fornendo, accanto
             all'infrastruttura per la

produzione, l'archiviazione e la fruizione dei
dati, un servizio di analisi avanzata sui dati
prodotti dagli utenti che ne favorisce il riuso
anche da parte di altre comunit
scientifiche
http://mappaproject.arch.unipi.it/

MAPPA - Metodologia
Applicate alla Predittivit
del Potenziale
Archeologico


Il primo open digital
archaeological archive
italiano, che rende
accessibili tutti i dati
pubblici delle indagini
archeologiche

Uso di sistemi e
procedure standardizzate
per la redazione e la
gestione dei dati
archeologici
   DATACite, progetto
    collaborativo per la
    descrizione standard
    dei datasets e la loro
    citabilit via DOI
   Per lItalia: CRUI
   altri riferimenti
    tecnici:
   CODATA, http://www.codata.org/
   Open Data Commons,
    http://opendatacommons.org/


                                     http://www.datacite.org/
http://www.datacite.org/repolist
La gestione dei dati della ricerca e il ruolo delle biblioteche: quali sfide e quali prospettive / Paola Gargiulo
http://wiki.openarchives.it/index.php/Bibliografia_e_sitografia_sugli_open_research_data

More Related Content

La gestione dei dati della ricerca e il ruolo delle biblioteche: quali sfide e quali prospettive / Paola Gargiulo

  • 1. Paola Gargiulo p.gargiulo@cineca.it 19 aprile 2013
  • 2. Assistiamo alla produzione in costante crescita di dati della ricerca in formato digitale in moltissime discipline, non solo nelle scienze (astronomia, fisica, climatologia, vulcanologia, medicina, chimica, matermatica ecc) ma anche nelle scienze sociali e umane (statistica, economia, psicologia, archeologia, storia dellarte ecc.) La ricerca diventa, pertanto, sempre pi湛 data-intensive La ricerca utilizza pertanto sempre di pi湛 tecnologie avanzate di comunicazione, di informazione e di calcolo, incrementando le forme di collaborazione tra ricercatori facilitate dalla costituzione di network di macchine sempre pi湛 potenti e performanti Parliamo di E-Research/eResearch e di E-Science/eScience e anche di Science 2.0
  • 3. Che cosa si intende per eResearch Collaborazione tra ricercatori che avviene tramite la rete indipendentemente dalla distanza tramite luso risorse di calcolo/computer distribuite per la produzione, elaborazione dati condivisi strumenti di collaborazione via web dai sw di social bookmarking per condividere bibliografie, report, testi completi, immagini alle video- conference e qualsiasi altra tecnologia di condivisione Gestione dei dati e condivisione/Data management and sharing Facilitare larchiviazione (storage) e la catalogazione di dati della ricerca (data sets) al fine di permettere ai ricercatori di continuare ad accedere a questi dati (conservazione a lungo termine) e poterli riutilizzare
  • 4. High Performing Computing sistemi di calcolo molto potenti e performanti distribuiti in rete che grazie alla loro potenza e alla memoria sono in grado di analizzare grandi quantit di dati (large data sets) di creare modelli di sistemi complessi, di ricercare enormi database e di trovare soluzioni a grossi problemi (in ambiti di applicazione: modelli per i cambiamenti climatici, allo studio dei social network, ecc) Visualizzazione Tecnologie che permettono di visualizzare i dati in modo da comprendere data set complessi e concetti astratti
  • 5. E-Science is about global collaboration in key areas of science,and the next generatiion of infrastructure that will enable it John Taylor- Director General Research Councils- Office of Science and Technology (2000) La scienza basata su sistemi di calcolo molto potenti e performanti distribuiti in rete che grazie alla loro potenza e alla memoria sono in grado di analizzare grandi quantit di dati (large data sets) Linfrastruttura che sostiene questi sistemi di calcolo 竪 condivisa tra scienziati delle varie discipline nel mondo, nessun scienziato, nessun gruppo, nessuna istituzione sarebbe in grado di mantenere/gestire una tale infrastruttura Esempi di E-Science : Large Hadron Collider (CERN); European Grid infrastructure
  • 6. si intendono i dati raccolti, osservati, o creati per essere analizzati e produrre i risultati originali di una ricerca questi dati, che vengono generati per scopi diversi e attraverso procedure diverse sono divisi in categorie: Dati risultati da osservazioni (dati catturati in tempo reale,non riproducibili, per es. dati dei sensori, di indagini, immagine neurologiche ecc) Dati sperimentali (dati di laboratorio, riproducibili ma costosi , per es. le sequenze dei geni, ecc) Dati generati da simulazioni (per es. modelli climatici, modelli economici) Dati derivati o compilati (dati riproducibili ma costosi, per es. i test e i dati estratti/text and data mining, modelli 3D Dati di riferimento o dati di canone (statici e organici) per es. le banche dati di sequenze di geni, le strutture chimiche, i portali con dati spaziali MA NON SOLO
  • 7. I documenti in word o i fogli excel Appunti di laboratorio, diari Questionari, le trascrizioni, Le registrazioni audio e video Fotografie e i film Le risposte ai test Le presentazioni in ppt, artifatti, Collezioni di oggetti digitali acquisiti e generati durante un processo di ricerca I file di programmi (data files)
  • 8. Database che contengono video, audio, testi, immagini Modelli, algoritmi, programmi sw File di log per lanalisi di sw, sw per la simulazione, schemi Metodologie e flussi di lavoro Procedure operative standard e protocolli
  • 9. Database che contengono video, audio, testi, immagini Modelli, algoritmi, programmi sw File di log per lanalisi di sw, sw per la simulazione, schemi Metodologie e flussi di lavoro Procedure operative standard e protocolli
  • 10. I dati raccolti durante la vita di un progetto /Research Records i file elettronici di un progetto il bando del progetto I rapporti tecnici I rapporti sulla ricerca
  • 11. Dati strutturati Matrici di dati Dati transazionali Grafi Web e Social network Strutture molecolari Dati Ordinati Dati spaziali Serie storiche Sequenze Sequenze genetiche Dati non strutturati Documenti testuali Immagini Audio e Video Cortesy: Roberta Turra r.turra@cineca.it
  • 12. I dati quando vengono processati, organizzati, strutturati o presentati in un contesto che li renda utili diventano informazione I metadati sono dati strutturati sui dati per renderne possibile la consultazione, il discovery, il ri-uso, la conservazione a medio e lungo termine, ecc
  • 13. La selezione Problematiche connesse con la conservazione a lungo termine dei dati La gestione Definizione del periodo della durata dei L integrit, la sicurezza dati Descrizione/metadatazione Migrazione dei dati nei formati pi湛 adatti I formati Migrazioni dei dati sui supporti pi湛 adatti Larchiviazione/storage Creazione di metadati per la conservazione e documentazione Laccesso ai dati La conservazione dei dati La condivisione, il riuso, La ridistribuzione La conservazione a medio lungo termine
  • 14. Oggi si sta affermando sempre di pi湛 una nuova figura professionale in UK,negli USA, nei paesi del Nord Europa chiamata il liaison librarian Si tratta di un bibliotecario che lavora a stretto contatto con i ricercatori e i gruppi di ricerca di ununiversit o di un ente di ricerca e che svolge delle attivit attinenti al loro lavoro e ai loro bisogni
  • 15. Fornire suggerimenti su fonti di finanziamento per i progetti Fornire un servizio di aggiornamento di notizie di interesse al ricercatore e/o gruppo di ricerca /literature reviews or current awareness alerts Fornire assistenza durante i processi di valutazione dei ricercatori/ su aspetti bibliometrici, misura dellimpatto Consulenza sul diritto dautore Addestramento nelluso dei sw per la creazione di bibliografie (bibliographic software per es. ReferenceWork, Zotero, Mendeley etc Promozione della disseminazione dei risultati della ricerca (pubblicazioni e anche i dati della ricerca) attraverso le strategie dellAccesso Aperto: 1. auto-archiviazione degli articoli e dei dati della ricerca nellarchivio istituzionale o archivi disciplinari o archivi dati aperti 2. pubblicazione degli articoli in riviste ad Accesso Aperto, deposito dei dati della ricerca in archivi di dati aperti
  • 16. Aumentare la consapevolezza dei ricercatori sulle problematiche connesse alla gestione dei dati della ricerca Assistere i ricercatori nella elaborazione del piano di gestione dei dati Data Management Plan che oggi viene richiesto in diversi paesi dagli enti finanziatori della ricerca Il piano deve documentare in modo articolato come i dati della ricerca saranno descritti, archiviati, condivisi, resi accessibili, ri-utilizzabili durante la durata del progetto e successivamente Consigliare la scelta dei formati da adottare Consigliare sugli aspetti relativi alla propriet intellettuale, allaccesso aperto dei dati, al riuso de dati Fornire supporto per la citazione dei dati e per luso di identificatori persistenti Fornire consulenza su aspetti etici e di privacy Fornire informazioni sugli aspetti relativi allarchiviazione/storage e alla sicurezza dei dati / back-up Offrire consulenza sugli aspetti relativi alla conservazione a lungo tempo Occuparsi della metadatazione dei dati in collaborazione con lesperto/a di dominio/data scientist Occuparsi della gestione del repository/catalogo dei dati o suggerire soluzioni in cloud computing
  • 17. Fonte: DDI Structural Reform Group. DDI Version 3.0 Conceptual Model." DDI Alliance. 2004.
  • 18. Fonte: Boston Universities Libraries Research Data Management Data Life Cycle
  • 19. 1. Offrire assistenza nella gestione dei dati 2. Contribuire allo sviluppo dei metadati e standard dei dati e fornire servizi di metadatazione 3. Creare le figure professionali dei data librarian 4. Partecipare attivamente nelle creazione di policy sui dati della ricerca delle istituzioni 5. Collaborare con i ricercatori e gruppi di ricerca per la creazione di infrastruttrure interoperabili per laccesso ai dati e alla condivisione dei dati 6. Sostenere il ciclo di vita dei dati fornendo servizi di archiviazione, discovery e accesso permanente 7. Promuovere lutilizzo di identificatori persistenti per laccesso permanente ai dati 8. Fornire un catalogo dei dati 9. Familiarit con la gestione di dati nelle varie discipline 10. Offrire o mediare larchiviazione 2012 sicura in collaborazione con le strutture IT o con servizi di cloud- computing http://www.libereurope.eu/news/ten-recommendations-for-libraries-to-get-started-with-research-data-management
  • 25. OpenAIRE e OpenAIRE plus un portale per laccesso ai risultati e ai dati della ricerca finanziata nel 7属 Programma Quadro questionari/ follow up http://www.openaire.eu/it
  • 26. EUDAT: progetto collaborativo europeo per uninfrastruttura comune per i dati evitare un nuovo digital divide: lEuropa deve procedere allo stesso passo http://www.eudat.eu/
  • 27. s馨温姻岳禽温岳温: progetto finanziato dal CINECA per gestire le nuove problematiche BigData ed HPC fornendo, accanto all'infrastruttura per la produzione, l'archiviazione e la fruizione dei dati, un servizio di analisi avanzata sui dati prodotti dagli utenti che ne favorisce il riuso anche da parte di altre comunit scientifiche
  • 28. http://mappaproject.arch.unipi.it/ MAPPA - Metodologia Applicate alla Predittivit del Potenziale Archeologico Il primo open digital archaeological archive italiano, che rende accessibili tutti i dati pubblici delle indagini archeologiche Uso di sistemi e procedure standardizzate per la redazione e la gestione dei dati archeologici
  • 29. DATACite, progetto collaborativo per la descrizione standard dei datasets e la loro citabilit via DOI Per lItalia: CRUI altri riferimenti tecnici: CODATA, http://www.codata.org/ Open Data Commons, http://opendatacommons.org/ http://www.datacite.org/