際際滷

際際滷Share a Scribd company logo
Tutkimusdatakysely
Helsingin yliopiston
tutkijoille 2016
Tutkimusdatainfrastruktuurin kehitt辰mishanke MILDRED,
projekti 3: Julkaisu- ja metadatapalvelut
Helsingin yliopisto
Helsingin yliopiston kirjasto,
Anna Salmi & Mari Elisa Kuusniemi
22.8.2016
Esiselvitys tutkijoiden
k辰ytt辰mist辰 datatietokannoista
 Selvityksen toteutti korkeakouluharjoittelija Anna Salmi
 Ty旦n ohjasivat Mari Elisa Kuusniemi ja Mikko Ojanen
 Kes辰kuussa 2016 selattiin 250 aikav辰lill辰 20152016
ilmestynytt辰 tutkimusartikkelia, joista 210 PLOS-
julkaisuja (muita Nature sek辰 WoS:n julkaisuja)
 Inventoitavana HY:n tutkijoiden luoma data
 PLOS-julkaisuformaatti sis辰lt辰辰 kirjoittajien selvityksen
datan luomisesta ja sijoittamisesta
 Figshare-repositorypalvelu erityisasemassa, koska toimii
PLOS-julkaisujen dataliitteiden pilvipalvelutuottajana
Helsingin yliopiston kirjasto,
Anna Salmi 22.8.2016
Kysely ja vastaukset
 Kysely suunnattiin s辰hk旦postitse kaikkien tiedekuntien ja
tutkimusyksikk旦jen tutkimushenkil旦kunnan j辰senille kes辰-
hein辰kuussa 2016
 258 vastausta
 62 % el辰m辰tieteist辰, 21 % humanistis-yhteiskuntatieteist辰 ja
17 % luonnontieteist辰
 1) Monivalinnat: 10 esiselvityksess辰 yleisint辰 tietokantaa
(sek辰 esim. FIN-CLARIN ja FDS tasoittamassa
el辰m辰tieteellist辰 painotusta)
 2) valikoima muita tallennusmuotoja: henkil旦kohtainen
tietokone, CSC:n palvelut jne
 3) Vapaa vastauskentt辰 syille, miksi tietokantoja ei k辰ytetty
oman datan tallentamiseen
Helsingin yliopiston kirjasto,
Anna Salmi 22.8.2016
K辰ytetyt repositorypalvelut
 44 % k辰ytti yht辰 tai useampaa digitaalista
repositorya/digiarkistoa
 21 % k辰ytti kahta tai useampaa
 10 % k辰ytti kolmea tai useampaa
 56 % ei k辰ytt辰nyt mit辰辰n tietokantaa
 15 % k辰ytti jotain muuta kuin monivalinnan tietokantoja
 Monitieteellisist辰 mukana B2SHARE, figshare, Dryad,
GitHub ja Zenodo
 Yleisimm辰t GenBank (16,7 %), GitHub (14 %), Sequence
Read Archive (6,6 %) ja Gene Expression Omnibus (5 %)
Helsingin yliopiston kirjasto,
Anna Salmi 22.8.2016
Kun data ei ollut sijoitettuna
tietokantaan
 29 % ilmoitti, ettei tiennyt tallennusmahdollisuuksista
tarpeeksi
 11 %: data luonteeltaan sensitiivist辰
 54 % s辰ilytti dataa HY:n verkkolevyill辰
 68 % k辰ytti henkil旦kohtaista tallennustilaa
 58 % k辰ytti ulkoisia kovalevyj辰
 50 % k辰ytti USB-tikkua
 37 % piti dataa kaupallisissa pilvipalveluissa kuten
Dropboxissa
Helsingin yliopiston kirjasto,
Anna Salmi 22.8.2016
Miksei tarvetta
tallentamiselle?
 11 %: tallentamiskysymys oli ep辰relevantti oman
tutkimuksen kannalta
 8,5 %: ei tarvetta tarkemmin m辰辰rittelem辰tt旦m辰st辰
syyst辰
 7,7 %: dataa oli vain v辰h辰n
 4,6 %: Nykyiset tallennustilat ja -palvelut olivat riitt辰vi辰
Helsingin yliopiston kirjasto,
Anna Salmi 22.8.2016
Poimintoja vastauksista
  I do not know or trust them [repositories] enough. I do
not have such big data that it would be a problem to
store it otherways. I would need a system that is
reliable, easy to use and access and permanent
solution.
 Data repositories (such as GEO etc) are only practical
once the research is published and the data is
published. Other means to store data for short (or long)
term are essential while the research and analyses are
still ongoing.
 No knowledge about depositories that could be useful,
no knowledge about repositories one might have access
to.
Helsingin yliopiston kirjasto,
Anna Salmi 22.8.2016
Poimintoja vastauksista,
jatkuu
 The [research] results are fully covered by the
published articles.
 Unclear benefits with respect to effort.
 It was sufficient until this moment to store the data
within University infrastructure, although convenient
data sharing between collaborators is still lacking.
 [I] would prefer a local (institutional) databank.
 I dont know what CSC is.
Helsingin yliopiston kirjasto,
Anna Salmi 22.8.2016
Jatkoselvitys
 Selvityksess辰 l旦ytyi 48 data-arkistostoa/repositoria,
joita HY:n tutkijat k辰ytt辰v辰t
 N辰ille etsittiin Re3data tietokannasta tunniste ja sen
avulla tietokannan API:n kautta haettiin sielt辰 l旦ytyv辰t
tiedot, kuten:
 dataAccessType
 dataLicenseName
 softwareName
 citationGuidelineURL
 qualityManagement
 metadataStandardName
 apidSyste (= ORCID tms.)
Helsingin yliopiston kirjasto,
Mari Elisa Kuusniemi 22.8.2016
Metadata selvitys
 Etsittiin tietokannoista kuvaus metadatakentist辰
 Testattiin tietokantoja hakemalla
a. Henkil旦n nimell辰 (Sen tutkijan nimi tai nimen osa, joka
ilmoitti tallentaneensa kyseiseen tietokantaan)
b. Organisaatiolla (Helsinki)
Helsingin yliopiston kirjasto,
Mari Elisa Kuusniemi 22.8.2016
Henkil旦n nimi
 Henkil旦n nimell辰 pystyi hakemaan 21/48 tietokannassa.
 Henkil旦n nimell辰 ei voinut hakea 22/48 tietokannassa.
 Tietokannoista 4/48 j辰i ep辰selv辰ksi (metadatan
kuvausta ei l旦ytynyt, eik辰 testihaku tuottanut selv辰辰
tulosta)
Helsingin yliopiston kirjasto,
Mari Elisa Kuusniemi 22.8.2016
Organisaatiotiedot
 Organisaation nimell辰 pystyi hakemaan 9/48
tietokannassa.
 Organisaation nimell辰 ei voinut hakea 36/48
tietokannassa.
 Tietokannoista 3/48 j辰i ep辰selv辰ksi (metadatan
kuvausta ei l旦ytynyt, eik辰 testihaku tuottanut selv辰辰
tulosta)
Helsingin yliopiston kirjasto,
Mari Elisa Kuusniemi 22.8.2016
Organisaatiolla voi hakea
 dbGaP
 Finnish Social Science Data Archive
 Gene Expression Omnibus
 GitHub
 Global Biodiversity Information Facility
 Inspire-HEP
 Kielipankki
 MG-RAST
 Zenodo
Helsingin yliopiston kirjasto,
Mari Elisa Kuusniemi 22.8.2016
Yhteenveto
 Monet tutkijat k辰ytt辰v辰t kansainv辰lisi辰 data-arkistoja
(44% vastaajista).
 Toisaalta monilla tutkijoilla ei ole riitt辰v辰sti tietoa
asiasta (28% vastaajista kertoi t辰st辰 vapaassa
vastauskent辰ss辰).
 Nyt tied辰mme 48 repositoria/data-arkistoa, jossa on
HY:n dataa.
 Vain muutamasta n辰ist辰 voimme erottaa HY:n
datat/metadatat muista datoista (9/48).
Helsingin yliopiston kirjasto,
Mari Elisa Kuusniemi 22.8.2016

More Related Content

Tutkimusdatakysely Helsingin yliopiston tutkijoille 2016

  • 1. Tutkimusdatakysely Helsingin yliopiston tutkijoille 2016 Tutkimusdatainfrastruktuurin kehitt辰mishanke MILDRED, projekti 3: Julkaisu- ja metadatapalvelut Helsingin yliopisto Helsingin yliopiston kirjasto, Anna Salmi & Mari Elisa Kuusniemi 22.8.2016
  • 2. Esiselvitys tutkijoiden k辰ytt辰mist辰 datatietokannoista Selvityksen toteutti korkeakouluharjoittelija Anna Salmi Ty旦n ohjasivat Mari Elisa Kuusniemi ja Mikko Ojanen Kes辰kuussa 2016 selattiin 250 aikav辰lill辰 20152016 ilmestynytt辰 tutkimusartikkelia, joista 210 PLOS- julkaisuja (muita Nature sek辰 WoS:n julkaisuja) Inventoitavana HY:n tutkijoiden luoma data PLOS-julkaisuformaatti sis辰lt辰辰 kirjoittajien selvityksen datan luomisesta ja sijoittamisesta Figshare-repositorypalvelu erityisasemassa, koska toimii PLOS-julkaisujen dataliitteiden pilvipalvelutuottajana Helsingin yliopiston kirjasto, Anna Salmi 22.8.2016
  • 3. Kysely ja vastaukset Kysely suunnattiin s辰hk旦postitse kaikkien tiedekuntien ja tutkimusyksikk旦jen tutkimushenkil旦kunnan j辰senille kes辰- hein辰kuussa 2016 258 vastausta 62 % el辰m辰tieteist辰, 21 % humanistis-yhteiskuntatieteist辰 ja 17 % luonnontieteist辰 1) Monivalinnat: 10 esiselvityksess辰 yleisint辰 tietokantaa (sek辰 esim. FIN-CLARIN ja FDS tasoittamassa el辰m辰tieteellist辰 painotusta) 2) valikoima muita tallennusmuotoja: henkil旦kohtainen tietokone, CSC:n palvelut jne 3) Vapaa vastauskentt辰 syille, miksi tietokantoja ei k辰ytetty oman datan tallentamiseen Helsingin yliopiston kirjasto, Anna Salmi 22.8.2016
  • 4. K辰ytetyt repositorypalvelut 44 % k辰ytti yht辰 tai useampaa digitaalista repositorya/digiarkistoa 21 % k辰ytti kahta tai useampaa 10 % k辰ytti kolmea tai useampaa 56 % ei k辰ytt辰nyt mit辰辰n tietokantaa 15 % k辰ytti jotain muuta kuin monivalinnan tietokantoja Monitieteellisist辰 mukana B2SHARE, figshare, Dryad, GitHub ja Zenodo Yleisimm辰t GenBank (16,7 %), GitHub (14 %), Sequence Read Archive (6,6 %) ja Gene Expression Omnibus (5 %) Helsingin yliopiston kirjasto, Anna Salmi 22.8.2016
  • 5. Kun data ei ollut sijoitettuna tietokantaan 29 % ilmoitti, ettei tiennyt tallennusmahdollisuuksista tarpeeksi 11 %: data luonteeltaan sensitiivist辰 54 % s辰ilytti dataa HY:n verkkolevyill辰 68 % k辰ytti henkil旦kohtaista tallennustilaa 58 % k辰ytti ulkoisia kovalevyj辰 50 % k辰ytti USB-tikkua 37 % piti dataa kaupallisissa pilvipalveluissa kuten Dropboxissa Helsingin yliopiston kirjasto, Anna Salmi 22.8.2016
  • 6. Miksei tarvetta tallentamiselle? 11 %: tallentamiskysymys oli ep辰relevantti oman tutkimuksen kannalta 8,5 %: ei tarvetta tarkemmin m辰辰rittelem辰tt旦m辰st辰 syyst辰 7,7 %: dataa oli vain v辰h辰n 4,6 %: Nykyiset tallennustilat ja -palvelut olivat riitt辰vi辰 Helsingin yliopiston kirjasto, Anna Salmi 22.8.2016
  • 7. Poimintoja vastauksista I do not know or trust them [repositories] enough. I do not have such big data that it would be a problem to store it otherways. I would need a system that is reliable, easy to use and access and permanent solution. Data repositories (such as GEO etc) are only practical once the research is published and the data is published. Other means to store data for short (or long) term are essential while the research and analyses are still ongoing. No knowledge about depositories that could be useful, no knowledge about repositories one might have access to. Helsingin yliopiston kirjasto, Anna Salmi 22.8.2016
  • 8. Poimintoja vastauksista, jatkuu The [research] results are fully covered by the published articles. Unclear benefits with respect to effort. It was sufficient until this moment to store the data within University infrastructure, although convenient data sharing between collaborators is still lacking. [I] would prefer a local (institutional) databank. I dont know what CSC is. Helsingin yliopiston kirjasto, Anna Salmi 22.8.2016
  • 9. Jatkoselvitys Selvityksess辰 l旦ytyi 48 data-arkistostoa/repositoria, joita HY:n tutkijat k辰ytt辰v辰t N辰ille etsittiin Re3data tietokannasta tunniste ja sen avulla tietokannan API:n kautta haettiin sielt辰 l旦ytyv辰t tiedot, kuten: dataAccessType dataLicenseName softwareName citationGuidelineURL qualityManagement metadataStandardName apidSyste (= ORCID tms.) Helsingin yliopiston kirjasto, Mari Elisa Kuusniemi 22.8.2016
  • 10. Metadata selvitys Etsittiin tietokannoista kuvaus metadatakentist辰 Testattiin tietokantoja hakemalla a. Henkil旦n nimell辰 (Sen tutkijan nimi tai nimen osa, joka ilmoitti tallentaneensa kyseiseen tietokantaan) b. Organisaatiolla (Helsinki) Helsingin yliopiston kirjasto, Mari Elisa Kuusniemi 22.8.2016
  • 11. Henkil旦n nimi Henkil旦n nimell辰 pystyi hakemaan 21/48 tietokannassa. Henkil旦n nimell辰 ei voinut hakea 22/48 tietokannassa. Tietokannoista 4/48 j辰i ep辰selv辰ksi (metadatan kuvausta ei l旦ytynyt, eik辰 testihaku tuottanut selv辰辰 tulosta) Helsingin yliopiston kirjasto, Mari Elisa Kuusniemi 22.8.2016
  • 12. Organisaatiotiedot Organisaation nimell辰 pystyi hakemaan 9/48 tietokannassa. Organisaation nimell辰 ei voinut hakea 36/48 tietokannassa. Tietokannoista 3/48 j辰i ep辰selv辰ksi (metadatan kuvausta ei l旦ytynyt, eik辰 testihaku tuottanut selv辰辰 tulosta) Helsingin yliopiston kirjasto, Mari Elisa Kuusniemi 22.8.2016
  • 13. Organisaatiolla voi hakea dbGaP Finnish Social Science Data Archive Gene Expression Omnibus GitHub Global Biodiversity Information Facility Inspire-HEP Kielipankki MG-RAST Zenodo Helsingin yliopiston kirjasto, Mari Elisa Kuusniemi 22.8.2016
  • 14. Yhteenveto Monet tutkijat k辰ytt辰v辰t kansainv辰lisi辰 data-arkistoja (44% vastaajista). Toisaalta monilla tutkijoilla ei ole riitt辰v辰sti tietoa asiasta (28% vastaajista kertoi t辰st辰 vapaassa vastauskent辰ss辰). Nyt tied辰mme 48 repositoria/data-arkistoa, jossa on HY:n dataa. Vain muutamasta n辰ist辰 voimme erottaa HY:n datat/metadatat muista datoista (9/48). Helsingin yliopiston kirjasto, Mari Elisa Kuusniemi 22.8.2016