1. 2017. 5. 11. :: DBguide.net :: 데이터 전문가 지식포털
http://www.dbguide.net/knowledge.db?cmd=view&boardUid=191443&boardConfigUid=19&boardStep=&categoryUid=574 1/5
전문가칼럼
제목 데이터 기반 연구 패러다임(최종회) : 데이터 관리 계획서와 RDMS
분류 Etc 조회수 989
작성일자 2016.08.02 출처 한국데이터베이스진흥원
첨부파일 작성자 dbguide
◎ 연재기사 ◎
▷ 데이터 기반 연구 패러다임(1회) : 연구 패러다임 변화와 데이터 집중 과학
▷ 데이터 기반 연구 패러다임(2회) : 데이터 과학과 오픈 사이언스 운동
▶ 데이터 기반 연구 패러다임(최종회) : 데이터 관리 계획서와 RDMS
데이터 기반 연구 패러다임(최종회)
데이터 관리 계획서와 RDMS
[과학기술 연구개발(R&D)에 새로운 바람이 불고 있다. 첨단 연구-측정 장비의 발달과 유비쿼터스 사회의 도래에 따라 방대한 양의 데이터가
생산되고 있고, 이를 기반으로 한 데이터 중심의 제4세대 연구 패러다임이 새롭게 떠오르고 있다. 4세대 데이터 중심 연구란 무수한 실험-관
측-측정 장비로부터 쏟아져 나오는 방대한 양의 데이터를 중심으로 새로운 과학적 발견을 추구하는 연구를 의미한다. 1단계 경험과학, 2단계
이론과학, 3단계 계산과학을 거쳐 이제 4단계인 데이터 중심 과학의 시대가 도래한 것이다(Jim Gray, eScience Group, MS Research).
이 연재에서는 연구 패러다임의 변화와 이와 관련된 다양한 이해관계 그룹의 동향을 살펴보고 연구자가 무엇을 준비해야 하는지, 또한 연구자
를 대상으로 서비스를 제공하는 기관은 무엇을 준비해야 하는지 알아본다.
지난 연재에서 데이터 과학과 오픈 사이언스 운동을 알아보았다. 이 연재의 최종회로서 이번에는 데이터 기반 연구 패러다임의 도래와 함
께 연구 데이터 분야에서 선진 모델을 제시하는 미국, 호주, EU 등에서 도입한 데이터 관리 계획서(DMP)와 ‘연구데이터 관리 서비스
(Research Data Management Service, RDMS)’에 대해 소개한다.
4세대 데이터 중심 연구는 무수한 연구 장비로부터 쏟아져 나오는 데이터 자원을 보존 및 분석해 데이터에 잠재된 새로운 가치를 발견하
는 데 있다. 특히 데이터를 통한 연구자들의 협동연구를 이끌어 내기 위해서는 데이터의 재사용성을 보장하는 체계적인 데이터 관리가 필
요하다. 주요 선진국에서는 이러한 데이터가 국가의 자산이라는 인식 하에 연구데이터의 체계적인 보존과 접근성을 확보하기 위해 오래
전부터 아래와 같이 다양한 활동을 전개하고 있다.
[표] 연구데이터의 체계적인 보존과 접근성 확보를 위한 주요 국가들의 움직임
Etc
데이터 관리 계획서(DMP)와 RDMS
Home D라운지 전문가 칼럼
2. 2017. 5. 11. :: DBguide.net :: 데이터 전문가 지식포털
http://www.dbguide.net/knowledge.db?cmd=view&boardUid=191443&boardConfigUid=19&boardStep=&categoryUid=574 2/5
과학데이터 공개 정책 필요
우리나라는 정부기관이나 공공기관에서 생산된 연구보고서는 과제 종료와 함께 공개함을 원칙으로 하고 있다. 그럼에도 연구의 중요한
산출물인 동시에 후속 연구의 소중한 단초가 되는 과학데이터에 대해서는 아무런 의무 사항이 부과되지 않고 있다.
연구소나 대학을 중심으로 생산된 과학데이터들은 주로 학술 연구를 통한 논문 형태로 결과물이 제시되고 있을 뿐 원시 데이터는 대부분
사라지고 있다. 특히, 측정-분석-실험을 통해 생성되는 과학데이터는 이를 생성하기까지 천문학적인 비용과 노력이 수반되는 소중한 자
원이다. 따라서 이를 체계적으로 수집-보존-공유해 국가 자원으로 활용할 필요가 있다. 하지만 현실은 연구에서 생성된 수많은 과학데이
터가 개별 연구자 또는 연구실 단위로 관리되거나 심지어 관리 소홀로 소멸되는 현실이다.
[그림 1] 연구 환경의 변화
4세대 데이터 중심 연구 환경과 국가 자산으로서의 데이터 관리 요구는 연구자에게 과학데이터(연구데이터)의 체계적인 관리를 요구한
다. 연구자에게 있어 체계적인 데이터 관리 요구는 ‘데이터 관리 계획서(Data Management Plan, DMP)’ 작성으로 이어진다. DMP는 주로
과제관리기관이 연구비를 지원받는 연구자에게 요청한다. 주요 내용은 과제 수행을 통해 생산되는 데이터의 종류와 형태는 무엇인지? 데
이터를 어디에 보존할 것이며 데이터로의 영속적 접근을 어떻게 보장할지? 등으로 구성된다. 하지만 개별 연구자가 DMP 작성항목을 손
쉽게 작성하는 것은 불가능 하다. 따라서 연구자는 연구자가 소속된 기관에 관련 내용의 협조를 요청하게 된다. 이후 연구자는 소속 기관
으로부터 ‘연구데이터 관리 서비스(Research Data Management Service, RDMS)’를 받게 된다. 연구데이터 관리에 연구자의 적극적인 참
여가 중요하다. 관리대상 데이터에 대해 누구보다도 데이터의 상황정보(누가, 언제, 어떻게 데이터를 생산하였는지?)를 잘 알고 있기 때
문이다. 이러한 상황정보가 원시데이터와 잘 관리될 때 데이터의 재사용성을 보장할 수 있게 된다.
한편, 출판계에서도 데이터 관리를 연구자에게 요구하는 경향이 있다. 세계 과학?기술?의학 출판연합회 조사에 따르면 70%의 출판사,
90%저널이 논문과 함께 과학데이터 관련 정보를 받고 있다. 그러나 60%출판사는 데이터 유지 및 관리 책임이 저자나 연구기관에 있다
3. 2017. 5. 11. :: DBguide.net :: 데이터 전문가 지식포털
http://www.dbguide.net/knowledge.db?cmd=view&boardUid=191443&boardConfigUid=19&boardStep=&categoryUid=574 3/5
고 판단하고 있다.
출판사는 원시데이터를 받는 것이 아니라 데이터의 영구적 접근이 가능한 식별자 정보를 받고 있다. 이 데이터는 저널이 존재하는 한 접
속이 가능한 것을 전제로 한다. 이러한 출판계의 움직임 또한 연구자에게 체계적인 데이터 관리를 요구하고 있다.
과학데이터를 공유하기 위해서는 데이터 출판이 필요하며, 과학데이터의 접근성 높이기 위해서는 데이터에 식별자를 부여하여 물리적인
위치 변동에 상관없이 데이터에 영속적인 접근이 가능하도록 해야 한다. 또한 데이터 자체가 연구의 결과이거나 논문이나 보고서 등에서
활용되는 연구의 부산물일 경우에도 데이터가 검색 및 재활용될 수 있어야 한다. 이를 위해서 CrossRef(http://www.crossref.org)와 같은
DataCite 컨소시엄(https://www.datacite.org)이 발족되어 활동하고 있다. 최근에는 필자의 소속기관인 한국과학기술정보연구원이
CrossRef나 DataCite와 동등한 지위로 데이터 출판 기관으로 선정 되었다.
데이터에 식별자를 데이터에 부여한 후 웹에서 접근 가능한 상태가 되도록 하기 위해서연구자는 자신이 활용하는 RDMS를 통해 자신의
데이터에 DOI를 할당 받을 수 있으며, DOI(Digital Object Identifier)를 DMP나 출판사에 제공할 수 있다. 연구자가 자신의 데이터에 식별자
를 부여하기 위해서 별도의 작업이 필요하지는 않다. DOI 할당은 시스템적으로 자동할당 되는 형태가 대부분이다. 다만, 데이터를
RDM(Research Data Management) 시스템에 제출할 때 상황정보를 충실하게 기록하면 된다. 식별자를 통한 데이터 출판은 다양한 콘텐트
와 연계되어 서비스 될 수 있다.
DOI를 통한 데이터 출판(Data Publishing)과 기존 저널 서비스와의 연계 사례로 PANGAEA를 들 수 있다. 세계 해양환경 과학데이터센터
(World Data Center for Marine Environmental Sciences, WDC-MARE)는 PANGAEA를 데이터 아카이빙과 배포 시스템으로 사용하고 있으며
ESSD(Earth SystemScience Data)는 해당 저널의 아카이브로 PANGAEA를 지정해 서비스하고 있다.
데이터 관리 및 아카이빙 정책은 ICSU(International Council for Science) WDC(World Data Center) 데이터 기준과 OECD 정책을 따르고 있
다. 또한 제출되는 모든 데이터는 CCL (Creative Commons License)을 적용해 제공된다. PANGAEA는 출판사 홈페이지와 연계하여 논문과
과학데이터의 연계 서비스를 제공하고 있다. 아래 그림은 엘스비어(Elsevier) 출판사의 ScienceDirect 서비스와 PANGAEA 서비스 사이에
데이터를 매개로 한 서비스 연계 모습이다.
연구자가 ScienceDirect를 통해 논문 검색을 하고 논문에서 활용한 데이터를 클릭하면 PANGAEA 서비스로 이동된다. PANGAEA 서비스는
데이터에 대한 자세한 속성이 설명된 웹 페이지와 데이터와 관련된 부가정보를 연구자에게 제시한다. 이와 같은 서비스 이용은 역방향도
가능하다. 즉 PANGAEA에서 데이터를 검색한 후 해당 데이터와 관련된 논문으로의 서비스 이동이 가능하다.
데이터 출판과 데이터 식별자 DOI
4. 2017. 5. 11. :: DBguide.net :: 데이터 전문가 지식포털
http://www.dbguide.net/knowledge.db?cmd=view&boardUid=191443&boardConfigUid=19&boardStep=&categoryUid=574 4/5
추천 : 0회
DOI를 할당하는 것은 크게 두 가지를 의미한다. 하나는 웹 환경에서 데이터와 관련된 정보로의 지속적 접근을 허용한다는 것을 의미한다.
물론 데이터 사용에 관한 라이선스 등은 연구자나 기관이 정하기 나름이다. 또 하나는 DOI를 통해 출판된 데이터의 인용이 가능함을 의미
하다. 이미 출판계에서는 기존의 JCI(Journal Citation Index)와 같이 DCI(Data Citation Index)를 개발해 서비스하려는 움직임이 있다.
이는 양질의 데이터를 출판하는 연구자에게 DCI를 통해 측정된 연구자 명성을 연구자에게 돌려주기 위한 노력이다. ‘영국국립도서관 비
전 2020’을 따르면, 앞으로 데이터는 독립적인 출판 상품으로서의 가치를 갖게 될 것이라고 예측된다. 향후에는 DCI와 관련된 다양한 서
비스가 등장 할 가능성이 크며, 연구자 평가에 DCI가 활용될 것으로 예측된다. 따라서 연구자는 DOI를 활용한 데이터 출판에 관심을 가질
필요가 있다.
이번 회에는 데이터 관리 계획(DMP)과 RDMS에 대해 알아봤다. 이번 연재의 키워드를 정리해 보면 ‘4세대 연구패러다임’, ‘데이터 중심
과학’, ‘연구데이터’, ‘과학데이터’, ‘오픈 데이터’, ‘오픈 사이언스’, ‘RDMS’, ‘데이터 출판’을 들 수 있다. 하나 하나 이야기를 하면 며칠을
두고 풀어나갈 주제들이다. 아무쪼록 이번 연재가 다양한 분야에서 연구데이터(과학데이터)에 대한 관심으로 연결되는 데 조금이나 힘이
되었으면 한다. 끝으로 자칫 지루할 수 있는 긴 글을 연재할 수 있도록 기회를 주신 많은 분들께 고마움을 전하며 끝까지 읽어주신 독자
여러분들께도 감사 드린다. (끝)
출처 : 한국데이터베이스진흥원
제공 : 데이터 전문가 지식포털 DBguide.net
덧글쓰기
한글 300자까지 입력 가능합니다.
* 욕설, 광고, 비방, 도배성 글 등은 자동삭제 대상입니다.
덧글은 한글 300자까지 입력 가능합니다.
좋은 글 잘 읽었습니다 2016.08.08 차주영
입력
삭제
연재를 마치며
덧글 남기기