1. 2017. 5. 11. :: DBguide.net :: 데이터 전문가 지식포털
http://www.dbguide.net/knowledge.db?cmd=view&boardUid=190786&boardConfigUid=19&boardStep=&categoryUid=574 1/4
전문가칼럼
제목 데이터 기반 연구 패러다임(1회) : 연구 패러다임 변화와 데이터 집중 과학
분류 Etc 조회수 991
작성일자 2016.06.14 출처 한국데이터베이스진흥원
첨부파일 작성자 dbguide
◎ 연재기사 ◎
▶ 데이터 기반 연구 패러다임(1회) : 연구 패러다임 변화와 데이터 집중 과학
▷ 데이터 기반 연구 패러다임(2회) : 데이터 과학과 오픈 사이언스 운동
▷ 데이터 기반 연구 패러다임(최종회) : 데이터 관리 계획서와 RDMS
데이터 기반 연구 패러다임(1회)
연구 패러다임 변화와 데이터 집중 과학
필자: 김선태 박사(stkim@kisti.re.kr)
한국과학기술정보연구원 과학데이터전략연구실에서 과학데이터 플랫폼(Datanest) 개발을 총괄하고 있다. 2001년부터 2011년까지 국가과학
기술도서관 NDSL 개발, 해외전자저널 컨소시엄 KESLI 개발 총괄, 과학기술정보 유통을 위한 정책 수립을 담당했다. 관심 분야는 과학데이터
플랫폼, Open URL, 메타데이터, 시멘틱 웹, 온톨로지 등으로 이 글을 통해 연구데이터에 대한 공동 연구자가 나타나기를 바라고 있다.
과학기술 연구개발(R&D)에 새로운 바람이 불고 있다. 첨단 연구-측정 장비의 발달과 유비쿼터스 사회의 도래에 따라 방대한 양의 데이터
가 생산되고 있고, 이를 기반으로 한 데이터 중심의 제4세대 연구 패러다임이 새롭게 떠오르고 있다. 4세대 데이터 중심 연구란 무수한
실험-관측-측정 장비로부터 쏟아져 나오는 방대한 양의 데이터를 중심으로 새로운 과학적 발견을 추구하는 연구를 의미한다. 1단계 경험
과학, 2단계 이론과학, 3단계 계산과학을 거쳐 이제 4단계인 데이터 중심 과학의 시대가 도래한 것이다(Jim Gray, eScience Group, MS
Research).
이 연재에서는 연구 패러다임의 변화와 이와 관련된 다양한 이해관계 그룹의 동향을 살펴보고 연구자가 무엇을 준비해야 하는지, 또한 연
구자를 대상으로 서비스를 제공하는 기관은 무엇을 준비해야 하는지 알아본다.
최근의 개인용 컴퓨터(PC)는 80년대 초반의 슈퍼컴퓨터 성능에 육박할 정도로 컴퓨터 하드웨어 기술이 비약적으로 발전하고 있다.
Etc Home D라운지 전문가 칼럼
2. 2017. 5. 11. :: DBguide.net :: 데이터 전문가 지식포털
http://www.dbguide.net/knowledge.db?cmd=view&boardUid=190786&boardConfigUid=19&boardStep=&categoryUid=574 2/4
[그림 1] 초소형 센서부터 거대과학을 위한 가속기까지 데이터를 생산하는 다양한 장치
기계 기술과 소재 기술의 발달은 기존의 관측 및 측정 장비의 정밀성을 크게 끌어올려 놓았다. 또한 건설 기술의 발전에 따라 거대과학 분
야에서 상상할 수 없었던 규모의 실험이 가능한 시설이 구축되고 있다. 이러한 기술의 발달은 과학기술 분야에서 새로운 첨단 장비들의
개발과 사용을 가능하게 했다. 더불어 우리 주변의 센서 장비도 실시간으로 대량의 데이터를 생산하고 있다. 예를 들어, 농업 기상관측 분
야에서는 풍향센서, 풍속센서, 기온센서, 지중 온도센서, 강우량센서, 습도센서, 이슬 지속시간센서, 일사센서, 일조시간센서, 초상온도센
서, 토양수분센서 등 다양한 센서가 존재한다.
활용 분야마다 다양한 목적의 센서들이 존재하며, 이를 통해 다양한 종류의 데이터가 생산되고 있다. 이와 같은 최첨단 연구 장비의 특성
은 장비의 구동과 동시에 상상할 수 없을 만큼의 데이터를 생성한다는 점이다.
[그림 2] 연구 패러다임의 변화
연구 환경에서 빠른 속도로 늘어나는 데이터는 지금까지의 연구 환경에 큰 변화를 불어왔다. 그동안의 연구는 데이터가 많지 않았으므로
적절한 컴퓨팅 자원을 이용해 시뮬레이션하고, 결과를 예측할 수 있었다. 하지만 데이터가 늘어난 4세대 연구환경에서는 사실(fact)를 담
고 있는 방대한 데이터를 연구의 중심도구로 사용한다. 연구에 활용하는 중심 도구의 변화 및 발전에 따라 연구 형태는 다음과 같이 크게
4가지로 분류할 수 있다.
1. 경험 중심 연구: 수천 년부터 행해진 방법으로서 관측이나 실험을 통해 데이터를 수집-생산한 후 이를 기반으로 연구를 진행. 이론적
인 연구보다는 자연 현상을 기술하기 위한 실험 및 관측 위주의 연구가 주를 이룸
2. 이론 중심 연구: 수백 년 전부터 행해지던 연구 방식으로 모델링과 일반화 방법을 통해 연구를 진행
3. 컴퓨팅 자원 중심 연구: 지난 십수 년 전부터 가능해진 방법으로 컴퓨팅 자원을 활용한 복잡한 현상을 시뮬레이션하는 연구
4. 데이터 중심 연구 : 최근에 출현한 연구 방법으로서 방대한 데이터를 연구의 중심 도구로 사용하는 연구
이처럼 데이터 중심 연구는 데이터 기반의 협업 연구를 가능하게 했다. 예를 들어 여러 연구자가 기후변화, 황사, 해양 오염 등 전 지구적
문제를 해결하기 위해 관련 데이터를 공유하고 있다. 대형 장비의 공동 활용도 궁극적으로 해당 장비에서 나오는 데이터의 공동 활용을
목적으로 한다. 또한 인체 유전체 프로젝트에서 확인된 것처럼, 많은 연구자들이 협업을 통해 새로운 데이터의 생성과 분석도 가능하다.
연구데이터란 연구자가 연구 행위를 통해 수집-생산하는 데이터로서 연구 과정에서 생산하는 모든 데이터를 말한다. 연구데이터는 과학
데이터와 대등하거나 이를 포함하는 포괄적 개념이다. 이 글에서는 과학데이터(scientific data)를 연구자가 관측, 관찰, 실험, 조사, 분석,
가시화 등의 연구 행위를 통해 수집, 생산한 원시 데이터로 한정한다.
연구데이터와 과학데이터
3. 2017. 5. 11. :: DBguide.net :: 데이터 전문가 지식포털
http://www.dbguide.net/knowledge.db?cmd=view&boardUid=190786&boardConfigUid=19&boardStep=&categoryUid=574 3/4
가장 최근의 연구 패러다임인 데이터 중심 연구의 중심에는 과학데이터가 있다. 과학데이터는 연구를 수행하는 과정에서 관찰이나 실험,
원격 탐지 장비와 같은 최첨단 장비, 또는 시뮬레이션 등을 통해 수집-관측-측정되는 데이터로서, 연구데이터(research data), 연구과학데
이터(research scientific data)라고도 한다.
화합물이나 단백질의 구조, 생물의 표본, 물질의 물성, 천문학의 분광관측(spectral survey) 등과 같이 전통적인 데이터에서부터 초대형 실
험 시설에서 생성되는 대용량 물리 데이터, 인공위성에서 실시간으로 측정 및 촬영되는 우주 데이터가 과학데이터의 예이다 . 과학데이터
의 형태는 수치, 공간, 도표, 문서 등 그 형태가 다양하다. 이러한 과학데이터를 활용하는 드라이랩(dry lab)의 확산이 세계적인 추세다.
데이터 시대의 연구실 ‘드라이랩’
드라이랩(dry lab)은 연구자가 실제 실험환경이 아닌 가상의 실험 환경에서 신뢰성 있는
데이터를 기반으로 다양한 실험을 한다는 점에서 붙여진 이름으로, 인실리콘랩(in Silico Lab)이라고도 한다.
수많은 실험 장비와 시료에서 이뤄지는 웨트랩(Wet Lab) 또는 인비트로랩(in Vitro Lab)이라는
그동안의 실험 환경에 대한 상대적인 표현이다.
드라이랩에서 이뤄지는 데이터 기반 첨단 연구는 연구자가 실제 실험을 하지 않고
데이터와 수리적 모델, 시뮬레이션을 통해 다양한 연구가 가능한 특징이 있다.
이를 통해 더 저렴하고 안전하게 가상 실험 및 연구를 할 수 있고, 창의적인 새로운 발견의 가능성까지 올라간다.
앞서 말했듯이, 대형 장비에서 생산되는 데이터를 공동으로 활용하고 서로의 연구결과를 공유하는 활동이 활발하다. 이러한 연구 활동의
중심에 과학데이터가 있다.
연구 개발에서 데이터의 중요성이 강조될수록 과학데이터의 공유-활용에 대한 요구가 다양한 분야에서 제기되고 있다. 예를 들어, 지금
까지 기후 데이터는 기후 분야를 연구하는 과학자들이 주로 사용했다.
4. 2017. 5. 11. :: DBguide.net :: 데이터 전문가 지식포털
http://www.dbguide.net/knowledge.db?cmd=view&boardUid=190786&boardConfigUid=19&boardStep=&categoryUid=574 4/4
추천 : 0회
하지만 오늘날에는 물과 공공용지(public land), 건강, 해양 분야 등의 자원 관리자들이 그들의 의사결? 대응 전략을 수립하기 위해 데이터
에 대한 접근을 필요로 한다. 따라서 기하급수적으로 발생하는 기후 데이터에 대한 물리적인 보존과 공유에 대한 이슈 또한 활발하게 제
기되고 있다
. 이처럼 연구의 중심도구로서 과학데이터가 주목을 받고 있으며, 생각지 못한 분야에서 과학데이터에 대한 수요가 발생하고 있다. 과학
데이터가 새로운 연구 패러다임을 불러왔으므로 연구의 중심도구로 과학데이터를 활용하는 것은 우리의 몫으로 남았다.
한편 최근에는 과학데이터의 재사용과 공유가 ‘오픈 데이터’, ‘오픈 사이언스’라는 키워드로 표현되고 있다. 다음 호에서는 이에 대해 자세
히 알아보겠다. (다음 회에 계속)
[참고 자료]
Hey, T., Tansley, S., and Tolle, K., The Fourth Paradigm: Data-Intensive Scientific Discovery, Microsoft, WA, 2009.
김선영, “DB 구축의 사각지대, 과학데이터” (http://blog.naver.com/dbstory2009?Redirect=Log&logNo=120107578549)
Overpeck, J. T., Meehl, G. A., Bony, S., and Easterling, D. R., “Climate Data Challenges in the 21st Century”, Science, Vol. 331,
2011.
출처 : 한국데이터베이스진흥원
제공 : 데이터 전문가 지식포털 DBguide.net
덧글쓰기
한글 300자까지 입력 가능합니다.
* 욕설, 광고, 비방, 도배성 글 등은 자동삭제 대상입니다.
덧글은 한글 300자까지 입력 가능합니다.
이전글 서버리스(Serverless)가 온다!
다음글 오라클 운반 최소 단위 BLOCK
입력
스크랩 목록
덧글 남기기