1. 2017. 5. 11. :: DBguide.net :: 데이터 전문가 지식포털
http://www.dbguide.net/knowledge.db?cmd=view&boardUid=191322&boardConfigUid=19&boardStep=&categoryUid=574 1/4
전문가칼럼
제목 데이터 기반 연구 패러다임(2회) : 데이터 과학과 오픈 사이언스 운동
분류 Etc 조회수 896
작성일자 2016.07.21 출처 한국데이터베이스진흥원
첨부파일 작성자 dbguide
◎ 연재기사 ◎
▷ 데이터 기반 연구 패러다임(1회) : 연구 패러다임 변화와 데이터 집중 과학
▶ 데이터 기반 연구 패러다임(2회) : 데이터 과학과 오픈 사이언스 운동
▷ 데이터 기반 연구 패러다임(최종회) : 데이터 관리 계획서와 RDMS
데이터 기반 연구 패러다임(2회)
데이터 과학과 오픈 사이언스 운동
과학기술 연구개발(R&D)에 새로운 바람이 불고 있다. 첨단 연구-측정 장비의 발달과 유비쿼터스 사회의 도래에 따라 방대한 양의 데이터가 생
산되고 있고, 이를 기반으로 한 데이터 중심의 제4세대 연구 패러다임이 새롭게 떠오르고 있다. 4세대 데이터 중심 연구란 무수한 실험-관측-
측정 장비로부터 쏟아져 나오는 방대한 양의 데이터를 중심으로 새로운 과학적 발견을 추구하는 연구를 의미한다. 1단계 경험과학, 2단계 이
론과학, 3단계 계산과학을 거쳐 이제 4단계인 데이터 중심 과학의 시대가 도래한 것이다(Jim Gray, eScience Group, MS Research).
이 연재에서는 연구 패러다임의 변화와 이와 관련된 다양한 이해관계 그룹의 동향을 살펴보고 연구자가 무엇을 준비해야 하는지, 또한 연구자
를 대상으로 서비스를 제공하는 기관은 무엇을 준비해야 하는지 알아본다.
지난 첫 연재에서 데이터 중심 과학의 시대의 도래에 따른 연구데이터와 과학데이터가 과학 연구의 핵심 이슈로 떠오르고 있음을 소개했
다. 이번 연재에서는 데이터 과학을 정의한 후 오픈 사이언스 운동을 알아본다.
데이터 과학(Data Science)이라는 용어는 1960년에 나우어(Peter Naur)가 컴퓨터 과학(computer science)의 대체 용어로서 처음 사용했
으며, ‘데이털로지(datalogy)’와 같은 개념으로 사용된다. 구조적 혹은 비구조적인 다양한 형식의 방대한 데이터로부터 지식과 통찰
(insights)을 추출하는 분야와 이의 행위를 돕는 시스템과 관련된 다양한 분야를 일컫는다. 통계학, 데이터 마이닝, 미래 예측(predictive
analytics), KDD(Knowledge Discovery in Databases)와 같은 데이터 분석 분야와 그 맥을 같이 한다.
데이터 과학은 수학, 통계학, 계량분석화학, 정보 과학, 컴퓨터 과학, 신호처리, 가능성 모델(probability models), 기계학습, 통계학습
(statistical learning), 데이터 마이닝, 데이터베이스, 데이터 엔지니어링, 패턴 인식과 학습, 가시화, 미래분석(predictive analytics), 불확실
성 모델링(uncertainty modeling), 데이터 웨어하우징(data warehousing), 데이터 압축, 컴퓨터 프로그래밍, 인공지능, 고성능 컴퓨팅 등의
분야에서 사용되는 수많은 기술과 이론을 사용한다.
데이터 과학은 이러한 기술과 이론을 통해 농업, 마케팅 최적화, 이상행위 감지(fraud detection), 위기관리, 마케팅 분석, 공공 정책 등 다
양한 분야에서 문제점을 조사하고 의사결정을 지원하는 데 사용된다. 기계 학습은 데이터 과학의 성장과 그 중요성 확산에 핵심적인 역할
을 담당했다. 이러한 데이터 과학은 규모가 큰 빅데이터에만 특화된 것이 아니다. 빅데이터를 처리하기 위한 방법론들은 데이터 과학의
특화된 분야 중 하나일 뿐이다. 데이터 과학이라는 용어는 비즈니스 환경에서 폭발적으로 사용되고 있지만 많은 학자와 저널리스트들은
Etc
데이터 사이언스와 오픈 사이언스
Home D라운지 전문가 칼럼
2. 2017. 5. 11. :: DBguide.net :: 데이터 전문가 지식포털
http://www.dbguide.net/knowledge.db?cmd=view&boardUid=191322&boardConfigUid=19&boardStep=&categoryUid=574 2/4
‘데이터 과학’과 ‘통계학’의 차이점이 명확하지 않기 때문에 데이터 과학이 부각되는 것을 비판한다. 하지만 이는 데이터 과학의 일부분에
초점을 맞춘 편견에서 기인된 것이라 볼 수 있다.
데이터 과학과는 별개로 오픈 사이언스(Open Science)라는 용어도 많이 사용되고 있다. 오픈 사이언스는 과학적 연구와 데이터를 모든
수준의 수요그룹에게 접근 가능하도록 만드는 운동이다. 이는 과학적 지식을 출판하고 공유하는 것을 더 쉽게 하려는 목적으로 한다. 이
용어는 2014년 1월에 시작된 유럽의 FOSTER(Facilitate Open Science Training for European Research) 프로젝트에서 오픈 사이언스와 관
련된 분야들을 도식화하는 시도를 통해 만들어 졌다.
[그림 1] 오픈 사이언스의 6가지 원칙
(출처: https://en.wikipedia.org/wiki/Open_science)
비록 오픈 사이언스라는 용어의 역사는 오래되지 않았지만 그 실천은 과학지식과 연구 자원으로의 자유로운 접근을 위한 사회적인 요구
에 의해서 출현한 17세기 학술저널(academic journal)부터 시작됐다.
2016년 5월 현재, 연구결과에 대한 자유로운 접근과 배포를 주장하는 그룹과 이에 대해 반대하는 그룹의 주장이 공존하고 있다. 따라서
오픈 데이터, 오픈 액세스와 같은 오픈 사이언스 원칙이 관련된 운동으로 주목 받고 있다.
과학은 데이터의 수집과 분석, 출판, 재분석, 비판(critiquing), 재사용으로 이해될 수 있다. 이러한 과학에 ‘오픈’이라는 키워드가 붙은 것
은 과학의 활성화를 목적으로 한다. 과학 활성화를 방해하는 요인으로는 영리를 추구하는 출판사의 라이선스 정책, 데이터의 사용 제한,
구조화가 안 된 데이터의 품질, 상용 소프트웨어 사용, 데이터 출판 후 데이터의 오용에 대한 두려움을 들 수 있다.
이러한 요인들을 극복하고자 하는 운동들이 오픈 사이언스 6대 원칙에 포함되어 있다. 이 원칙은 더욱 세분화 추세를 거치며 확산될 전망
이다. 예를 들어 상용 소프트웨어에 대한 대안으로서 ‘오픈소스 운동(open source movement)’은 데이터의 재생산성을 높이기 위한 구체
적인 운동으로서 전개되고 있다. 반스(Nick Barnes)가 제시하는 ‘과학 코드 선언 (Science Code Manifesto)’이 그것이다. 반스는 과학을 위
한 소프트웨어의 중요성을 역설하며 5대 원칙으로 코드, 저작권, 인용, 신뢰, 큐레이이션을 제시하고 있다.
오픈 사이언스 6대 원칙 중 ‘오픈 데이터’는 일부 데이터에 한해서 저작권이나 특허와 같은 제한 조건 없이 데이터 사용자가 원하는 데로
데이터의 재사용과 재출판이 가능하도록 하자는 운동이다.
오픈 데이터
3. 2017. 5. 11. :: DBguide.net :: 데이터 전문가 지식포털
http://www.dbguide.net/knowledge.db?cmd=view&boardUid=191322&boardConfigUid=19&boardStep=&categoryUid=574 3/4
이 운동은 오픈소스, 오픈 하드웨어, 오픈 콘텐트, 오픈 액세스와 유사하다. 이 운동의 사상은 그 역사가 오래됐지만 해당 용어의 사용은
인터넷과 월드와이드웹의 도래와 ‘Data.gov’, ‘Data.gov.uk’와 같은 정부의 공공 데이터 개방과 발맞춰 시작되었다.
오픈 데이터는 두 가지 측면에서 큰 의미가 있다. 하나는 과학의 활성화 측면에서의 의미이며, 또 하나는 ‘국가 데이터 개방과 재활용’ 측
면에서의 의미다. ‘과학 데이터(scientific data)로의 자유로운 접근’ 개념은 67개 국가가 참여해 1957년 7월부터 1958년 12월까지 수행된
IGY(International Geophysical Year) 프로젝트 를 수행할 당시, 세계 데이터 센터(World Data Center) 시스템을 만드는 과정에서 공식적으
로 등장했다. 오픈 과학 데이터(open-science-data) 운동은 인터넷의 출현과 유비쿼터스 네트워킹의 도움으로 데이터 출판과 데이터 획
득이 더 빠르고 저렴한 비용으로 가능하게 됨으로써 더욱 가속화되고 있다.
오픈 액세스 운동은 이러한 동향을 잘 보여준다. 학술 저널의 탄생이 과학의 활성화를 위해 시작됐지만, 데이터 저작권에 대한 연구자들
의 인식 부족과 상업 출판사들의 서비스 정책이 기존의 순수한 목적을 퇴색시키면서 그 대안으로서 오픈 액세스 저널이 출현했다.
오픈 액세스 저널은 더 지능화된 웹을 기반으로 연구자들에게 연구 결과물로의 자유로운 접근과 재사용을 보장하고 있다. 지난 1997년
XML의 아버지라 불리는 Jon Bosak의 바람이 이뤄지고 있는 것이다. Bosak은 “I want my data back.”이라 발표했다 . 유럽 등 서구에서는
미켈란젤로나 다빈치와 동등한 대접을 받는 화가인 알브레히트 뒤러(Albrecht Durer)는 르네상스 회화의 완성자라는 평가를 받는다. ‘원근
법’과 ‘인체 비례’에 대한 미술 이론서적을 남긴 그는 다음과 같은 철학을 갖고 있었다.
“공동의 이익을 위해 우리는 배운 것을 숨기지 않고 후세에 정확히 전해줄 필요가 있다. 나는 가능한 한 알기 쉽게, 그리고 감추지 않고 내
의견을 개진하려 한다. 지식을 사랑하는 젊은이들에게 내가 아는 모든 것을 공개하련다.”
뒤러의 철학을 구현하는 운동이 오픈 과학, 곧 오픈 데이터다.
한편, 국가 공공 데이터의 개방은 정부의 투명성을 촉진하고 공식적인 정보를 공개함으로써 기술 혁신을 유도하기 위한 정책이다. 민간에
데이터를 공개함으로써 새로운 종류의 디지털 응용프로그램 개발을 촉진하기 위해서다. 우리나라는 물론 미국, 영국, 일본 등 주요 선진
국에서 정부 데이터를 개방해 재활용할 수 있도록 하는 운동에서도 오픈 데이터(Open Data)라는 키워드를 사용하고 있다. 데이터 공개와
재사용성을 보장하기 위해서는 데이터의 체계적인 관리가 필요하다.
오픈 데이터는 오픈 사이언스를 가능케 하는 핵심 원칙 가운데 하나로서 데이터 중심 연구를 지원하고 과학의 활성화를 가능케 하는 운동
이다. 오픈 데이터와 오픈 사이언스를 통해 다양한 전 지구적 문제를 해결할 수 있는 협동연구가 가능하다. 예를 들어, 황사나 기후 변화
와 같은 범지구적 문제, 해양 오염이나 생태계 변화 등의 환경 문제는 한 분야의 데이터뿐 아니라 기상, 해양, 천문, 지리정보, 생태 등 다
양한 분야의 데이터를 융합하여 분석함으로써 해결 가능하다.
한편, 주요 선진국에서는 공공자금이 투입된 연구 결과물의 체계적인 관리와 재사용을 보장하기 위해서 연구데이터(research data)를 관
리하고 있다. 이러한 저변 노력이 오픈 데이터와 오픈 사이언스 운동을 탄탄하게 뒷받침하고 활성화 시킬 것이다.
오픈 사이언스 운동이 활발하게 전개되기 위한 핵심 전략 중 하나는 오픈 데이터 운동이다. 국가가 보유한 데이터, 특히 국가 연구개발
(R&D) 자금으로 생산된 과학데이터에 대한 오픈 데이터 운동은 그 어떠한 데이터 공개보다 파급 효과가 클 것으로 전망된다. 첫 연재에서
는 연구의 중심 도구로서 과학데이터와 데이터를 중심으로 한 4세대 연구패러다임에 대해 소개했다. 이번 회에서 알아 본 데이터 과학과
오픈 사이언스 추세에 대응하려면, 체계적인 데이터 관리가 요구된다. 이와 관련된 키워드로 데이터 관리 계획서(Data Management Plan)
와 연구데이터관리서비스(Research Data Management Service)가 주목을 받고 있다. 다음 호에서는 이에 대해 자세히 알아보겠다. (다음
회에 계속)
글을 맺으며