ݺߣ

ݺߣShare a Scribd company logo
데이터분석의 길 2:
“고수는 최고의 연장을 사용한다”
(툴채인)
Mar 2015
권재명
“훌륭한 목수는 연장을 탓하지 않는다”—속담
데이터분석 고수가 되기 위해서는 최고의 연장 (툴채인; toolchain)을 구비하는
것이 중요하다.
최고의 연장은 컴퓨터와 몇가지 오픈소스 소프트웨어들이다.
툴 설치에 관한 디테일들은 생략한다. 앞장에서 “고기를 잡을 줄 알게 된" 여러분
들에게는 쉬운 일일 것이다: 구글에서 검색하고, 웹페이지에서 따라하면 된다.
* 다시 강조하건데, 이것은 2015년 현재 실리콘밸리 인터넷사업 자료분석가들이 흔히 사용하는 툴채인
이다. 다른 지역 / 인더스트리의 툴들은 다를 수 있다.
고수의 연장
보통* 맥 OSX
아니면 리눅스 랩탑.
하여간 유닉스/리눅스 되는 것이 좋다. (unix command line tool 때문에...)
* 어디까지나 실리콘밸리가 그렇다는 것. 이 시리즈의 모든 내용은 MS 윈도우즈 (Windows) PC 에서도
실행가능하다. 유일하게 부족한 “bash” 부분은 cygwin이나 win-bash 등의 소프트웨어로 이뮬레이션이
가능하다. 구글에서 “windows bash” 로 검색해보자.
연장: 컴퓨터
해당 사이트에서 다운받고 인스톨하면 된다.
인터넷에 연결한 후, RStudio 를 실행하고 다음 패키지들은 설치해주자. 앞으로
자주 쓸 것이다.
연장: R과 알스튜디오 (RStudio)
연장: 써브라임 에디터 (Sublime Text)
코딩 덕후들은 좋은 에디터에 (그리고 좋은 의자!)에 집착한다.
현재 밸리의 최고인기에디터는 써브라임 에디터이다.
http://www.sublimetext.com/
50불이다. 오만원이 아까우면 무료로 며칠에 한번 나오는 “안사실래요?" 메시지
를 무시하고 쓰면 된다.
써브라임 에디터의 강점:
● 키보드 숏컷들,
● 무한한 개인화 기능들 (customization),
● 고수들이 공헌한 수많은 쓸모있는 패키지들, 등등.
특히 다중선택 (multiple selection; Cmd+D)은 묘한 중독성이 있다.
패키지 덕을 잘 보려면 일단 Sublime Package Control부터 설치하자.
“Cmd+Shift+P”를 누르면 Command Palette 시작.
“install”을 입력하면 아래와 같은 리스트가 뜨고,
그중 “install package”를 선택하면 몇 초 후 (굉장히 많은 패키지를 읽어옴) 패키
지 리스트가 로드된다. 그중 원하는 패키지를 찾아서 선택하면 인스톨된다.
써브라임 에디터 셋업
써브라임 에디터 유용한 패키지들
개인 취향마다 다르겠지만 내가 생각하는 필수 패키지는:
● Monokai-extended # 화면이 편안해진다
● SublimeLinter # 코드 linting
● SublimeLinter-pylint # pylint plugin
● Markdown-extended # 마크다운 신택스 하이라이트
● GitGutter # 깃(git)에서 편집된 행이 어디인지를 보여준다.
Git Gutter , Pylint 맞뵈기.
자세한 것은 나중에...
연장: 파이썬 Python
“anaconda python”이 가장 속편한 디스트리뷰션이다.
2.7 버전이 아직은 쓸만하다. (3.x 버전으로 갈아탈 필요 없는 듯)
다음처럼 정상적으로 인스톨되었는지 확인!
OSX에 기본으로 따라 나오는 터미널이다. “Terminal” 앱을 실행하면 된다.
일단은 간단한 명령만 쓰려고 한다:
● ls
● cd
● mkdir
● more
● rm
● mv
● wc
● grep
장기적으로 고수가 되려면 친해지도록 애쓰자.
배쉬 쉘 터미널 (Bash shell)
맺음...
이로써 최강의 자료분석 시스템이 완성되었다.
너무 쉬워서 눈물이 나려고 하지 않는가?
1. R and RStudio (Statistical computing)
2. Anaconda Python
pip install pylint
pip install awscli
curl https://sdk.cloud.google.com | bash
3. Sublime Text Editor and packages
ln -s /Applications/Sublime Text.app/Contents/SharedSupport/bin/subl /usr/local/bin/subl
4. JDK (Java SE Development Kit) and Eclipse (IDE for Java and more)
5. homebrew (package manager for OSX)
6. oh my zsh and dotfiles (for advanced unix uses)
7. OSX tuning (keyboards repeat / shortcuts; trackpad; terminal windows
group)
부록: OSX 노트북 셋업 예

More Related Content

What's hot (9)

PDF
창발 세미나 - 머신러닝과 소프트웨어 개발
Sang-Min Park
PDF
6.algorithm chains and piplines
Haesun Park
PDF
창발 세미나 - Bing에서의 머신러닝
Sang-Min Park
PDF
효율적 데이터 과학을 위한 7가지 팁
Jaimie Kwon (권재명)
PDF
파이썬(Python) 으로 나만의 딥러닝 API 만들기 강좌 (Feat. AutoAI )
Yunho Maeng
PDF
파이썬으로 익히는 딥러닝
SK(주) C&C - 강병호
PDF
RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포
r-kor
PPTX
Chapter 11 Practical Methodology
KyeongUkJang
PDF
PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)
Haezoom Inc.
창발 세미나 - 머신러닝과 소프트웨어 개발
Sang-Min Park
6.algorithm chains and piplines
Haesun Park
창발 세미나 - Bing에서의 머신러닝
Sang-Min Park
효율적 데이터 과학을 위한 7가지 팁
Jaimie Kwon (권재명)
파이썬(Python) 으로 나만의 딥러닝 API 만들기 강좌 (Feat. AutoAI )
Yunho Maeng
파이썬으로 익히는 딥러닝
SK(주) C&C - 강병호
RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포
r-kor
Chapter 11 Practical Methodology
KyeongUkJang
PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)
Haezoom Inc.

Viewers also liked (20)

PPTX
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
Jaimie Kwon (권재명)
PPTX
실리콘 밸리 데이터 사이언티스트의 하루
Jaimie Kwon (권재명)
PDF
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
Yongho Ha
PDF
분석 현장에서 요구되는 데이터과학자의 역량과 자질
Sun Young Kim
PDF
데이터는 차트가 아니라 돈이 되어야 한다.
Yongho Ha
PDF
데이터분석과통계2 - 최재걸님
NAVER D2
PPTX
Ifrs도입 기업의 자산재평가 가치 상승
장다애
PDF
[Research] deploying predictive models with the actor framework - Brian Gawalt
PAPIs.io
PDF
Generalized Additive Model
Jinseob Kim
PDF
Big wins with small data. PredictionIO in ecommerce - David Jones
PAPIs.io
PPTX
Measuring the benefit effect for customers with Bayesian predictive modeling
JeongMin Kwon
PDF
통계분석연구회 2016년 여름 맞이 추천 도서와 영상
백승민 Baek Seung Min
DOCX
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
백승민 Baek Seung Min
PPTX
Lean Analytics_cojette
JeongMin Kwon
PDF
Offering 효과 분석-시계열 예측 모델 활용
JeongMin Kwon
PDF
잉여의 잉여력 관리
JeongMin Kwon
PDF
Command Line으로 분석하는 사용자 패턴
JeongMin Kwon
PDF
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Donghan Kim
PDF
꿈꾸는 데이터 디자이너 시즌2 교육설명회
neuroassociates
PDF
통계분석연구회 2015년 겨울 맞이 추천 도서와 영상
백승민 Baek Seung Min
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
Jaimie Kwon (권재명)
실리콘 밸리 데이터 사이언티스트의 하루
Jaimie Kwon (권재명)
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
Yongho Ha
분석 현장에서 요구되는 데이터과학자의 역량과 자질
Sun Young Kim
데이터는 차트가 아니라 돈이 되어야 한다.
Yongho Ha
데이터분석과통계2 - 최재걸님
NAVER D2
Ifrs도입 기업의 자산재평가 가치 상승
장다애
[Research] deploying predictive models with the actor framework - Brian Gawalt
PAPIs.io
Generalized Additive Model
Jinseob Kim
Big wins with small data. PredictionIO in ecommerce - David Jones
PAPIs.io
Measuring the benefit effect for customers with Bayesian predictive modeling
JeongMin Kwon
통계분석연구회 2016년 여름 맞이 추천 도서와 영상
백승민 Baek Seung Min
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
백승민 Baek Seung Min
Lean Analytics_cojette
JeongMin Kwon
Offering 효과 분석-시계열 예측 모델 활용
JeongMin Kwon
잉여의 잉여력 관리
JeongMin Kwon
Command Line으로 분석하는 사용자 패턴
JeongMin Kwon
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Donghan Kim
꿈꾸는 데이터 디자이너 시즌2 교육설명회
neuroassociates
통계분석연구회 2015년 겨울 맞이 추천 도서와 영상
백승민 Baek Seung Min
Ad

Similar to 데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인) (20)

PDF
PyQGIS와 PyQt를 이용한 QGIS 기능 확장
MinPa Lee
PDF
2014.04.24.nrise 개발환경
Moon Soo Kim
PDF
JetsonTX2 Python
taeseon ryu
PPTX
Jupyter notebook 이해하기
Yong Joon Moon
PDF
NDC13: DVCS와 코드리뷰 그리고 자동화를 통한 쾌속 개발
Jinuk Kim
PDF
[강릉원주대 대기환경과학과] 대기과학전산입문 설명서
Lee Sang-Ho
PDF
ᅦᅩᅮᅥᅵᅡᆨᄒơƳᆫҾ
Mario Cho
PDF
Python Korea 2014년 6월 세미나 - Windows 환경에서 Python 개발환경 세팅하기
Joongi Kim
PDF
효율적인 개발 프로세스를 위한 지속적 통합
홍렬 임
PPT
programming with GDB
NakCheon Jung
PDF
PyCon Korea 2015: 탐색적으로 큰 데이터 분석하기
Hyeshik Chang
PDF
협업하는 디자이너 - #1 git설치하기
Jinkyou Son
PDF
200718 덕성여대 생물정보학 강의 :: 생물정보학 파이썬
Joohyun Han
PDF
200720 바이오협회 생물정보학 파이썬 강의
Joohyun Han
PDF
R 시작해보기
SEUNGWOO LEE
PDF
게임 개발에 도움을 주는 CruiseControl.NET과 Windows Terminal
OnGameServer
PDF
알아두면 쓸모있는 깃허브 1
Hansol Kang
PPTX
오픈소스GIS 개발 일반 강의자료
BJ Jang
PDF
Gitlab.key
Jongseok Choi
PPTX
R 소개
Kangwook Lee
PyQGIS와 PyQt를 이용한 QGIS 기능 확장
MinPa Lee
2014.04.24.nrise 개발환경
Moon Soo Kim
JetsonTX2 Python
taeseon ryu
Jupyter notebook 이해하기
Yong Joon Moon
NDC13: DVCS와 코드리뷰 그리고 자동화를 통한 쾌속 개발
Jinuk Kim
[강릉원주대 대기환경과학과] 대기과학전산입문 설명서
Lee Sang-Ho
ᅦᅩᅮᅥᅵᅡᆨᄒơƳᆫҾ
Mario Cho
Python Korea 2014년 6월 세미나 - Windows 환경에서 Python 개발환경 세팅하기
Joongi Kim
효율적인 개발 프로세스를 위한 지속적 통합
홍렬 임
programming with GDB
NakCheon Jung
PyCon Korea 2015: 탐색적으로 큰 데이터 분석하기
Hyeshik Chang
협업하는 디자이너 - #1 git설치하기
Jinkyou Son
200718 덕성여대 생물정보학 강의 :: 생물정보학 파이썬
Joohyun Han
200720 바이오협회 생물정보학 파이썬 강의
Joohyun Han
R 시작해보기
SEUNGWOO LEE
게임 개발에 도움을 주는 CruiseControl.NET과 Windows Terminal
OnGameServer
알아두면 쓸모있는 깃허브 1
Hansol Kang
오픈소스GIS 개발 일반 강의자료
BJ Jang
Gitlab.key
Jongseok Choi
R 소개
Kangwook Lee
Ad

데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)

  • 1. 데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인) Mar 2015 권재명
  • 2. “훌륭한 목수는 연장을 탓하지 않는다”—속담
  • 3. 데이터분석 고수가 되기 위해서는 최고의 연장 (툴채인; toolchain)을 구비하는 것이 중요하다. 최고의 연장은 컴퓨터와 몇가지 오픈소스 소프트웨어들이다. 툴 설치에 관한 디테일들은 생략한다. 앞장에서 “고기를 잡을 줄 알게 된" 여러분 들에게는 쉬운 일일 것이다: 구글에서 검색하고, 웹페이지에서 따라하면 된다. * 다시 강조하건데, 이것은 2015년 현재 실리콘밸리 인터넷사업 자료분석가들이 흔히 사용하는 툴채인 이다. 다른 지역 / 인더스트리의 툴들은 다를 수 있다. 고수의 연장
  • 4. 보통* 맥 OSX 아니면 리눅스 랩탑. 하여간 유닉스/리눅스 되는 것이 좋다. (unix command line tool 때문에...) * 어디까지나 실리콘밸리가 그렇다는 것. 이 시리즈의 모든 내용은 MS 윈도우즈 (Windows) PC 에서도 실행가능하다. 유일하게 부족한 “bash” 부분은 cygwin이나 win-bash 등의 소프트웨어로 이뮬레이션이 가능하다. 구글에서 “windows bash” 로 검색해보자. 연장: 컴퓨터
  • 5. 해당 사이트에서 다운받고 인스톨하면 된다. 인터넷에 연결한 후, RStudio 를 실행하고 다음 패키지들은 설치해주자. 앞으로 자주 쓸 것이다. 연장: R과 알스튜디오 (RStudio)
  • 6. 연장: 써브라임 에디터 (Sublime Text) 코딩 덕후들은 좋은 에디터에 (그리고 좋은 의자!)에 집착한다. 현재 밸리의 최고인기에디터는 써브라임 에디터이다. http://www.sublimetext.com/ 50불이다. 오만원이 아까우면 무료로 며칠에 한번 나오는 “안사실래요?" 메시지 를 무시하고 쓰면 된다. 써브라임 에디터의 강점: ● 키보드 숏컷들, ● 무한한 개인화 기능들 (customization), ● 고수들이 공헌한 수많은 쓸모있는 패키지들, 등등. 특히 다중선택 (multiple selection; Cmd+D)은 묘한 중독성이 있다.
  • 7. 패키지 덕을 잘 보려면 일단 Sublime Package Control부터 설치하자. “Cmd+Shift+P”를 누르면 Command Palette 시작. “install”을 입력하면 아래와 같은 리스트가 뜨고, 그중 “install package”를 선택하면 몇 초 후 (굉장히 많은 패키지를 읽어옴) 패키 지 리스트가 로드된다. 그중 원하는 패키지를 찾아서 선택하면 인스톨된다. 써브라임 에디터 셋업
  • 8. 써브라임 에디터 유용한 패키지들 개인 취향마다 다르겠지만 내가 생각하는 필수 패키지는: ● Monokai-extended # 화면이 편안해진다 ● SublimeLinter # 코드 linting ● SublimeLinter-pylint # pylint plugin ● Markdown-extended # 마크다운 신택스 하이라이트 ● GitGutter # 깃(git)에서 편집된 행이 어디인지를 보여준다.
  • 9. Git Gutter , Pylint 맞뵈기. 자세한 것은 나중에...
  • 10. 연장: 파이썬 Python “anaconda python”이 가장 속편한 디스트리뷰션이다. 2.7 버전이 아직은 쓸만하다. (3.x 버전으로 갈아탈 필요 없는 듯) 다음처럼 정상적으로 인스톨되었는지 확인!
  • 11. OSX에 기본으로 따라 나오는 터미널이다. “Terminal” 앱을 실행하면 된다. 일단은 간단한 명령만 쓰려고 한다: ● ls ● cd ● mkdir ● more ● rm ● mv ● wc ● grep 장기적으로 고수가 되려면 친해지도록 애쓰자. 배쉬 쉘 터미널 (Bash shell)
  • 12. 맺음... 이로써 최강의 자료분석 시스템이 완성되었다. 너무 쉬워서 눈물이 나려고 하지 않는가?
  • 13. 1. R and RStudio (Statistical computing) 2. Anaconda Python pip install pylint pip install awscli curl https://sdk.cloud.google.com | bash 3. Sublime Text Editor and packages ln -s /Applications/Sublime Text.app/Contents/SharedSupport/bin/subl /usr/local/bin/subl 4. JDK (Java SE Development Kit) and Eclipse (IDE for Java and more) 5. homebrew (package manager for OSX) 6. oh my zsh and dotfiles (for advanced unix uses) 7. OSX tuning (keyboards repeat / shortcuts; trackpad; terminal windows group) 부록: OSX 노트북 셋업 예