[PAP] 실무자를 위한 인과추론 활용 : Best PracticesBokyung Choi프로덕트 데이터 분석 커뮤니티 PAP의 컨퍼런스 PAPCON 시즌 1에서 발표한 내용입니다. 인과추론이 비즈니스에 가져다 줄 수 있는 기회에 대해서 설명하고, 사례 분석을 진행합니다. 실무에 사용할 때의 유의점과 함께 마무리합니다.
A/B 테스트를 적용하기 어려울 때, 이벤트 효과 추정하기 (2020-01-18 잔디콘)Minho Lee- 시간에 따라 변하는 데이터에 A/B 테스트를 적용하기 어려울 때, 이벤트 효과 추정하기
- 2020-01-18 구글 스타트업 캠퍼스에서 진행된 시즌4 잔디콘 발표자료입니다
- 오탈자 또는 잘못된 내용 알려주시면 여기 설명부분에 반영해두겠습니다!
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data LiteracyPAP (Product Analytics Playground)박동혁 : 마케터에게 필요한 Data Literacy
발표영상 https://youtu.be/YWbJxCg7y2k
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트Minho Lee2021-07-16 잔디콘 시즌6 발표자료
- 베이지안 방법론에 Expected Loss를 활용하여 프로덕트 개선 속도를 높이는 방법에 대해 알아봅니다.
- 개발자 및 통계학 전공자가 아닌 분들을 대상으로 한 발표입니다. 다소 엄밀하지 못한 설명이 포함되었을 수 있으니 양해 부탁드립니다. 잘못된 부분은 답글로 달아주시면 감사하겠습니다.
원본 파일은 다음 링크로 다운로드 받으실 수 있습니다 :)
https://www.dropbox.com/s/zo1er99muu2oj5l/leeminho_til6_bayesian_abtest.pdf?dl=0
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim- 강의록 전문 읽기: http://bit.ly/2KKtzRA
데이터 분석(데이터 사이언스 말고, 통상적으로 스타트업에서 '데이터 분석'이나 '그로스'에 쓰는 데이터 분석)을 공부하려면, 어떤 기본 개념을 가지고 계시면 좋을지에 대해 만들어 본 강의 자료입니다.
카우앤독에서 지인 위주로 꾸린 강의에서 꽤 좋은 평가를 받았으나, 강의안 준비가 너무 힘들어서 실제 유료 강의로 이어지지는 않은 비운의 슬라이드...
멘탈 모델이란 무엇인지, 지표는 무엇이며 퍼널(Funnel)은 무엇인지, 등등의 이야기를 합니다. 기승전 결론은 SQL 배우세요. (https://brunch.co.kr/@minu-log/4)
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정PAP (Product Analytics Playground)허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
발표영상 https://youtu.be/Yb3UU66XoIM
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스Minwoo Kim2018년 8월 9일, sopoong 액셀러레이팅 워크샵 강의: 데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스.
- 발표 전문 읽기: http://bit.ly/2nrDhPv
데이터에 기반한 성장을 하기 위한 기반들, 필수 선결 조건들에 대해서 이야기해보려고 합니다. 제가 생각하는 필수 선결 조건은 Product-Market Fit, Instrumentation, 그리고 프로세스 이렇게 세 가지입니다. (이건 제가 만들어낸 개념들은 아니고, 기존에 성공적으로 스타트업의 성장을 만들어 냈던 선배들에게서 배운 내용입니다.)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)Yongho Ha우리 회사는 데이터를 볼 필요가 있을까?
봐야 한다면 어떻게 해야 할까?
스타트업이든, 큰 기업이든
데이터가 왜 필요하며, 어떤 기법들로 분석해 나갈 수 있는지 설명합니다.
퍼널, A/B 테스트, 코호트 분석등에 대해 쉽게 설명합니다.
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표Dylan KoGonnector(고넥터) 고영혁 대표가 주최한 스타트업 데이터 활용 세미나 '우리가 데이터를 쓰는 법' 의 첫 번째 발표 자료
세미나 : 우리가 데이터를 쓰는 법 (How We Use Data)
일시 : 2016년 4월 12일 화요일 10:00 ~ 18:00
장소 : 마루180 (Maru180) B1 Think 홀
제목 : 좋다는 건 알겠는데 좀 써보고 싶소. 데이터!
연사 : 넘버웍스 하용호 대표
어떻게 하면 데이터 사이언티스트가 될 수 있나요?Yongho Ha'꿈꾸는 데이터 디자이너' 과정의 학생들에게 소개한
'직업의 세계(?)' 강의 자료 입니다.
https://www.facebook.com/datadesigner2015
데이터를 다루기 위한 스킬과
보면 유용한 책들을 간단히 소개하였습니다.
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Hahttp://ga.yonghosee.com 에서 진행하는 구글 어날리틱스(google analytics) 에 대한 강의 슬라이드 입니다. 이 슬라이드는 샘플이지만, 초반부는 실재 강의 교재 그대로 입니다. 이것 자체로도 여러분이 GA를 이해하는데 좀 도움이 된다면 기쁘겠습니다^^ 감사합니다.
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)Dylan Ko* 해당 강연 관련 상세 인터뷰 - https://fyi.so/2Rl04JS
[목차]
1. 그로스 해킹 제대로 바라보기
2. 선택이 아닌 필수 “개인화 (Personalization)” 의 본질
3. 개인화를 구현하는 CDP (Customer Data Platform)의 글로벌 혁신 성공 사례
4. 이 모든 화두의 접점 “데이터 프로덕트 (Data Product)” 의 핵심
5. 데이터 프로덕트를 잘 만들기 위한 서비스/데이터 디자인 방법론과 기타
* 2018년 10월 29일 드림플러스 강남점에서 ㅍㅍㅅㅅ 아카데미(PPSS Academy)가 주최한 2시간 특강 '그로스 해킹과 데이터 프로덕트' 의 강연 슬라이드
[Agenda]
1. How to understand Growth Hacking properly
2. Not option but mandatory, Personalization's essence
3. Global innovation use cases of personalization using CDP(Customer Data Platform)
4. The core of Data Product, which is the base of all the above things
5. The methodology of service and data architecture design and other detail things to make a well-made data product
#그로스해킹 #데이터액션 #고넥터 #데이터사이언스 #서비스디자인 #GrowthHacking #DataAction #DataScience #Gonnector #ServiceDesign
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들PAP (Product Analytics Playground)윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
발표영상 https://youtu.be/X29liXyIo3s
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
실리콘 밸리 데이터 사이언티스트의 하루Jaimie Kwon (권재명)(오리지널 구글 프리젠테이션은 http://goo.gl/uiX2UH 에)
- 권재명 (Jaimyoung Kwon)
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스BOAZ Bigdata데이터 분석 프로젝트를 진행한 기린그림 팀에서는 아래와 같은 프로젝트를 진행했습니다.
기린그림 팀은 사용자의 글씨체를 학습하여 나만의 폰트로 일기를 쓰고, 사진을 업로드 하면 직접 그림을 그린 것처럼 변환하여 그림일기를 쓸 수 있도록 하는 프로젝트를 진행 했습니다.
16기 김유진 이화여자대학교 과학교육과
17기 김송성 고려대학교 통계학과
17기 박종은 연세대학교 언더우드국제학부
17기 여해인 동덕여자대학교 컴퓨터학과
17기 이보림 중앙대학교 소프트웨어학부
UX 아카데미 오픈프로젝트 [무신사 - UX/UI 개선]RightBrain inc.라이트브레인 UX 아카데미 21기 Open Project로 이번에 소개해 드릴 결과물은 ‘무신사 – UX/UI 개선 프로젝트’입니다.
무신사는 패션 특화 플랫폼으로 한국 패션산업에 구조적 영향을 받습니다. 현재 시장정체기에 무신사만의 차별화의 필요성에 초점을 맞추고
나를 가장 잘아는 패션쇼핑몰-무신사로 도약하기 위한 목표를 수립하고 UX/UI 전략을 고민해 보았습니다.
지난 UX 아카데미 21기 교육 기간 동안 무신사조가 만들어 낸 신선한 아이디어를 Rightbrain lab을 통해 공개해 드립니다. 라이트브레인 아카데미 수강생들이 어떤 과정을 통해 아이디에이션 하고 또 인사이트와 컨셉을 도출했는지 궁금하시다면 지금 바로 슬라이드쉐어로 내용을 확인하세요.
Causal Inference : Primer (2019-06-01 잔디콘)Minho Lee- 2019-06-01 잔디컨퍼런스(잔디콘, @구글캠퍼스) 에서 발표한 자료입니다
- 데이터를 통해 인과관계를 추론하는 방법에 대해서 알아봅니다
- Potential Outcomes, Causal Graphical Models 에 대해 간단히 살펴봅니다
- 슬라이드 내에 오타가 있습니다 ㅠㅠ
- 22p, 28p : Perkson's 가 아니라 Berkson's Paradox 입니다
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스Minwoo Kim2018년 8월 9일, sopoong 액셀러레이팅 워크샵 강의: 데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스.
- 발표 전문 읽기: http://bit.ly/2nrDhPv
데이터에 기반한 성장을 하기 위한 기반들, 필수 선결 조건들에 대해서 이야기해보려고 합니다. 제가 생각하는 필수 선결 조건은 Product-Market Fit, Instrumentation, 그리고 프로세스 이렇게 세 가지입니다. (이건 제가 만들어낸 개념들은 아니고, 기존에 성공적으로 스타트업의 성장을 만들어 냈던 선배들에게서 배운 내용입니다.)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)Yongho Ha우리 회사는 데이터를 볼 필요가 있을까?
봐야 한다면 어떻게 해야 할까?
스타트업이든, 큰 기업이든
데이터가 왜 필요하며, 어떤 기법들로 분석해 나갈 수 있는지 설명합니다.
퍼널, A/B 테스트, 코호트 분석등에 대해 쉽게 설명합니다.
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표Dylan KoGonnector(고넥터) 고영혁 대표가 주최한 스타트업 데이터 활용 세미나 '우리가 데이터를 쓰는 법' 의 첫 번째 발표 자료
세미나 : 우리가 데이터를 쓰는 법 (How We Use Data)
일시 : 2016년 4월 12일 화요일 10:00 ~ 18:00
장소 : 마루180 (Maru180) B1 Think 홀
제목 : 좋다는 건 알겠는데 좀 써보고 싶소. 데이터!
연사 : 넘버웍스 하용호 대표
어떻게 하면 데이터 사이언티스트가 될 수 있나요?Yongho Ha'꿈꾸는 데이터 디자이너' 과정의 학생들에게 소개한
'직업의 세계(?)' 강의 자료 입니다.
https://www.facebook.com/datadesigner2015
데이터를 다루기 위한 스킬과
보면 유용한 책들을 간단히 소개하였습니다.
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Hahttp://ga.yonghosee.com 에서 진행하는 구글 어날리틱스(google analytics) 에 대한 강의 슬라이드 입니다. 이 슬라이드는 샘플이지만, 초반부는 실재 강의 교재 그대로 입니다. 이것 자체로도 여러분이 GA를 이해하는데 좀 도움이 된다면 기쁘겠습니다^^ 감사합니다.
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)Dylan Ko* 해당 강연 관련 상세 인터뷰 - https://fyi.so/2Rl04JS
[목차]
1. 그로스 해킹 제대로 바라보기
2. 선택이 아닌 필수 “개인화 (Personalization)” 의 본질
3. 개인화를 구현하는 CDP (Customer Data Platform)의 글로벌 혁신 성공 사례
4. 이 모든 화두의 접점 “데이터 프로덕트 (Data Product)” 의 핵심
5. 데이터 프로덕트를 잘 만들기 위한 서비스/데이터 디자인 방법론과 기타
* 2018년 10월 29일 드림플러스 강남점에서 ㅍㅍㅅㅅ 아카데미(PPSS Academy)가 주최한 2시간 특강 '그로스 해킹과 데이터 프로덕트' 의 강연 슬라이드
[Agenda]
1. How to understand Growth Hacking properly
2. Not option but mandatory, Personalization's essence
3. Global innovation use cases of personalization using CDP(Customer Data Platform)
4. The core of Data Product, which is the base of all the above things
5. The methodology of service and data architecture design and other detail things to make a well-made data product
#그로스해킹 #데이터액션 #고넥터 #데이터사이언스 #서비스디자인 #GrowthHacking #DataAction #DataScience #Gonnector #ServiceDesign
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들PAP (Product Analytics Playground)윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
발표영상 https://youtu.be/X29liXyIo3s
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
실리콘 밸리 데이터 사이언티스트의 하루Jaimie Kwon (권재명)(오리지널 구글 프리젠테이션은 http://goo.gl/uiX2UH 에)
- 권재명 (Jaimyoung Kwon)
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스BOAZ Bigdata데이터 분석 프로젝트를 진행한 기린그림 팀에서는 아래와 같은 프로젝트를 진행했습니다.
기린그림 팀은 사용자의 글씨체를 학습하여 나만의 폰트로 일기를 쓰고, 사진을 업로드 하면 직접 그림을 그린 것처럼 변환하여 그림일기를 쓸 수 있도록 하는 프로젝트를 진행 했습니다.
16기 김유진 이화여자대학교 과학교육과
17기 김송성 고려대학교 통계학과
17기 박종은 연세대학교 언더우드국제학부
17기 여해인 동덕여자대학교 컴퓨터학과
17기 이보림 중앙대학교 소프트웨어학부
UX 아카데미 오픈프로젝트 [무신사 - UX/UI 개선]RightBrain inc.라이트브레인 UX 아카데미 21기 Open Project로 이번에 소개해 드릴 결과물은 ‘무신사 – UX/UI 개선 프로젝트’입니다.
무신사는 패션 특화 플랫폼으로 한국 패션산업에 구조적 영향을 받습니다. 현재 시장정체기에 무신사만의 차별화의 필요성에 초점을 맞추고
나를 가장 잘아는 패션쇼핑몰-무신사로 도약하기 위한 목표를 수립하고 UX/UI 전략을 고민해 보았습니다.
지난 UX 아카데미 21기 교육 기간 동안 무신사조가 만들어 낸 신선한 아이디어를 Rightbrain lab을 통해 공개해 드립니다. 라이트브레인 아카데미 수강생들이 어떤 과정을 통해 아이디에이션 하고 또 인사이트와 컨셉을 도출했는지 궁금하시다면 지금 바로 슬라이드쉐어로 내용을 확인하세요.
Causal Inference : Primer (2019-06-01 잔디콘)Minho Lee- 2019-06-01 잔디컨퍼런스(잔디콘, @구글캠퍼스) 에서 발표한 자료입니다
- 데이터를 통해 인과관계를 추론하는 방법에 대해서 알아봅니다
- Potential Outcomes, Causal Graphical Models 에 대해 간단히 살펴봅니다
- 슬라이드 내에 오타가 있습니다 ㅠㅠ
- 22p, 28p : Perkson's 가 아니라 Berkson's Paradox 입니다
[Causal Inference KR] 스타트업에서의 인과추론Bokyung ChoiCausal Inference KR 커뮤니티에서 진행한 발표입니다.
프로덕트 개발 조직의 데이터 분석가로 일하며 진행했던 인과추론 분석을 회고하는 내용입니다.
자료 조회가 안되실 경우 https://drive.google.com/file/d/1GAuAqggoxbX50EEwdzTaV4z4G0j8pLRf/view?usp=sharing 를 확인해주세요.
1. 인과추론에 빠져드는 이유
2. A/B 테스트의 현실, 왜 안된다고 할까?
3. 실험이 예상치 못한 지표를 침해했다
4. 기능을 늘리는 게 MAU 성장에 도움이 될까?
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )Seung-Woo Kang데이터 분석에 대한 입문서로 추천할 만한 책입니다. 가상의 회사에서 다양한 상황에 따른 데이터 분석을 보여줍니다. 인과관계 분석, 데이터 시각화, 가설 검정, 베이시안 그리고 오차에 대한 처리까지 데이터분석 전반적인 부분을 평이한 얘기로 쉽게 설명하고 있습니다.
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best PracticesPAP (Product Analytics Playground)최보경 : 실무자를 위한 인과추론 활용 - Best Practices
발표영상 https://youtu.be/wTPEZDc6fw4
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
From maching learning to deep learning episode2 Yongdae Kim머신러닝의 기본개념들과 비지도학습의 기본개념 일부를 소개합니다.
개념을 잡고 심화는 나중에... ^^
이번에는 Kaist 문일철 교수님 강좌를 기반으로 자료를 작성했습니다.
그외 많은 블로거들 자료 참조. 엄청나신분들이 많네요.
그분들 덕분에 많이 배웁니다.
boosting 기법 이해 (bagging vs boosting)SANG WON PARKxgboost를 이해하기 위해서 찾아보다가 내가 궁금한 내용을 따로 정리하였으나, 역시 구체적인 수식은 아직 모르겠다.
요즘 Kaggle에서 유명한 Xgboost가 뭘까?
Ensemble중 하나인 Boosting기법?
Ensemble 유형인 Bagging과 Boosting 차이는?
왜 Ensemble이 low bias, high variance 모델인가?
Bias 와 Variance 관계는?
Boosting 기법은 어떤게 있나?
Xgboost에서 사용하는 CART 알고리즘은?
Crash Course on Graphical modelsJong Wook Kim형태소분석기에 왜 CRF가 쓰이는지 이해하기 위해 정리한 슬라이드입니다. Graphical Models의 필요성부터 시작해 방향성(Bayesian Networks), 비방향성(Markov Random Fields) Graphical Models의 정의와 조건부독립 성질을 살펴보고, Generative와 Discriminative 모델의 차이점을 정리한 뒤 Discriminative + Undirected 모델로서 Conditional Random Fields를 소개합니다. 끝으로 형태소분석에 CRF를 사용하는 테크닉을 간단히 소개합니다.
파이썬(Python) 으로 나만의 딥러닝 API 만들기 강좌 (Feat. AutoAI ) Yunho Maeng#Python #딥러닝 #API #ibmdeveloperday2019
여러분들의 성원에 보답하기 위해 IBM Developer Day에서 발표한 세션 자료를 공개합니다! 그 어느때 보다 발표자료를 요청한 분들이 많아 놀랐습니다~ 그럼 다음에 또 뵙겠습니다 :)
Github https://github.com/yunho0130/devday_python_api
세션 영상 https://youtu.be/Z7bTfnuLXck
230304 UX/UI 해외 인기 아티클 8기 발표Minho Lee2023-03-04 [프롬디자이너] UX/UI 해외 인기 아티클 스터디 8기 중 1주차 발표자료입니다.
- 색상 대비 접근성에 대한 7가지 오해
- UX 리서치 케이스 스터디 : 틴더
- 개발자들에게 사랑받는 피그마 디자인 만들기
221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표Minho Lee2022-11-05 [프롬디자이너] UX/UI 해외 인기 아티클 스터디 7기 중 1주차 발표자료입니다.
- 작업을 깔끔하게 유지해줄 6가지 피그마 규칙
- 디자인 시스템 색상표의 "진한 노란색 문제”
- 보다 빠른 디자인-개발 핸드오프를 위한 접근성을 준수하며 조화로운 타이포그래피 시스템을 만드는 프레임워크
220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표Minho Lee2022-08-06 [프롬디자이너] UX/UI 해외 인기 아티클 스터디 6기 중 3주차 발표자료입니다.
1️⃣ 피그마에서 웹 디자인을 할때 반응형과 유동적인 그리드를 구축하는 방법
2️⃣ 나쁜 UX 디자인 - SaaS에서 피하지 못한 최악의 UX 디자인 13가지
3️⃣ UI 디자이너로 빠르게(쉽지는 않겠지만) 성장하는 방법
발표자료 원본 링크 : https://bit.ly/3P4aFpK
220319 해외 아티클 스터디 5기 : 1주차 발표Minho Lee2022-03-19 해외인기아티클 5기 발표자료입니다.
2021년 10월 1주차 해외 인기 아티클
- 타이포그래피 크기를 만들 때 피해야될 실수 5가지 (2021년)
- 스타트업에서 당신이 유일한 디자이너일 때 디자인 시스템을 구축하는 방법
- 당신이 알아야 할 10가지 기본 UI 디자인 원칙
신뢰할 수 있는 A/B 테스트를 위해 알아야 할 것들Minho Lee이 문서는 A/B 테스트의 중요성과 신뢰성을 확보하기 위한 요소를 설명합니다. 실험 설계, 그룹 나누기, 데이터 수집 및 결과 분석 등 A/B 테스트의 각 단계에서 고려해야 할 세부 사항을 다룹니다. 또한, 통계적 유의성 및 p-value의 해석 방법에 대해서도 논의합니다.
201107 해외 아티클 스터디 2기 : 2주차 발표Minho LeeThe document discusses essential cognitive behavior patterns for UX design, emphasizing the importance of type scale and baseline font size in typography. It also highlights the significance of type scale factors and spacing for optimal readability and user experience. Additionally, it briefly mentions machine learning applications in UX research, specifically mentioning tools like Weka and Orange3 for data analysis.
For Better Data VisualizationMinho LeeData visualization should be designed with the assumption that tooltips and rollovers will likely not be used by viewers. Charts and graphs should be able to stand alone and convey their message without additional elements. Designers should focus first on clarity and ensuring the core message and findings can be understood from the visual itself.
2. 발표자
이민호 (Miika)
Datarize 데이터 분석가
1일 1커밋 잔디 모임에 시즌 1~5 까지 전부 참여
요새는 분석보단 개발(주로 JS)을 더 많이 합니다
"데이터와 모델링 결과가 레포트에서 멈추지 않고,
실제로 사람들에게 도움을 줄 수 있도록 하는 제품을 만들고자 합니다"
https://github.com/lumiamitie/TIL
3. 잔디 모임에서 공부하고 있는 것
일하다 마주치는 개발 이슈들 (Git, Docker, JS, Python)
통계 서적 "Statistical Rethinking" 요약 정리
- 5/30 기준 총 90일 중에서 45번의 커밋이 해당됨
"오늘 다루게 될 내용도
Statistical Rethinking 에서 인상 깊었던 부분을 정리한 결과입니다"
5. 모형이란 무엇일까?
현실을 축소하여 필요한 부분을 중심으로 논리적으로 구성한 작은 세계
- 모형 안에서는 가능한 모든 경우의 수를 고려할 수 있다
- 모형이 예상했던 대로 동작하는지 실제 세상의 데이터를 바탕으로 검증할 수 있다
오늘 이야기할 "모형"이란 다소 개념적인 이야기
- 현실의 축소판은 맞지만, 어떻게 축소했는지 고민하지는 않을 것
- 개발로 치면 "아직 세부적인 내용이 구현되지 않은 함수"
6. 모형을 통해 데이터를 이해하려고 할 때
올바른 해석을 방해하는 요인들
사실 너무 많은데...
(멍청한) 나
- 잘못세운가설
- 코드실수
- 데이터잘못가져옴
- 파악하지못한히스토리
- 도메인지식부족
(제대로 쌓여있다던) 데이터
- 분석을목적으로쌓아두지않은로그덩어리
- 분명있다고그랬는데비어있는데이터
- 직관적인해석과는거리가먼카테고리코드값들
- 문서에정의된용도와다르게사용되고있는컬럼들
+ 또 다른 무언가
...
7. 그 중에서도 "변수 간의 관계로 인해 생기는 문제들"에 대해서 알아보자
조금 더 구체적으로 풀어 써보면,
"변수들 사이의 관계 때문에
원래 우리가 알고자 했던 입력 변수와 결과 변수의 관계를
잘못 해석하게 되는 경우"
9. 변수 간의 관계로 인해 생기는 문제들
어떤 것들이 있을까?
오늘 다룰 내용은 세 가지 케이스
- Multicollinearity (다중 공선성)
- Post-Treatment Bias
- Collider Bias
10. Multicollinearity (다중 공선성)
Definition & Example
Definition
- 회귀 모형에서 두 개 이상의 예측 변수가 서로 강한 상관관계를 가지는 경우를 말한다
- 실제로 예측 변수와 결과 변수가 연관이 있더라도, 모형은 연관이 없다는 결론을 내려버린다
Example : 다리 길이와 키의 관계 시뮬레이션
- 양쪽 다리 모두 키의 40~50% 길이가 되도록 시뮬레이션을 수행한다
- 그리고 각 다리 길이가 키와 어떤 관련이 있는지 모형을 통해 확인한다
- 그런데 결과의 상태가....?
L H
R H
L
H
R
효과 있음
효과 있음
둘 다
효과 없음
?????????
11. Multicollinearity (다중 공선성)
Example
L H
R H
L
H
R
left : 2.014
통계적으로 유의미함
(키가 왼쪽 다리 길이의 2.014배 정도)
right : 2.0113
통계적으로 유의미함
(키가 왼쪽 다리 길이의 2.011배 정도)
left : 0.92 (통계적으로 유의미하지 않음)
right : 1.0931 (통계적으로 유의미하지 않음)
12. Multicollinearity (다중 공선성)
왜 발생할까?
회귀 모형이 동작하는 방식의 특성
- 회귀 모형을 통해 학습하는 파라미터는 다음과 같은 내용을 의미한다
- "다른 쪽 다리 길이를 이미 알고 있을 때,
한 쪽 다리 길이를 추가로 알게 되어서 얻게 되는 가치는 얼마나 될까?"
- 결국 양쪽 다리 길이 모두 키를 추정하는데 효과가 없다는 결론을 내리게 된다
공통적인 원인 변수가 존재할 때 발생하기 쉽다 L
U
R
H
양쪽 다리 길이의
공통 원인
키
13. Post-Treatment Bias
Definition & Example
Definiton
- 변수 A의 결과로 이루어진 변수 B를 모형에 포함시킬 경우, A에 대해 잘못된 해석을 내릴 수 있다
- 우리가 효과를 구하고 싶어하는 변수(Treatment)는
해당 변수로 인한 결과 (Post-Treatment) 변수가 같이 있을 땐 그 효과가 가려질 수 있다
Example : 곰팡이 방지 토양의 효과를 시뮬레이션 해보자
- 토양에곰팡이가생기면식물의성장에방해가된다.곰팡이방지토양을사용하면얼마나효과가있을까?
- 변수는 4개 : 식물의 처음 높이, 실험이 끝났을 때 식물의 높이, 곰팡이 방지 토양 사용 여부, 곰팡이 존재 여부
- 이 때 모형에 "곰팡이 존재 여부"를 포함시키면, 곰팡이 방지 토양의 효과가 없는 것처럼 보인다
14. Post-Treatment Bias
Example
"곰팡이 존재 여부" 포함하지 않을 때
- 곰팡이 방지 토양의 효과 : 1.213
- 통계적으로 유의미함
"곰팡이 존재 여부" 포함할 때
- 곰팡이 방지 토양의 효과 : -0.0301
- 통계적으로 유의미하지 않음
15. Post-Treatment Bias
왜 발생할까?
변수들의 관계를 그래프로 표현해보면 이렇게 된다
변수들이 X → A → Y 와 같은 형태로 영향을 주고받는 상황에는
A값에 조건이 걸릴 때 X와 Y변수가 조건부 독립 상태가 된다
곰팡이 방지 토양
사용 여부
곰팡이 존재 여부
실험이 끝났을 때
식물의 높이
식물의 처음 높이
16. 참고 1
특정한 변수에 조건을 부여한다는 것이 구체적으로 어떤 의미일까?
A → B → C 라는 형태의 모형이 있을 때, 이 모형을 함수로 나타내면 다음과 같다
- B = func(A)
- C = func(B)
- 결국 C 값을 알기 위해서는 변수 A에 특정한 값을 입력해야 한다
따라서,
모형에 변수 A를 포함하게 되면 "변수 A에 특정한 값으로 조건을 부여" 하게 된다
17. 참고 2
X와 Y가 조건부 독립이 된다는 건 무슨 말일까?
모형에 A가 포함되는 조건 하에서는 X와 Y변수가 독립적으로 움직이게 된다
따라서 X변수가 Y변수에 영향을 주지 못하는 상태가 된다는 것을 의미한다
X Y
X Y
독립 아님. X가 Y에 영향을 줄 수 있다
독립. X가 Y에 영향을 줄 수 없다
18. Post-Treatment Bias
왜 발생할까?
곰팡이 여부 변수를 모형에 포함시키면, 다음과 같은 질문을 하는 것이 된다
"식물에 곰팡이가 피었다는 것을 이미 알고 있을 때,
곰팡이 방지 토양을 사용하는 것이 식물에 성장에 영향을 미치는가?"
정답은 "아니오" 가 된다
곰팡이 방지 토양을 사용하면,
곰팡이가 생기는 것을 방지하는 방식으로 식물의 성장에 영향을 미치기 때문이다
19. Collider Bias
Definition & Example
Definition
- 서로 관련없는 두 변수가 또 다른 변수에 동시에 영향을 미칠 경우,
원인에 해당하는 두 변수가 서로 관련이 있는 것처럼 보인다
Example : 논문 게재 여부 시뮬레이션
- 논문의 신뢰도, 가치 값을 독립적인 난수로 생성한다
- 신뢰도 + 가치 점수를 기준으로 상위 10% 논문이 선택된다고 가정해보자
- 그러면 선택된 논문들에서는 신뢰도와 가치 사이에 음의 상관관계가 나타난다
A
B
Y
21. Collider Bias
왜 발생할까?
두 변수의 공통 결과 변수(Collider)에 조건을 부여할 때 발생한다
Collider 변수에 조건을 부여하면,
그 원인에 해당하는 변수들 사이에 가짜 상관관계를 만들어낸다
표본을 선택하는 과정이 결과에 영향을 미치는 선택 편향(Selection Bias)과 관련이 있다
"신뢰성이 떨어지는 연구가 저널에 게재되려면
그만큼 뉴스거리로서는 높은 가치가 있어야 한다.
그렇지 않았다면 아예 선택조차 받지 못했을 것이다.
그 반대도 마찬가지다."
22. 모형에 넣어야 하는 변수와 빼야 하는 변수를 어떻게 결정할 수 있을까?
심슨 패러독스처럼,
중요한 변수가 빠지는 경우 잘못된 해석을 하게 되는 경우가 있다
앞서 살펴본 Bias 들이 발생한다면,
변수가 모형에 포함되는 것이 오히려 나쁜 해석을 하게 만든다
그렇다면 모형을 올바르게 해석하기 위해서는 변수를 어떻게 선택해야 할까?
24. DAG?
Directed Acyclic Graph
방향성이 존재하면서 사이클이 없는 그래프 구조를 말한다
직접 영향을 주는 변수 관계를 화살표를 통해 표시한다
A B C
A B A가 B에 직접 영향을 미친다
A가 C에 간접적으로 영향을 미친다
25. DAG를 그리면 무엇을 할 수 있을까?
Confronting Confounding
변수들 사이의 관계를 교란시키는 요소(Confound)를 찾아낼 수 있다
- 예측 변수 X와 결과 변수 Y의 관계가 실제와 다르게 추정되는 현상을 Confounding 이라고 한다
- 구체적인 분석과 모델링이 시작되기 전에 발생할 수 있는 위험을 사전에 발견할 수 있다
기본적으로 4가지 방식의 confound가 존재한다
X Y
Z
Fork Pipe Collider Descendant
X
Y
Z
X Y
Z
X Y
Z
D
26. DAG를 그리면 무엇을 할 수 있을까?
Confronting Confounding
X Y
Z
Fork
Z에 대해 조건을 걸면
X와 Y가 조건부 독립
X
Y
Z
X Y
Z
X Y
Z
DPipe
Z에 대해 조건을 걸면
X와 Y가 조건부 독립
Collider
Z에 대해 조건을 걸면
X와 Y가 영향을 주고받게 됨
Descendant
D에 대해 조건을 걸면
X와 Y가 영향을 주고받게 됨
27. DAG는 만능인가?
질문이 이러면 정답은 당연히 아니오..겠죠?
DAG로 설명하지 못하는 부분도 있다
- interaction
변수들 사이에 상호작용이 발생하는 경우
- 초기 조건에 민감한 복잡계는 애초에 DAG로 표현하는 것이 어렵다
"통계 모형도, 인과 관계를 나타낸 DAG도
그 자체만으로 모든 정보를 표현할 수는 없다"
Y ~ X1 + X2
Y ~ X1 + X2 + X1:X2
X1 X2
Y
X1 X2
Y
인터렉션 X
인터렉션 O
29. 그래서, 도대체 무엇이 올바른 해석을 방해하고 있는가?
"모형" 이라는 것 그 자체의 문제
- 모형은 항상 틀릴 수 있다
- 모형에서 얻고자 하는 것이 무엇일까? 예측 vs 추정
그런 모형을 대하는 "나의 자세"의 문제
- 계산기 대하듯이 가지고 있는 변수 모형에 다 넣고 나온 결과를 맹신하지 말자
- 데이터가 만들어지는 프로세스 자체에 대해서 고민하기