ݺߣ

ݺߣShare a Scribd company logo
-1--1-
자라섬 재즈 페스티벌 관람객 분석 및 예측
한경훈, 류경숙, 전영준,
송창열, 신정호, 안진훈
분석 제 8기 4조 팀원
-2-
Ⅰ. 개요
1. 주제 선정 배경 및 목적
2. 자라섬 재즈 페스티벌 소개
3. 프로젝트 수행 일정
Ⅱ. 유사 프로젝트 분석 및 고찰
1. 빅 데이터 활용 관광 사업 성과 시범 분석 소개
2. 자라섬 재즈 페스티벌에 대한 분석 및 결론
Ⅲ. 데이터 수집
1. 데이터 확보 노력 및 한계
2. 데이터 Mash-up
Ⅳ. 데이터 분석
1. 데이터 출처
2. 데이터 분석 설계
3. 1차 분석
4. 2차 분석
5. 2015년 자라섬 페스티벌 예측
6. 주최자 입장에서의 대응전략
Ⅴ. 결론
1. 지역 축제 분석의 가치 및 기대효과
2. 빅 데이터 분석 전문가과정을 마치며 …
INDEX
-3-
INDEX
Ⅰ. 개요
1. 주제 선정 배경 및 목적
2. 자라섬 재즈 페스티벌 소개
3. 프로젝트 수행 일정
-4-
1. 주제 선정 배경 및 목적
공유 데이터를 통해 다양한 빅 데이터 분석 및 기술 활용을 통해 다양한 관점의 전략적 방향 제시
빅 데이터 분석을 통해
성공/실패 요인 도출
다양한 지역 행사에 적용
가능한 예측 모델 생성
지역 축제 분석의 가치 및
주최자의 전략적 방향 제시
• 데이터 수집 정제 
분석하기까지 각 단계별로
발생되는 성공 및 실패 요인 도출
및 공유
• 초기 단계인 빅 데이터 분석
분야의 실패 요인 분석을 통한
성공 가능성 제시 및 방향 제안
• 지자체를 중심으로 무계획적으로
행해지는 다양한 지역 행사의
문제점 보완을 위해 행사 진행
전에 계획 수립에 기반이 될 예측
모델을 생성하고 지방 발전에
도움이 되고자 함
• 경제적으로 얼마나 지역 축제가
가치가 있는가를 다양한 변수
발견 및 분석을 통해 제시하고자
함
• 지역 축제 주최자의 전략적,
전술적 방향을 제시하고자 함
예측 모델 및 방법 설명을 통해
자라섬 재즈 페스티벌에서 주요 요인 별 상관관계 및 효과 정량화
-5-
2. 자라섬 재즈 페스티벌 소개 ( 1 )
자라섬 국제 재즈 페스티벌은 매년 가을 경기도 가평군 가평읍 달전리 자라섬에서 열리는 대한민국의 국제 재즈 페스티벌이다.
재즈의 대중화를 표방하여 세계 최정상급의 아티스트부터 국내에 소개된 적 없는 제3세계 아티스트, 실력 있는 로컬 밴드에 이르기까지 재즈로
묶이는 모든 장르를 소화한다. 해마다 10개 남짓의 무대에 100팀에 가까운 공연이 열리지만 유료 무대는 단 2개뿐이고 무료로 개방하는 무대가
대부분이다.
2004 2005 2006 2007 2008 2009
2010 2011 2012 2013 2014
-6-
2. 자라섬 재즈 페스티벌 소개 ( 2 )
2013년 기준으로 누적 관객수 100만 명을 넘어선 한국을 대표하는 음악 축제 중 하나가 되었다. 2009년, 2010년 문화체육관광부 지정
유망축제로 지정 된데 이어, 2011~2013년에는 대한민국 우수 축제로 지정되었으며 2014년에는 음악 축제 최초로 최우수 축제로 지정되는 등
명성이 점차 커지고 있다.
30,000
70,000
100,000100,000
130,000
150,000
170,000
190,000
230,000
[값]
250,000
-
50,000
100,000
150,000
200,000
250,000
300,000
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014
(관람객 수)
(개최 년도)
자라섬 재즈 페스티벌 년간 방문자 수
* 연평균 28% 성장률
* 출처 : Wikipedia
-7-
2. 자라섬 재즈 페스티벌 소개 ( 3 )
유튜브 채널
공식 페이스북 공식 홈페이지
SNS, 홈페이지, 기업과의 협력을 통해 페스티벌 홍보 및 상생 발전 모델 구축
언론
활용
SNS.
홈페이지
등 활용
기업
협력
-8-
[참고] 자라섬 재즈 페스티벌과 협력 기업
자라섬 재즈 페스티벌과 협력 기업과의 분석을 통한 경제적으로 미치는 효과를 분석을 위해 자료를 수집하였으나 매출액
자료를 구할 수 없어 분석 중단됨. 그러나 기업과의 협력을 통해 축제가 발전할 수 있는 요인이 됨을 인터넷 기사를 통해
예측 가능함.
-9-
3. 프로젝트 수행 일정
Pre - STEP (9월 4주) STEP 1 (10월 2주) STEP 2 (10월 4주) STEP 3 (11월 2주)
데이터
탐색/변환
분석 기법
선정
모형 정의
결과도출
검증
결과
발표
주제 변경(빅 콘테스트 주제 이슈)
관련 사례 공유/학습
자료 대상 선정 및 취합
(ex. 뮤지션 정보, 트렌드, 날씨 등)
데이터프레임 구축
상관관계 분석
추가 파생변수 적용
분석 모델 수립
분석결과
검증 및 수정
발표자료 작성
나들 가게에서 자라섬으로 주제 변경
PT 발표
9월3주 11/14
진행 완료
-10-
INDEX
Ⅱ. 유사 프로젝트 분석 및 고찰
1. 빅 데이터 활용 관광 사업 성과 시범 분석 소개
(한국관광공사: 빅 데이터 활용 관광사업 성과 시범분석: 2013 문화관광축제를 중심으로)
2. 자라섬 재즈 페스티벌에 대한 분석 및 결론
-11-
분석 배경 및 목적
1. 빅 데이터 활용 관광 사업 성과 시범 분석 소개 ( 1 )
-12-
분석 방법론
데이터 보정 방법 및 분석 방법의 한계
1. 빅 데이터 활용 관광 사업 성과 시범 분석 소개 ( 2 )
-13-
2. 자라섬 재즈 페스티벌에 대한 분석 및 결론
분석 요약 분석 결과 예시
시간/연령/성별 유동인구 및 매출에 대한 현황 위주의 분석 결과
요인 분석 및 상관 분석을
통한 깊이 있는 분석 필요
-14--14-
-15-
INDEX
Ⅲ. 데이터 수집
1. 데이터 확보 노력 및 한계
2. 데이터 Mash-up
-16-
자라섬 페스티벌의 성공 요인과 분석을 위한 데이터 노력 확보에도 불구하고 한계가 존재함.
데이터 확보 노력과 한계 ‘정부 3.0’ 의 현실
1. 데이터 확보 노력 및 한계
“정부 3.0” 의 기조인 개발, 공유, 소통, 협력이
아직까지 원활치 않은 상황임
8기 4조
KoDB
자라섬
Jazz
사무국
X
X
필요 data 선별
진흥원 공문 협조 요청
협조 지연 data 미확보
자라섬 재즈 페스티벌 관련 데이터가 가장 많은
사무국의 비협조로 데이터 확보 어려움 겪음
-17-
가용한 데이터는 무한 하지만 산재된 데이터 수집에 많은 시간과 노력이 필요함.
2. 데이터 Mash-up
교통량정보시스템
(road.or.kr)
-18--18-
-19-
INDEX
Ⅳ. 데이터 분석
1. 데이터 출처
2. 데이터 분석 설계
3. 1차 분석
- 기초 변수 정의
- 군집 분석
- Decision Tree 분석
- Random Forest 분석
4. 2차 분석
- 파생 변수 정의
- Random Forest 분석
- 시각화
5. 2015년 자라섬 페스티벌 예측
6. 주최자 입장에서의 대응전략
-20-
1. 데이터 출처
이 번 프로젝트를 위한 데이터는 자라섬 재즈 페스티벌 홈페이지 및 정보 유형에 따라
구글/네이버 트렌드, 통계청, 기상청 등에서 수집
데이터
수집
위키피디아
구글 트렌드
유튜브
기상청
통계청
카인즈 언론기사 검색 구글 트렌드
네이버 트렌드
자라섬 재즈
페스티벌
홈페이지
-21-
[참고] PC에서 Mobile로 검색 트렌드가 이동하는 양상을 보임
PC 검색 트렌드 변화 Mobile 검색 트렌드 변화
• 검색횟수를 주간으로 합산해서 조회 기간 내 검색량을 100으로 나타낸 그래프임.
“ 검색어 : 자라섬 재즈 “
(2010년 6월 ~ 현재)
-22-
[참고] 수집한 세부 내용 ( 1 )
데이터 카테고리 변수 명 변수 설명 출처
자라섬 재즈페스티벌 관련 일반 정
보
Visit 총 방문객
자라섬 재즈 페스티벌 홈페이지
Wave 행사 회차 (1차~11차)
Year 행사 진행 연도
duration_days 행사 진행 일 수
visit_per_day 1일당 방문객 수
초청 뮤지션 정보
(글로벌 관심도 Top3 뮤지션 기준)
avg_GT_artistT3 뮤지션 관심도 구글 트렌드
avg_atst_utube_view 뮤지션 동영상 조회 수 YOUTUBE
avg_atst_experience 뮤지션 활동 경력 Wikipedia
max_youtube_index 뮤지션 동영상 최대 조회 수 YOUTUBE
atst_like_reg_na 초청 뮤지션 선호 국가 (북미)
구글 트렌드atst_like_reg_eu 초청 뮤지션 선호 국가 (유럽)
atst_like_reg_ot 초청 뮤지션 선호 국가 (기타)
-23-
[참고] 수집한 세부 내용 ( 2 )
데이터 카테고리 변수 명 변수 설명 출처
자라섬 재즈페스티벌 관련 트렌드
GT_Jazz
재즈에 대한 관심도
구글 트렌드
CumGT_Jazz
NTpc_Jazz
네이버 트렌드NTmb_Jazz
CumNTmb_Jazz
gt_gapyoung 가평에 대한 관심도
구글 트렌드gt_jarasum 자라섬에 대한 관심도
gt_chunchun 춘천에 대한 관심도
-24-
[참고] 수집한 세부 내용 ( 3 )
데이터 카테고리 변수 명 변수 설명 출처
날씨
av_temp 평균 기온
기상청
max_temp 최고 기온
min_temp 최저 기온
Is_rainy 강우 여부
rainfall 강우량
day_tempran_av 평균 일교차
day_tempran_mx 최대 일교차
교통
train 경춘선 복선 전철 개통 여부
카인즈 언론기사 검색
highway 경춘 민자 고속도로 개통 여부
경제
national_Wine_import 연도별 와인 수입량
통계청GDP 국내총생산
GDP_growth 전년대비 국내 총생산 증가율
-25-
2. 데이터 분석 설계
회 차별 관람객 수는 종속 변수, 관람객 증가에 영향을 미칠 수 있는 요인은 독립 변수로 정의
자라섬 재즈 페스티벌 관람객 증가의
주요한 원인을 파악 및
향후 페스티벌의 효율적 운영을 위한
인사이트 제공을 목적으로 함
독립 변수
• 평균 기온 / 최고 기온 / 최저 기온
• 강우 여부 / 강우량
• 평균 일교차 / 최대 일교차
• 총 방문객 행사 회 차 (1차~11차)
• 행사 진행 연도 행사 진행 일 수
• 1일당 방문객 수
• 뮤지션 관심도
• 뮤지션 동영상 조회 수
• 뮤지션 활동 경력
• 뮤지션 선호 국가 (북미/유럽/기타)
• 재즈에 대한 관심도
• 가평에 대한 관심도
• 자라섬에 대한 관심도
• 춘천에 대한 관심도
• 경춘선 복선 전철 개통 여부
• 경춘 민자 고속도로 개통 여부
• 연도별 와인 수입량
• 국내총생산 전년대비
• 국내 총생산 증가율
변수 군
경제
교통
날씨
자라섬 재즈 페스티벌
관련 트렌드
초청 뮤지션 정보
자라섬 재즈 페스티벌
일반 정보
종속 변수
회 차별 방문객 (관람 인원)
-26-
[참고] 실제 분석에 사용된 Data Set
Visit 30000 70000 100000 100000 130000 150000 170000 190000 230000 270000 250000
Wave 1 2 3 4 5 6 7 8 9 10 11
Year 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014
duration_days 3 3 4 5 3 3 3 3 3 4 3
visit_per_day 10000 23333 25000 20000 43333 50000 56667 63333 76667 67500 83333
avg_GT_artistT3 3 6 4 4 2 1 3 3 9 3 3
avg_atst_utube_view 4398957 12661307 10497992 5612566 3654285 2446790 7856284 3030812 6085740 2161922 2413752
avg_atst_experience 33.666667 29 50.333333 32
38.3333333
3
50.6666666
7
26.6666666
7
32
65.3333333
3
29.3333333
3
32.3333333
3
max_youtube_index 5238265 33135430 21104314 8623592 5089836 3927620 18308970 6139135 12293783 3262653 3923829
atst_like_reg_na 0 1 0 1 0 0 0 0 1 1 1
atst_like_reg_eu 1 1 1 1 1 1 1 1 1 1 1
atst_like_reg_ot 1 1 1 0 0 0 1 0 1 0 0
GT_Jazz 0 0 0 0 7 20 33 37 42 38 40
CumGT_Jazz 0 0 0 0 7 27 60 96 138 176 216
NTpc_Jazz 0 0 0 63 39 33 27 22 17 16 14
NTmb_Jazz 0 0 0 0 0 0 4 25 47 60 72
CumNTmb_Jazz 0 0 0 0 0 0 4 29 77 136 208
gt_gapyoung 0 0 0 0 1 1 7 14 19 17 17
gt_jarasum 0 0 0 0 0 0 1 1 2 2 2
gt_chunchun 2 2 8 12 12 11 27 45 54 46 45
av_temp 19 22.1 19.3 21 17.5 13.1 12.6 10.5 12.1 16.2 15.3
max_temp 26.8 27.4 28.2 27.8 24.9 20.8 21.2 19.6 22.2 27.6 21.4
min_temp 13.5 16.3 10.1 17.2 10.8 5.3 4.9 3.8 5.6 8.2 9.5
Is_rainy 1 1 0 0 0 0 0 0 0 0 0
rainfall 44 10.5 - - - - - - - - -
day_tempran_av 4.6 4.3 10.7 8.1 9.2 6.8 8 8.3 8.8 11.3 6.1
day_tempran_mx 13.3 7.7 16.4 10.6 13.9 14 16.3 15.8 15.4 16.9 11.9
train 0 0 0 0 0 0 0 1 1 1 1
highway 0 0 0 0 0 1 1 1 1 1 1
national_Wine_import 605 685 824 1411 2094 1313 1286 1523 1577 1785 1800
GDP
876,033 919,797 966,055 1,043,258 1,104,492 1,151,708 1,265,308 1,332,681 1,377,457 1,428,295 1,471,144
GDP_growth 3 5 4 5 6 3 1 7 4 2 3
-27-
3. 1차 분석 (기초 변수 정의) ( 1 )
연도 별 자라섬 재즈 페스티벌 관련 기초 변수의 구조
11 obs. : n = 11(표본 크기), 29 variables : p = 29 (변수의 개수)
-28-
3. 1차 분석 (기초 변수 정의) ( 2 )
연도 별 자라섬 재즈 페스티벌 출연 아티스트 관련 기초 변수의 구조
63 obs. : n = 63(표본 크기), 18 variables : p = 18 (변수의 개수)
-29-
3. 1차 분석 (기초 변수 정의) ( 3 )
데이터 수집의 한계, 표본크기 n > 30 이 충족되지
않으면 분석자체가 어려운 것일까?
고려대 통계학과 허명회 교수님의 인터뷰 내용 中
• 질문자 :
 표본이 10개 정도 밖에는 없는 경우를 분석해야만 하는 사례라고 했을 때, 계량분석이 전혀 통계적으로는 의미가 없다고 봐야
할까요?
• 허명회 교수님:
 n > 30은 별 의미 없습니다.
 n =10인 자료에 대하여 random forest, 로지스틱 등 통계적 모형(추론)이 만들어진 경우 일반적인 문제는 예측의
변동성(variability)이 커진다는 것입니다. 이에 따라 재현성이 감소하게 되는 것이죠.
 예를 들어, n= 10 인 야구 결과에서 검정은 얼마든지 가능합니다. 즉, 두 팀의 저력이 동일하다는 가설에 대한 p-값 산출
정도는 문제가 없습니다.
 신뢰구간은 너무 넓게 되므로 별 의미가 없게 됩니다.
분석 방향 : n < p 유형의 분석 과제로 접근!
-30-
3. 1차 분석 (군집 분석)
다양한 변수 조합으로 시도했으나
뚜렷한 군집 분류 결과를 확인하기 어려움
‘가평’ 구글 검색량
‘아티스트 Youtube’ 조회수
“해석을 위한 더 많은 시간과 노력, 투입변수의 조절 작업이 필요 함”
군집 종류 ‘3’ 설정
-31-
3. 1차 분석 (Decision Tree 분석)
p-value = 0.053 > α = 0.05
Decision Tree 모델의 부적합 이유?
GDP로만 잡힌다는 것은 시간이 지날수록 는다는 것. 당연하지만 인사이트가 되지 못하니,
다양한 변수를 반영한, 좀 더 정교한, 다양한 인사이트를 제공할 수 있는 모델링이 필요 함
GDP > 1151708 : n=5966055 < GDP ≤ 1151708 : n=3966055 ≤ GDP : n=3
-32-
3. 1차 분석 (Random Forest 분석) ( 1 )
반복 횟수
오차율
100회 반복을 통해 얻은 모형은 20회 이후부터는
오차율의 큰 변동이 없음
군집 및 Decision Tree 분석 결과 대안은?
“ Random Forest 분석을 통해 최적의 모델 생성” Random Forest은
앙상블 학습 기법을 사용한
모델로서 주어진
데이터로부터 여러 개의
모델을 학습한 다음 예측 시
여러 모델의 예측 결과들을
종합해 사용하여 정확도를
높이는 기법
-33-
구글트렌드 가평지수 > 구글트렌즈 누적 Jazz 지수 > 구글트렌즈 Jazz 지수
3. 1차 분석 (Random Forest 분석) ( 2 )
Random Forest 분석 모형이 기대했던 대로 다양한 변수들의 영향을
상대적 중요도와 함께 제공해줌
MSE의 퍼센트 증가 노드 순수도 증가
-34-
4. 2차 분석 (파생변수 정의)
파생 변수 R Script
최고 기온과 최저 기온의 차
ddply(jarasum, .(Wave), transform, max_min_temp_dif=max_temp-
min_temp)
아티스트 경력에 대한 유투브 조회수 비율
ddply(jarasumder, .(Wave), transform, art_view_exp=avg_atst_utube_view
/avg_atst_experience)
춘천 구글 트렌드에 대한 가평 구글 트렌드 비율 ddply(jarasumder, .(Wave), transform, gt_gap_chu=gt_gapyoung/gt_chunchun)
파생 변수를 정의하기 위해 데이터를 그룹별로 요약하는 함수인 ddply를 활용하여 변수를 생성
파생 변수 정의
-35-
4. 2차 분석 (Random Forest 분석)
“아티스트 보다 누적된 행사 인지도와 재즈에 대한 일반적 관심 증가가 오히려 더 중요한 요인”
MSE의 퍼센트 증가 노드 순수도 증가
구글트렌드 자라섬 지수 > 구글트렌드 춘천 지수 > 구글트렌즈 누적 Jazz 지수
-36-
4. 2차 분석 (시각화)
방문자수
구글 트렌드
각 변수의 구글 트렌드가 높을수록 방문자 수 증가
가평, Jazz, 춘천, 가평/춘천 구글 트렌드 변수와 방문자 수 관계
-37-
5. R 분석 소스코드
• library(party)
• library(randomForest)
• library(ggplot2)
• library(plyr)
• library(gcookbook)
• setwd("D:/데이터분석/빅파이")
• jarasum <- read.csv("jarasum_data.csv", header=T)
• jarasum[,17] <- as.factor(jarasum[,17]) # train, highway, Is_rainy는 factor형이므로 형변환
• jarasum[,18] <- as.factor(jarasum[,18])
• jarasum[,19] <- as.factor(jarasum[,19])
• jara <- jarasum
• jara <- jara[,-c(1,3,5)] # Wave, Year, visit_per_day 제거
• # party 나무 모형
• jara_tree <- ctree(Visit ~ ., controls = ctree_control( mincriterion = 0.1, minsplit = 2, minbucket = 3) , data=jara)
• plot(jara_tree, main="jarasum tree model")
• # randdomForest
• jara_rf <- randomForest(Visit~., data=jara , importance=TRUE, do.trace=5, ntree=100)
• plot(jara_rf, log="y")
• varImpPlot(jara_rf, main="jarasum randomForest", cex=0.7)
• ### predict ###
• train <- jara[c(1:10),]
• test <- jara[11,]
• jara_rf1 <- randomForest(Visit~ ., data=train) # train 데이터로 rf 생성
• jara_pred <- predict(jara_rf1, test) # test 데이터로 rf 예측
• jara_pred # 예측값
• test$Visit # 실제값
• abs(test$Visit-jara_pred)/test$Visit*100 # 실제값과 예측값의 차이
-38-
5. R 분석 소스코드 – 파생변수 생성
• #####################
• ### 파생변수 생성 ###
• #####################
• # 최고 최저 기온 차
• jarasumder <- ddply(jarasum, .(Wave), transform, max_min_temp_dif=max_temp-min_temp)
• # 아티스트 유투브 조회수/경력
• jarasumder <- ddply(jarasumder, .(Wave), transform, art_view_exp=avg_atst_utube_view/avg_atst_experience)
• # 가평의 지명도 변화 추이 gt_gapyoung/gt_chunchun
• jarasumder <- ddply(jarasumder, .(Wave), transform, gt_gap_chu=gt_gapyoung/gt_chunchun)
• jarader <- jarasumder[,-c(1,3,5)] # Wave, Year, visit_per_day 제거
• # party 나무 모형
• jara_tree_der <- ctree(Visit ~ ., controls = ctree_control( mincriterion = 0.1, minsplit = 2, minbucket = 3) , data=jarader)
• plot(jara_tree_der, main="jarasum tree model(derived variable)")
• # randdomForest
• jarader_rf <- randomForest(Visit~., data=jarader , importance=TRUE, do.trace=5, ntree=100)
• plot(jarader_rf, log="y")
• varImpPlot(jarader_rf, main="jarasum randomForest(derived variable)", cex=0.7)
• ### predict ###
• train <- jarader[c(1:10),]
• test <- jarader[11,]
• jarader_rf <- randomForest(Visit~ ., data=train) # train 데이터로 rf 생성
• jarader_pred <- predict(jarader_rf, test) # test 데이터로 rf 예측
• jarader_pred # 예측값
• test$Visit # 실제값
• abs(test$Visit-jarader_pred)/test$Visit*100 # 실제값과 예측값의 차이
-39-
5. R 분석 소스코드 - 시각화
• ### 각 변수들의 그래프 ###
• for(i in 1:35){
• th <- names(jarasumder)[i]
• plot(jarasumder$Wave, jarasumder[,i], type="o", cex=1.2, col ="chocolate", ylab=th)
• }
• # bubble chart
• plot(gt_gapyoung ~ GT_Jazz, data=jarasum, pch=9, col="red", xlim=c(0,45), ylim=c(-3,23))
• with(jarasum, symbols(gt_gapyoung ~ GT_Jazz, circles=Visit, inches=0.5, add=T))
• # 파생변수 추가한 bubble
• plot(gt_jarasum ~ gt_gap_chu, data=jarasumder, pch=9, col="blue", xlim=c(0,0.4), ylim=c(-0.3,2.3))
• with(jarasumder, symbols(gt_jarasum ~ gt_gap_chu, circles=Visit, inches=0.5, add=T))
• ### ggplot를 이용한 그래프 ####
• ggplot(data=jarasum, aes(x=gt_gapyoung, y=GT_Jazz))+geom_point(aes(colour=gt_chunchun, size=Visit))
• # 파생변수 추가한
• ggplot(data=jarasumder, aes(x=gt_jarasum, y=GT_Jazz))+geom_point(aes(colour=gt_gap_chu, size=Visit))
• # Visit 히스토그램
• ggplot(jarasum, aes(x=Visit, fill=train)) + geom_histogram(position="identity", alpha=0.4)
• ggplot(jarasum, aes(x=Visit, fill=highway)) + geom_histogram(position="identity", alpha=0.4)
• ggplot(jarasum, aes(x=Visit, fill=Is_rainy)) + geom_histogram(position="identity", alpha=0.4)
• # 구글 네이버별 Jazz_trend 히스토그램
• gn <- read.csv("gn.csv", header=T)
• ggplot(gn, aes(x=Jazz_trend, fill=google_naver)) + geom_histogram(position="identity", alpha=0.4)
• ggplot(gn, aes(x=Jazz_trend, fill=google_naver)) + geom_histogram(position="fill", alpha=0.4)
• ggplot(gn, aes(x=Jazz_trend, fill=google_naver)) + geom_histogram(position="dodge", alpha=0.4)
-40-
5. 2015년 자라섬 재즈 페스티벌 예측
• 아티스트 유튜브 조회수와 아티스트 경력을 기존의 1~11회 페스티벌의 최소 조회수와 최소 경력, 최대 조회수와 최대 경력을 가지고 12회
자라섬 페스티벌 방문자를 예측
• 그 결과는 오히려 최소 아티스트 유튜브 조회수와 아티스트 경력을 입력 했을 때 오히려 조금 더 높게 나옴
구분 최소값 최대값 차이
아티스트 유튜브 조회수 2,161,922 12,661,307 10,499,385
아티스트 경력 26 65 39
예측 방문자 수 207,549 211,022 3473
자라섬 페스티벌의 방문자 수의 증감은
아티스트 인지도 및 경력과는 무관
2015년 자라섬 재즈 페스티벌 예측 결과
-41-
6. 주최자 입장에서의 대응전략
아티스트 측면
• 집객력과 가성비가 높은 아티스트들을 다시 초청하는 방안 집중 추진
1
인지도 측면
• 가평과 자라섬의 인지도가 급등하긴 했으나 여전히 춘천만큼의 인지도는 아님
• 자라섬, 가평, 재즈 라는 세가지 키워드를 평상시 집중적으로 노출하는 매스, 인터넷 마케팅
실시 (연중 지속)
2
고객관리 측면
• 지난 행사들에 대한 기억을 살릴 수 있는 컨텐츠를 만들어 ... 주기적으로 기억을 되살리도록
제공 (모바일, 페이스북, 카카오톡 등 SNS로))
3
데이터 분석 측면
• 경제적 효과를 종속변수로 한 추가 모델 개발
• 카드사 .이통사와 제휴를 통해 추가적인 Mash Up 데이터를 확보하고 결합분석 추진
4
“데이터 분석모델에
의한 예측을 통해
가성비 최적화 방안
시뮬레이션 실시”
분석을 통해 2015년 자라섬 재즈 페스티벌 방문객 수를 늘릴 수 있는 방안은?
-42--42-
-43-
INDEX
Ⅴ. 결론
1. 지역 축제 분석의 가치 및 기대효과
2. 빅 데이터 분석 전문가 과정을 마치며 …
-44-
1. 지역 축제 분석의 가치 및 기대효과
연 500건이 넘은 축제가 열리지만 실제 경제 유발 효과 등의 실익을 얻는 축제는 한정됨
 가치와 효과 분석(수치화)
 적정 예산 수립 가능
지역 축제 성공 요인 분석
 등급별 관리
 지원 대상/규모 통제
문체부 소모성 유사 축제 조성
 예산 낭비
 성과 측정 어려움
지자체장 선심성 행정
-45-
2. 빅 데이터 분석 전문가 과정을 마치며…
1 빅 데이터 분석 전문가 역량 강화
2 팀 과제를 통한 데이터 분석 경험 공유
3
빅 데이터 분석 분야의 미래 및 활용에
관한 새로운 관점의 발견
4
자사에 빅 데이터 분석 기술 활용 기반을
다지는 기회 발견
8기 빅 데이터
분석 전문가 과정 수료
빅 데이터에 대한 새로운 접근 및 기존
경험을 융합한 발전을 할 수 있는 계기
마련의 기회 !
-46-
Q & A
-47-
Thank You!
Ad

Recommended

트렌드분석사례 마인즈랩 축제페스티벌
트렌드분석사례 마인즈랩 축제페스티벌
Taejoon Yoo
Valleyrookie 이승주
Valleyrookie 이승주
rosemarch1
종로사랑 449호
종로사랑 449호
JONGNO-GU Office
빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)
빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)
성호(Kevin) 나
RHive tutorial - Installation
RHive tutorial - Installation
Aiden Seonghak Hong
데이터분석을통한게임유모델링
데이터분석을통한게임유모델링
Eun-Jo Lee
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Donghan Kim
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
Sun Young Kim
[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle
Elle Chung
244 5rocks-deview
244 5rocks-deview
NAVER D2
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
r-kor
빅데이터 전문가 / 데이터 사이언티스트 커리어에 대한 고려 사항과 사례 - Gonnector 고영혁 (Dylan Ko)
빅데이터 전문가 / 데이터 사이언티스트 커리어에 대한 고려 사항과 사례 - Gonnector 고영혁 (Dylan Ko)
Dylan Ko
R을 이용한 게임 데이터 분석
R을 이용한 게임 데이터 분석
Eun-Jo Lee
빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)
Kangwook Lee
빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략
Seungbyung Chae
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
FAST CAMPUS
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
Jaimie Kwon (권재명)
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)
Jaimie Kwon (권재명)
HR과 빅데이터
HR과 빅데이터
Seong-Bok Lee
빅데이터 구축 사례
빅데이터 구축 사례
Taehyeon Oh
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
r-kor
[2024년 문화체육관광 데이터 활용대회] 모두의 축제 - 외래관광객 유치가 숙제!
[2024년 문화체육관광 데이터 활용대회] 모두의 축제 - 외래관광객 유치가 숙제!
Hans Jang
문화괶광데이터ѫ
문화괶광데이터ѫ
Hyoseup_Kwon

More Related Content

Viewers also liked (20)

RHive tutorial - Installation
RHive tutorial - Installation
Aiden Seonghak Hong
데이터분석을통한게임유모델링
데이터분석을통한게임유모델링
Eun-Jo Lee
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Donghan Kim
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
Sun Young Kim
[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle
Elle Chung
244 5rocks-deview
244 5rocks-deview
NAVER D2
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
r-kor
빅데이터 전문가 / 데이터 사이언티스트 커리어에 대한 고려 사항과 사례 - Gonnector 고영혁 (Dylan Ko)
빅데이터 전문가 / 데이터 사이언티스트 커리어에 대한 고려 사항과 사례 - Gonnector 고영혁 (Dylan Ko)
Dylan Ko
R을 이용한 게임 데이터 분석
R을 이용한 게임 데이터 분석
Eun-Jo Lee
빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)
Kangwook Lee
빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략
Seungbyung Chae
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
FAST CAMPUS
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
Jaimie Kwon (권재명)
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)
Jaimie Kwon (권재명)
HR과 빅데이터
HR과 빅데이터
Seong-Bok Lee
빅데이터 구축 사례
빅데이터 구축 사례
Taehyeon Oh
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
r-kor
데이터분석을통한게임유모델링
데이터분석을통한게임유모델링
Eun-Jo Lee
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Donghan Kim
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
Sun Young Kim
[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle
Elle Chung
244 5rocks-deview
244 5rocks-deview
NAVER D2
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
r-kor
빅데이터 전문가 / 데이터 사이언티스트 커리어에 대한 고려 사항과 사례 - Gonnector 고영혁 (Dylan Ko)
빅데이터 전문가 / 데이터 사이언티스트 커리어에 대한 고려 사항과 사례 - Gonnector 고영혁 (Dylan Ko)
Dylan Ko
R을 이용한 게임 데이터 분석
R을 이용한 게임 데이터 분석
Eun-Jo Lee
빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)
Kangwook Lee
빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략
Seungbyung Chae
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
FAST CAMPUS
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
Jaimie Kwon (권재명)
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)
Jaimie Kwon (권재명)
빅데이터 구축 사례
빅데이터 구축 사례
Taehyeon Oh
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
r-kor

Similar to 분석8기 4조 (14)

[2024년 문화체육관광 데이터 활용대회] 모두의 축제 - 외래관광객 유치가 숙제!
[2024년 문화체육관광 데이터 활용대회] 모두의 축제 - 외래관광객 유치가 숙제!
Hans Jang
문화괶광데이터ѫ
문화괶광데이터ѫ
Hyoseup_Kwon
관광산업의 질적 개선과 이를 통한 재방문율 향상
관광산업의 질적 개선과 이를 통한 재방문율 향상
shin sanghooon
Korea Culture & Tourism Big Data Analysis Contest
Korea Culture & Tourism Big Data Analysis Contest
Jihoon Kim
우리나라 방방곡곡 사용자분석
우리나라 방방곡곡 사용자분석
Eun Ju Chang
200508 자체 김한도_지역이벤트사업 현황과 발전방안
200508 자체 김한도_지역이벤트사업 현황과 발전방안
seekly
잡코리아 글로벌 프런티어 5기_FC Korea_탐방 보고서
잡코리아 글로벌 프런티어 5기_FC Korea_탐방 보고서
잡코리아 글로벌 프런티어
Ticket project
Ticket project
BokyungJung
잡코리아 글로벌 프런티어 8기_Re-Mine-D_탐방 보고서
잡코리아 글로벌 프런티어 8기_Re-Mine-D_탐방 보고서
잡코리아 글로벌 프런티어
서울재즈페스티벌2012 0118
서울재즈페스티벌2012 0118
Jonghun Heo
[2024 DATA AI 분석 경진대회] 성심당 방문객 분석을 통한 원도심 상권 활성화 방안
[2024 DATA AI 분석 경진대회] 성심당 방문객 분석을 통한 원도심 상권 활성화 방안
Hans Jang
우리나라 방방곡곡 중간발표
우리나라 방방곡곡 중간발표
Eun Ju Chang
Urban sentiment using social media analytics
Urban sentiment using social media analytics
Junyoung Choi
잡코리아 글로벌 프런티어 5기_FC Korea_탐방 계획서
잡코리아 글로벌 프런티어 5기_FC Korea_탐방 계획서
잡코리아 글로벌 프런티어
[2024년 문화체육관광 데이터 활용대회] 모두의 축제 - 외래관광객 유치가 숙제!
[2024년 문화체육관광 데이터 활용대회] 모두의 축제 - 외래관광객 유치가 숙제!
Hans Jang
관광산업의 질적 개선과 이를 통한 재방문율 향상
관광산업의 질적 개선과 이를 통한 재방문율 향상
shin sanghooon
Korea Culture & Tourism Big Data Analysis Contest
Korea Culture & Tourism Big Data Analysis Contest
Jihoon Kim
우리나라 방방곡곡 사용자분석
우리나라 방방곡곡 사용자분석
Eun Ju Chang
200508 자체 김한도_지역이벤트사업 현황과 발전방안
200508 자체 김한도_지역이벤트사업 현황과 발전방안
seekly
서울재즈페스티벌2012 0118
서울재즈페스티벌2012 0118
Jonghun Heo
[2024 DATA AI 분석 경진대회] 성심당 방문객 분석을 통한 원도심 상권 활성화 방안
[2024 DATA AI 분석 경진대회] 성심당 방문객 분석을 통한 원도심 상권 활성화 방안
Hans Jang
우리나라 방방곡곡 중간발표
우리나라 방방곡곡 중간발표
Eun Ju Chang
Urban sentiment using social media analytics
Urban sentiment using social media analytics
Junyoung Choi
Ad
Ad

분석8기 4조

  • 1. -1--1- 자라섬 재즈 페스티벌 관람객 분석 및 예측 한경훈, 류경숙, 전영준, 송창열, 신정호, 안진훈 분석 제 8기 4조 팀원
  • 2. -2- Ⅰ. 개요 1. 주제 선정 배경 및 목적 2. 자라섬 재즈 페스티벌 소개 3. 프로젝트 수행 일정 Ⅱ. 유사 프로젝트 분석 및 고찰 1. 빅 데이터 활용 관광 사업 성과 시범 분석 소개 2. 자라섬 재즈 페스티벌에 대한 분석 및 결론 Ⅲ. 데이터 수집 1. 데이터 확보 노력 및 한계 2. 데이터 Mash-up Ⅳ. 데이터 분석 1. 데이터 출처 2. 데이터 분석 설계 3. 1차 분석 4. 2차 분석 5. 2015년 자라섬 페스티벌 예측 6. 주최자 입장에서의 대응전략 Ⅴ. 결론 1. 지역 축제 분석의 가치 및 기대효과 2. 빅 데이터 분석 전문가과정을 마치며 … INDEX
  • 3. -3- INDEX Ⅰ. 개요 1. 주제 선정 배경 및 목적 2. 자라섬 재즈 페스티벌 소개 3. 프로젝트 수행 일정
  • 4. -4- 1. 주제 선정 배경 및 목적 공유 데이터를 통해 다양한 빅 데이터 분석 및 기술 활용을 통해 다양한 관점의 전략적 방향 제시 빅 데이터 분석을 통해 성공/실패 요인 도출 다양한 지역 행사에 적용 가능한 예측 모델 생성 지역 축제 분석의 가치 및 주최자의 전략적 방향 제시 • 데이터 수집 정제  분석하기까지 각 단계별로 발생되는 성공 및 실패 요인 도출 및 공유 • 초기 단계인 빅 데이터 분석 분야의 실패 요인 분석을 통한 성공 가능성 제시 및 방향 제안 • 지자체를 중심으로 무계획적으로 행해지는 다양한 지역 행사의 문제점 보완을 위해 행사 진행 전에 계획 수립에 기반이 될 예측 모델을 생성하고 지방 발전에 도움이 되고자 함 • 경제적으로 얼마나 지역 축제가 가치가 있는가를 다양한 변수 발견 및 분석을 통해 제시하고자 함 • 지역 축제 주최자의 전략적, 전술적 방향을 제시하고자 함 예측 모델 및 방법 설명을 통해 자라섬 재즈 페스티벌에서 주요 요인 별 상관관계 및 효과 정량화
  • 5. -5- 2. 자라섬 재즈 페스티벌 소개 ( 1 ) 자라섬 국제 재즈 페스티벌은 매년 가을 경기도 가평군 가평읍 달전리 자라섬에서 열리는 대한민국의 국제 재즈 페스티벌이다. 재즈의 대중화를 표방하여 세계 최정상급의 아티스트부터 국내에 소개된 적 없는 제3세계 아티스트, 실력 있는 로컬 밴드에 이르기까지 재즈로 묶이는 모든 장르를 소화한다. 해마다 10개 남짓의 무대에 100팀에 가까운 공연이 열리지만 유료 무대는 단 2개뿐이고 무료로 개방하는 무대가 대부분이다. 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014
  • 6. -6- 2. 자라섬 재즈 페스티벌 소개 ( 2 ) 2013년 기준으로 누적 관객수 100만 명을 넘어선 한국을 대표하는 음악 축제 중 하나가 되었다. 2009년, 2010년 문화체육관광부 지정 유망축제로 지정 된데 이어, 2011~2013년에는 대한민국 우수 축제로 지정되었으며 2014년에는 음악 축제 최초로 최우수 축제로 지정되는 등 명성이 점차 커지고 있다. 30,000 70,000 100,000100,000 130,000 150,000 170,000 190,000 230,000 [값] 250,000 - 50,000 100,000 150,000 200,000 250,000 300,000 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 (관람객 수) (개최 년도) 자라섬 재즈 페스티벌 년간 방문자 수 * 연평균 28% 성장률 * 출처 : Wikipedia
  • 7. -7- 2. 자라섬 재즈 페스티벌 소개 ( 3 ) 유튜브 채널 공식 페이스북 공식 홈페이지 SNS, 홈페이지, 기업과의 협력을 통해 페스티벌 홍보 및 상생 발전 모델 구축 언론 활용 SNS. 홈페이지 등 활용 기업 협력
  • 8. -8- [참고] 자라섬 재즈 페스티벌과 협력 기업 자라섬 재즈 페스티벌과 협력 기업과의 분석을 통한 경제적으로 미치는 효과를 분석을 위해 자료를 수집하였으나 매출액 자료를 구할 수 없어 분석 중단됨. 그러나 기업과의 협력을 통해 축제가 발전할 수 있는 요인이 됨을 인터넷 기사를 통해 예측 가능함.
  • 9. -9- 3. 프로젝트 수행 일정 Pre - STEP (9월 4주) STEP 1 (10월 2주) STEP 2 (10월 4주) STEP 3 (11월 2주) 데이터 탐색/변환 분석 기법 선정 모형 정의 결과도출 검증 결과 발표 주제 변경(빅 콘테스트 주제 이슈) 관련 사례 공유/학습 자료 대상 선정 및 취합 (ex. 뮤지션 정보, 트렌드, 날씨 등) 데이터프레임 구축 상관관계 분석 추가 파생변수 적용 분석 모델 수립 분석결과 검증 및 수정 발표자료 작성 나들 가게에서 자라섬으로 주제 변경 PT 발표 9월3주 11/14 진행 완료
  • 10. -10- INDEX Ⅱ. 유사 프로젝트 분석 및 고찰 1. 빅 데이터 활용 관광 사업 성과 시범 분석 소개 (한국관광공사: 빅 데이터 활용 관광사업 성과 시범분석: 2013 문화관광축제를 중심으로) 2. 자라섬 재즈 페스티벌에 대한 분석 및 결론
  • 11. -11- 분석 배경 및 목적 1. 빅 데이터 활용 관광 사업 성과 시범 분석 소개 ( 1 )
  • 12. -12- 분석 방법론 데이터 보정 방법 및 분석 방법의 한계 1. 빅 데이터 활용 관광 사업 성과 시범 분석 소개 ( 2 )
  • 13. -13- 2. 자라섬 재즈 페스티벌에 대한 분석 및 결론 분석 요약 분석 결과 예시 시간/연령/성별 유동인구 및 매출에 대한 현황 위주의 분석 결과 요인 분석 및 상관 분석을 통한 깊이 있는 분석 필요
  • 15. -15- INDEX Ⅲ. 데이터 수집 1. 데이터 확보 노력 및 한계 2. 데이터 Mash-up
  • 16. -16- 자라섬 페스티벌의 성공 요인과 분석을 위한 데이터 노력 확보에도 불구하고 한계가 존재함. 데이터 확보 노력과 한계 ‘정부 3.0’ 의 현실 1. 데이터 확보 노력 및 한계 “정부 3.0” 의 기조인 개발, 공유, 소통, 협력이 아직까지 원활치 않은 상황임 8기 4조 KoDB 자라섬 Jazz 사무국 X X 필요 data 선별 진흥원 공문 협조 요청 협조 지연 data 미확보 자라섬 재즈 페스티벌 관련 데이터가 가장 많은 사무국의 비협조로 데이터 확보 어려움 겪음
  • 17. -17- 가용한 데이터는 무한 하지만 산재된 데이터 수집에 많은 시간과 노력이 필요함. 2. 데이터 Mash-up 교통량정보시스템 (road.or.kr)
  • 19. -19- INDEX Ⅳ. 데이터 분석 1. 데이터 출처 2. 데이터 분석 설계 3. 1차 분석 - 기초 변수 정의 - 군집 분석 - Decision Tree 분석 - Random Forest 분석 4. 2차 분석 - 파생 변수 정의 - Random Forest 분석 - 시각화 5. 2015년 자라섬 페스티벌 예측 6. 주최자 입장에서의 대응전략
  • 20. -20- 1. 데이터 출처 이 번 프로젝트를 위한 데이터는 자라섬 재즈 페스티벌 홈페이지 및 정보 유형에 따라 구글/네이버 트렌드, 통계청, 기상청 등에서 수집 데이터 수집 위키피디아 구글 트렌드 유튜브 기상청 통계청 카인즈 언론기사 검색 구글 트렌드 네이버 트렌드 자라섬 재즈 페스티벌 홈페이지
  • 21. -21- [참고] PC에서 Mobile로 검색 트렌드가 이동하는 양상을 보임 PC 검색 트렌드 변화 Mobile 검색 트렌드 변화 • 검색횟수를 주간으로 합산해서 조회 기간 내 검색량을 100으로 나타낸 그래프임. “ 검색어 : 자라섬 재즈 “ (2010년 6월 ~ 현재)
  • 22. -22- [참고] 수집한 세부 내용 ( 1 ) 데이터 카테고리 변수 명 변수 설명 출처 자라섬 재즈페스티벌 관련 일반 정 보 Visit 총 방문객 자라섬 재즈 페스티벌 홈페이지 Wave 행사 회차 (1차~11차) Year 행사 진행 연도 duration_days 행사 진행 일 수 visit_per_day 1일당 방문객 수 초청 뮤지션 정보 (글로벌 관심도 Top3 뮤지션 기준) avg_GT_artistT3 뮤지션 관심도 구글 트렌드 avg_atst_utube_view 뮤지션 동영상 조회 수 YOUTUBE avg_atst_experience 뮤지션 활동 경력 Wikipedia max_youtube_index 뮤지션 동영상 최대 조회 수 YOUTUBE atst_like_reg_na 초청 뮤지션 선호 국가 (북미) 구글 트렌드atst_like_reg_eu 초청 뮤지션 선호 국가 (유럽) atst_like_reg_ot 초청 뮤지션 선호 국가 (기타)
  • 23. -23- [참고] 수집한 세부 내용 ( 2 ) 데이터 카테고리 변수 명 변수 설명 출처 자라섬 재즈페스티벌 관련 트렌드 GT_Jazz 재즈에 대한 관심도 구글 트렌드 CumGT_Jazz NTpc_Jazz 네이버 트렌드NTmb_Jazz CumNTmb_Jazz gt_gapyoung 가평에 대한 관심도 구글 트렌드gt_jarasum 자라섬에 대한 관심도 gt_chunchun 춘천에 대한 관심도
  • 24. -24- [참고] 수집한 세부 내용 ( 3 ) 데이터 카테고리 변수 명 변수 설명 출처 날씨 av_temp 평균 기온 기상청 max_temp 최고 기온 min_temp 최저 기온 Is_rainy 강우 여부 rainfall 강우량 day_tempran_av 평균 일교차 day_tempran_mx 최대 일교차 교통 train 경춘선 복선 전철 개통 여부 카인즈 언론기사 검색 highway 경춘 민자 고속도로 개통 여부 경제 national_Wine_import 연도별 와인 수입량 통계청GDP 국내총생산 GDP_growth 전년대비 국내 총생산 증가율
  • 25. -25- 2. 데이터 분석 설계 회 차별 관람객 수는 종속 변수, 관람객 증가에 영향을 미칠 수 있는 요인은 독립 변수로 정의 자라섬 재즈 페스티벌 관람객 증가의 주요한 원인을 파악 및 향후 페스티벌의 효율적 운영을 위한 인사이트 제공을 목적으로 함 독립 변수 • 평균 기온 / 최고 기온 / 최저 기온 • 강우 여부 / 강우량 • 평균 일교차 / 최대 일교차 • 총 방문객 행사 회 차 (1차~11차) • 행사 진행 연도 행사 진행 일 수 • 1일당 방문객 수 • 뮤지션 관심도 • 뮤지션 동영상 조회 수 • 뮤지션 활동 경력 • 뮤지션 선호 국가 (북미/유럽/기타) • 재즈에 대한 관심도 • 가평에 대한 관심도 • 자라섬에 대한 관심도 • 춘천에 대한 관심도 • 경춘선 복선 전철 개통 여부 • 경춘 민자 고속도로 개통 여부 • 연도별 와인 수입량 • 국내총생산 전년대비 • 국내 총생산 증가율 변수 군 경제 교통 날씨 자라섬 재즈 페스티벌 관련 트렌드 초청 뮤지션 정보 자라섬 재즈 페스티벌 일반 정보 종속 변수 회 차별 방문객 (관람 인원)
  • 26. -26- [참고] 실제 분석에 사용된 Data Set Visit 30000 70000 100000 100000 130000 150000 170000 190000 230000 270000 250000 Wave 1 2 3 4 5 6 7 8 9 10 11 Year 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 duration_days 3 3 4 5 3 3 3 3 3 4 3 visit_per_day 10000 23333 25000 20000 43333 50000 56667 63333 76667 67500 83333 avg_GT_artistT3 3 6 4 4 2 1 3 3 9 3 3 avg_atst_utube_view 4398957 12661307 10497992 5612566 3654285 2446790 7856284 3030812 6085740 2161922 2413752 avg_atst_experience 33.666667 29 50.333333 32 38.3333333 3 50.6666666 7 26.6666666 7 32 65.3333333 3 29.3333333 3 32.3333333 3 max_youtube_index 5238265 33135430 21104314 8623592 5089836 3927620 18308970 6139135 12293783 3262653 3923829 atst_like_reg_na 0 1 0 1 0 0 0 0 1 1 1 atst_like_reg_eu 1 1 1 1 1 1 1 1 1 1 1 atst_like_reg_ot 1 1 1 0 0 0 1 0 1 0 0 GT_Jazz 0 0 0 0 7 20 33 37 42 38 40 CumGT_Jazz 0 0 0 0 7 27 60 96 138 176 216 NTpc_Jazz 0 0 0 63 39 33 27 22 17 16 14 NTmb_Jazz 0 0 0 0 0 0 4 25 47 60 72 CumNTmb_Jazz 0 0 0 0 0 0 4 29 77 136 208 gt_gapyoung 0 0 0 0 1 1 7 14 19 17 17 gt_jarasum 0 0 0 0 0 0 1 1 2 2 2 gt_chunchun 2 2 8 12 12 11 27 45 54 46 45 av_temp 19 22.1 19.3 21 17.5 13.1 12.6 10.5 12.1 16.2 15.3 max_temp 26.8 27.4 28.2 27.8 24.9 20.8 21.2 19.6 22.2 27.6 21.4 min_temp 13.5 16.3 10.1 17.2 10.8 5.3 4.9 3.8 5.6 8.2 9.5 Is_rainy 1 1 0 0 0 0 0 0 0 0 0 rainfall 44 10.5 - - - - - - - - - day_tempran_av 4.6 4.3 10.7 8.1 9.2 6.8 8 8.3 8.8 11.3 6.1 day_tempran_mx 13.3 7.7 16.4 10.6 13.9 14 16.3 15.8 15.4 16.9 11.9 train 0 0 0 0 0 0 0 1 1 1 1 highway 0 0 0 0 0 1 1 1 1 1 1 national_Wine_import 605 685 824 1411 2094 1313 1286 1523 1577 1785 1800 GDP 876,033 919,797 966,055 1,043,258 1,104,492 1,151,708 1,265,308 1,332,681 1,377,457 1,428,295 1,471,144 GDP_growth 3 5 4 5 6 3 1 7 4 2 3
  • 27. -27- 3. 1차 분석 (기초 변수 정의) ( 1 ) 연도 별 자라섬 재즈 페스티벌 관련 기초 변수의 구조 11 obs. : n = 11(표본 크기), 29 variables : p = 29 (변수의 개수)
  • 28. -28- 3. 1차 분석 (기초 변수 정의) ( 2 ) 연도 별 자라섬 재즈 페스티벌 출연 아티스트 관련 기초 변수의 구조 63 obs. : n = 63(표본 크기), 18 variables : p = 18 (변수의 개수)
  • 29. -29- 3. 1차 분석 (기초 변수 정의) ( 3 ) 데이터 수집의 한계, 표본크기 n > 30 이 충족되지 않으면 분석자체가 어려운 것일까? 고려대 통계학과 허명회 교수님의 인터뷰 내용 中 • 질문자 :  표본이 10개 정도 밖에는 없는 경우를 분석해야만 하는 사례라고 했을 때, 계량분석이 전혀 통계적으로는 의미가 없다고 봐야 할까요? • 허명회 교수님:  n > 30은 별 의미 없습니다.  n =10인 자료에 대하여 random forest, 로지스틱 등 통계적 모형(추론)이 만들어진 경우 일반적인 문제는 예측의 변동성(variability)이 커진다는 것입니다. 이에 따라 재현성이 감소하게 되는 것이죠.  예를 들어, n= 10 인 야구 결과에서 검정은 얼마든지 가능합니다. 즉, 두 팀의 저력이 동일하다는 가설에 대한 p-값 산출 정도는 문제가 없습니다.  신뢰구간은 너무 넓게 되므로 별 의미가 없게 됩니다. 분석 방향 : n < p 유형의 분석 과제로 접근!
  • 30. -30- 3. 1차 분석 (군집 분석) 다양한 변수 조합으로 시도했으나 뚜렷한 군집 분류 결과를 확인하기 어려움 ‘가평’ 구글 검색량 ‘아티스트 Youtube’ 조회수 “해석을 위한 더 많은 시간과 노력, 투입변수의 조절 작업이 필요 함” 군집 종류 ‘3’ 설정
  • 31. -31- 3. 1차 분석 (Decision Tree 분석) p-value = 0.053 > α = 0.05 Decision Tree 모델의 부적합 이유? GDP로만 잡힌다는 것은 시간이 지날수록 는다는 것. 당연하지만 인사이트가 되지 못하니, 다양한 변수를 반영한, 좀 더 정교한, 다양한 인사이트를 제공할 수 있는 모델링이 필요 함 GDP > 1151708 : n=5966055 < GDP ≤ 1151708 : n=3966055 ≤ GDP : n=3
  • 32. -32- 3. 1차 분석 (Random Forest 분석) ( 1 ) 반복 횟수 오차율 100회 반복을 통해 얻은 모형은 20회 이후부터는 오차율의 큰 변동이 없음 군집 및 Decision Tree 분석 결과 대안은? “ Random Forest 분석을 통해 최적의 모델 생성” Random Forest은 앙상블 학습 기법을 사용한 모델로서 주어진 데이터로부터 여러 개의 모델을 학습한 다음 예측 시 여러 모델의 예측 결과들을 종합해 사용하여 정확도를 높이는 기법
  • 33. -33- 구글트렌드 가평지수 > 구글트렌즈 누적 Jazz 지수 > 구글트렌즈 Jazz 지수 3. 1차 분석 (Random Forest 분석) ( 2 ) Random Forest 분석 모형이 기대했던 대로 다양한 변수들의 영향을 상대적 중요도와 함께 제공해줌 MSE의 퍼센트 증가 노드 순수도 증가
  • 34. -34- 4. 2차 분석 (파생변수 정의) 파생 변수 R Script 최고 기온과 최저 기온의 차 ddply(jarasum, .(Wave), transform, max_min_temp_dif=max_temp- min_temp) 아티스트 경력에 대한 유투브 조회수 비율 ddply(jarasumder, .(Wave), transform, art_view_exp=avg_atst_utube_view /avg_atst_experience) 춘천 구글 트렌드에 대한 가평 구글 트렌드 비율 ddply(jarasumder, .(Wave), transform, gt_gap_chu=gt_gapyoung/gt_chunchun) 파생 변수를 정의하기 위해 데이터를 그룹별로 요약하는 함수인 ddply를 활용하여 변수를 생성 파생 변수 정의
  • 35. -35- 4. 2차 분석 (Random Forest 분석) “아티스트 보다 누적된 행사 인지도와 재즈에 대한 일반적 관심 증가가 오히려 더 중요한 요인” MSE의 퍼센트 증가 노드 순수도 증가 구글트렌드 자라섬 지수 > 구글트렌드 춘천 지수 > 구글트렌즈 누적 Jazz 지수
  • 36. -36- 4. 2차 분석 (시각화) 방문자수 구글 트렌드 각 변수의 구글 트렌드가 높을수록 방문자 수 증가 가평, Jazz, 춘천, 가평/춘천 구글 트렌드 변수와 방문자 수 관계
  • 37. -37- 5. R 분석 소스코드 • library(party) • library(randomForest) • library(ggplot2) • library(plyr) • library(gcookbook) • setwd("D:/데이터분석/빅파이") • jarasum <- read.csv("jarasum_data.csv", header=T) • jarasum[,17] <- as.factor(jarasum[,17]) # train, highway, Is_rainy는 factor형이므로 형변환 • jarasum[,18] <- as.factor(jarasum[,18]) • jarasum[,19] <- as.factor(jarasum[,19]) • jara <- jarasum • jara <- jara[,-c(1,3,5)] # Wave, Year, visit_per_day 제거 • # party 나무 모형 • jara_tree <- ctree(Visit ~ ., controls = ctree_control( mincriterion = 0.1, minsplit = 2, minbucket = 3) , data=jara) • plot(jara_tree, main="jarasum tree model") • # randdomForest • jara_rf <- randomForest(Visit~., data=jara , importance=TRUE, do.trace=5, ntree=100) • plot(jara_rf, log="y") • varImpPlot(jara_rf, main="jarasum randomForest", cex=0.7) • ### predict ### • train <- jara[c(1:10),] • test <- jara[11,] • jara_rf1 <- randomForest(Visit~ ., data=train) # train 데이터로 rf 생성 • jara_pred <- predict(jara_rf1, test) # test 데이터로 rf 예측 • jara_pred # 예측값 • test$Visit # 실제값 • abs(test$Visit-jara_pred)/test$Visit*100 # 실제값과 예측값의 차이
  • 38. -38- 5. R 분석 소스코드 – 파생변수 생성 • ##################### • ### 파생변수 생성 ### • ##################### • # 최고 최저 기온 차 • jarasumder <- ddply(jarasum, .(Wave), transform, max_min_temp_dif=max_temp-min_temp) • # 아티스트 유투브 조회수/경력 • jarasumder <- ddply(jarasumder, .(Wave), transform, art_view_exp=avg_atst_utube_view/avg_atst_experience) • # 가평의 지명도 변화 추이 gt_gapyoung/gt_chunchun • jarasumder <- ddply(jarasumder, .(Wave), transform, gt_gap_chu=gt_gapyoung/gt_chunchun) • jarader <- jarasumder[,-c(1,3,5)] # Wave, Year, visit_per_day 제거 • # party 나무 모형 • jara_tree_der <- ctree(Visit ~ ., controls = ctree_control( mincriterion = 0.1, minsplit = 2, minbucket = 3) , data=jarader) • plot(jara_tree_der, main="jarasum tree model(derived variable)") • # randdomForest • jarader_rf <- randomForest(Visit~., data=jarader , importance=TRUE, do.trace=5, ntree=100) • plot(jarader_rf, log="y") • varImpPlot(jarader_rf, main="jarasum randomForest(derived variable)", cex=0.7) • ### predict ### • train <- jarader[c(1:10),] • test <- jarader[11,] • jarader_rf <- randomForest(Visit~ ., data=train) # train 데이터로 rf 생성 • jarader_pred <- predict(jarader_rf, test) # test 데이터로 rf 예측 • jarader_pred # 예측값 • test$Visit # 실제값 • abs(test$Visit-jarader_pred)/test$Visit*100 # 실제값과 예측값의 차이
  • 39. -39- 5. R 분석 소스코드 - 시각화 • ### 각 변수들의 그래프 ### • for(i in 1:35){ • th <- names(jarasumder)[i] • plot(jarasumder$Wave, jarasumder[,i], type="o", cex=1.2, col ="chocolate", ylab=th) • } • # bubble chart • plot(gt_gapyoung ~ GT_Jazz, data=jarasum, pch=9, col="red", xlim=c(0,45), ylim=c(-3,23)) • with(jarasum, symbols(gt_gapyoung ~ GT_Jazz, circles=Visit, inches=0.5, add=T)) • # 파생변수 추가한 bubble • plot(gt_jarasum ~ gt_gap_chu, data=jarasumder, pch=9, col="blue", xlim=c(0,0.4), ylim=c(-0.3,2.3)) • with(jarasumder, symbols(gt_jarasum ~ gt_gap_chu, circles=Visit, inches=0.5, add=T)) • ### ggplot를 이용한 그래프 #### • ggplot(data=jarasum, aes(x=gt_gapyoung, y=GT_Jazz))+geom_point(aes(colour=gt_chunchun, size=Visit)) • # 파생변수 추가한 • ggplot(data=jarasumder, aes(x=gt_jarasum, y=GT_Jazz))+geom_point(aes(colour=gt_gap_chu, size=Visit)) • # Visit 히스토그램 • ggplot(jarasum, aes(x=Visit, fill=train)) + geom_histogram(position="identity", alpha=0.4) • ggplot(jarasum, aes(x=Visit, fill=highway)) + geom_histogram(position="identity", alpha=0.4) • ggplot(jarasum, aes(x=Visit, fill=Is_rainy)) + geom_histogram(position="identity", alpha=0.4) • # 구글 네이버별 Jazz_trend 히스토그램 • gn <- read.csv("gn.csv", header=T) • ggplot(gn, aes(x=Jazz_trend, fill=google_naver)) + geom_histogram(position="identity", alpha=0.4) • ggplot(gn, aes(x=Jazz_trend, fill=google_naver)) + geom_histogram(position="fill", alpha=0.4) • ggplot(gn, aes(x=Jazz_trend, fill=google_naver)) + geom_histogram(position="dodge", alpha=0.4)
  • 40. -40- 5. 2015년 자라섬 재즈 페스티벌 예측 • 아티스트 유튜브 조회수와 아티스트 경력을 기존의 1~11회 페스티벌의 최소 조회수와 최소 경력, 최대 조회수와 최대 경력을 가지고 12회 자라섬 페스티벌 방문자를 예측 • 그 결과는 오히려 최소 아티스트 유튜브 조회수와 아티스트 경력을 입력 했을 때 오히려 조금 더 높게 나옴 구분 최소값 최대값 차이 아티스트 유튜브 조회수 2,161,922 12,661,307 10,499,385 아티스트 경력 26 65 39 예측 방문자 수 207,549 211,022 3473 자라섬 페스티벌의 방문자 수의 증감은 아티스트 인지도 및 경력과는 무관 2015년 자라섬 재즈 페스티벌 예측 결과
  • 41. -41- 6. 주최자 입장에서의 대응전략 아티스트 측면 • 집객력과 가성비가 높은 아티스트들을 다시 초청하는 방안 집중 추진 1 인지도 측면 • 가평과 자라섬의 인지도가 급등하긴 했으나 여전히 춘천만큼의 인지도는 아님 • 자라섬, 가평, 재즈 라는 세가지 키워드를 평상시 집중적으로 노출하는 매스, 인터넷 마케팅 실시 (연중 지속) 2 고객관리 측면 • 지난 행사들에 대한 기억을 살릴 수 있는 컨텐츠를 만들어 ... 주기적으로 기억을 되살리도록 제공 (모바일, 페이스북, 카카오톡 등 SNS로)) 3 데이터 분석 측면 • 경제적 효과를 종속변수로 한 추가 모델 개발 • 카드사 .이통사와 제휴를 통해 추가적인 Mash Up 데이터를 확보하고 결합분석 추진 4 “데이터 분석모델에 의한 예측을 통해 가성비 최적화 방안 시뮬레이션 실시” 분석을 통해 2015년 자라섬 재즈 페스티벌 방문객 수를 늘릴 수 있는 방안은?
  • 43. -43- INDEX Ⅴ. 결론 1. 지역 축제 분석의 가치 및 기대효과 2. 빅 데이터 분석 전문가 과정을 마치며 …
  • 44. -44- 1. 지역 축제 분석의 가치 및 기대효과 연 500건이 넘은 축제가 열리지만 실제 경제 유발 효과 등의 실익을 얻는 축제는 한정됨  가치와 효과 분석(수치화)  적정 예산 수립 가능 지역 축제 성공 요인 분석  등급별 관리  지원 대상/규모 통제 문체부 소모성 유사 축제 조성  예산 낭비  성과 측정 어려움 지자체장 선심성 행정
  • 45. -45- 2. 빅 데이터 분석 전문가 과정을 마치며… 1 빅 데이터 분석 전문가 역량 강화 2 팀 과제를 통한 데이터 분석 경험 공유 3 빅 데이터 분석 분야의 미래 및 활용에 관한 새로운 관점의 발견 4 자사에 빅 데이터 분석 기술 활용 기반을 다지는 기회 발견 8기 빅 데이터 분석 전문가 과정 수료 빅 데이터에 대한 새로운 접근 및 기존 경험을 융합한 발전을 할 수 있는 계기 마련의 기회 !