금융 데이터 이해와 분석 PyCon 2014Seung-June LeePyCon 2014 발표 http://pycon.kr/2014/program/8 자료 입니다. 파이썬을 기반으로 금융데이터(주식시장 데이터)에 대한 이해와 수집/분석을 위한 구체적인 방법들 소개합니다.
- 마켓 데이터 수집과 저장
- 거래소 상장 종목 분석
- 금융 데이터의 측정과 분포
- 야후 파이낸스 활용
- 이동평균, 기술적 분석, 상관분석
- 데이터 시각화
하둡 에코시스템 위에서 환상적인 테이크오프 - DSTS 2019 Kenneth Ceyer하둡의 거대한 파도를 대비해서 테이크오프를 준비하는 여러분을 위해 준비한 슬라이드입니다. 하둡의 수많은 생태계에 요소들을 둘러보고 이것이 협업에 어떤 도움을 주는지를 설명합니다. 이 발표자료는 DSTS 2019 서울에서 발표되었습니다.
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개Gruter- GRUTER의 빅데이터 플랫폼 qoobah의 아키텍쳐와 관리 도구 Cloumon 소개
- GRUTER의 빅데이터 플랫폼 Delivery 방법론 소개
아마존 에코를 활용한 음성 인식 에어컨 제어 A to zJueun Seo회사 사무실에는 에어컨이 3대 설치되어 있습니다. 출퇴근시 에어컨 세대를 끄고 켜는데 불편한 점이 많습니다. 특히 3대중에 한대만 다른 모델이라 각각의 리모컨 찾는데 시간이 걸리는 경우가 많습니다. 이번 발표에서는 3대의 에어컨을 음성으로 동시에 제어할 수 있는 시스템을 구축하기 위한 A부터 Z까지 세세한 과정을 소개합니다. 요즘에는 아마존 에코와 라즈베리파이라는 훌륭한 제품들이 나와있어 음성 인식으로 하드웨어를 제어하기가 매우 쉬워졌습니다. 에코의 명령을 처리하기위한 서버로 django/celery를 이용하였습니다. 하드웨어 지식이 없어도 이해할 수 있는 수준이며 django와 도커가 무엇인지는 알면 좋지만 모르더라도 최대한 쉽게 이해할 수 있도록 발표를 진행할 예정입니다. 소스코드까지 모두 공개했기 때문에 발표를 듣고나서 똑같은 시스템을 구축하거나 다른 방식으로 응용하는데에 도움이 되었으면 좋겠습니다.
발표 순서는 다음과 같습니다.
적외선 신호 송수신을 위한 라즈베리파이 회로 설계
LIRC를 이용한 적외선 회로 제어
아마존 에코와 Django 서버 연동하기
ngrok 무료 버전을 활용한 고정 public url 생성하기 - celery 활용
Docker/Ansible로 Django/Celery 패키징하기
진행중인 프로젝트는 아래 github repository에 공개되어 있습니다
https://github.com/Buzzvil/hardware-lab
파이썬으로 나만의 강화학습 환경 만들기정주 김인공지능 분야에서 강화학습은 중요한 방법론으로 떠오르고 있습니다. 이 발표에서는 강화학습의 기본 개념과 강화학습 연구용 툴킷인 OpenAI Gym에 대해 소개하고, 파이썬으로 직접 강화학습 환경을 만들고 학습시키는 방법에 대해서 알아보겠습니다.
Python 게임서버 안녕하십니까 : RPC framework 편준철 박NDC Python 게임서버 안녕하십니까? : 몬스터 슈퍼리그 게임 서버 편의 후속으로 기획된 발표입니다. 사내 준비 도중 "너굴" 님의 질문에서 시작되었습니다.
이 발표는 잘 알려진 RPC Framework 인 Thrift, gRPC를 살펴보고 예시로 오델로 게임을 만들어보면서 기존 RPC framework 들이 게임의 서버/클라 구조에 잘 어울리지는 살펴보고 왜 몬스터 슈퍼리그에서 그런 선택을 했는지 살펴봅니다.
그리고 게임에 맞게 RPC 를 설계하고 이를 이용하여 온라인 오델로 게임을 완성해봅니다.
Python 2 와 3 공존하기태환 김This document shows the version numbers for pip (the Python package installer) when accessed through both Python 2 and Python 3 on a system. Pip 9.0.1 is shown to be installed for both Python 2.7 and Python 3.5 from their respective site-package directories, demonstrating that pip is installed and accessible for both major Python versions on this system.
Driving Computer Vision Research Innovation In Artificial IntelligenceNVIDIAGet a recap of the news out of NVIDIA's announcements at CVPR 2017 with highlights such as our V100 giveaway to top researchers, technical demos, workshops, and more.
Speaker DiarizationHONGJOO LEEThis document discusses speaker diarization, which is the process of segmenting an audio stream into homogeneous segments according to speaker identity. It covers feature extraction methods like MFCCs, segmentation using Bayesian Information Criteria to compare Gaussian mixture models, and clustering algorithms like k-means and hierarchical agglomerative clustering. Dendrogram visualizations are used to identify natural speaker clusters. The overall goal is to partition audio recordings of discussions or debates into homogeneous segments to attribute speech segments to individual speakers.
좋은 전략을 찾아서(설명 가능한 주식 전략)_손승한승한 손감사하게도 퀀트 스타트 컨퍼런스 2024에서 '좋은 전략을 찾아서'라는 주제로 커뮤니티 세션에 맞춰 인프라, 전략, 운영 등 넓은 범위에 대해 소개했습니다.
발표 자료를 공유해 드리며, 코멘트와 질문은 언제나 환영합니다.
컨퍼런스 정보: https://quantstartcon.oopy.io/
링크드인: https://www.linkedin.com/in/seunghan-son/
아마존 에코를 활용한 음성 인식 에어컨 제어 A to zJueun Seo회사 사무실에는 에어컨이 3대 설치되어 있습니다. 출퇴근시 에어컨 세대를 끄고 켜는데 불편한 점이 많습니다. 특히 3대중에 한대만 다른 모델이라 각각의 리모컨 찾는데 시간이 걸리는 경우가 많습니다. 이번 발표에서는 3대의 에어컨을 음성으로 동시에 제어할 수 있는 시스템을 구축하기 위한 A부터 Z까지 세세한 과정을 소개합니다. 요즘에는 아마존 에코와 라즈베리파이라는 훌륭한 제품들이 나와있어 음성 인식으로 하드웨어를 제어하기가 매우 쉬워졌습니다. 에코의 명령을 처리하기위한 서버로 django/celery를 이용하였습니다. 하드웨어 지식이 없어도 이해할 수 있는 수준이며 django와 도커가 무엇인지는 알면 좋지만 모르더라도 최대한 쉽게 이해할 수 있도록 발표를 진행할 예정입니다. 소스코드까지 모두 공개했기 때문에 발표를 듣고나서 똑같은 시스템을 구축하거나 다른 방식으로 응용하는데에 도움이 되었으면 좋겠습니다.
발표 순서는 다음과 같습니다.
적외선 신호 송수신을 위한 라즈베리파이 회로 설계
LIRC를 이용한 적외선 회로 제어
아마존 에코와 Django 서버 연동하기
ngrok 무료 버전을 활용한 고정 public url 생성하기 - celery 활용
Docker/Ansible로 Django/Celery 패키징하기
진행중인 프로젝트는 아래 github repository에 공개되어 있습니다
https://github.com/Buzzvil/hardware-lab
파이썬으로 나만의 강화학습 환경 만들기정주 김인공지능 분야에서 강화학습은 중요한 방법론으로 떠오르고 있습니다. 이 발표에서는 강화학습의 기본 개념과 강화학습 연구용 툴킷인 OpenAI Gym에 대해 소개하고, 파이썬으로 직접 강화학습 환경을 만들고 학습시키는 방법에 대해서 알아보겠습니다.
Python 게임서버 안녕하십니까 : RPC framework 편준철 박NDC Python 게임서버 안녕하십니까? : 몬스터 슈퍼리그 게임 서버 편의 후속으로 기획된 발표입니다. 사내 준비 도중 "너굴" 님의 질문에서 시작되었습니다.
이 발표는 잘 알려진 RPC Framework 인 Thrift, gRPC를 살펴보고 예시로 오델로 게임을 만들어보면서 기존 RPC framework 들이 게임의 서버/클라 구조에 잘 어울리지는 살펴보고 왜 몬스터 슈퍼리그에서 그런 선택을 했는지 살펴봅니다.
그리고 게임에 맞게 RPC 를 설계하고 이를 이용하여 온라인 오델로 게임을 완성해봅니다.
Python 2 와 3 공존하기태환 김This document shows the version numbers for pip (the Python package installer) when accessed through both Python 2 and Python 3 on a system. Pip 9.0.1 is shown to be installed for both Python 2.7 and Python 3.5 from their respective site-package directories, demonstrating that pip is installed and accessible for both major Python versions on this system.
Driving Computer Vision Research Innovation In Artificial IntelligenceNVIDIAGet a recap of the news out of NVIDIA's announcements at CVPR 2017 with highlights such as our V100 giveaway to top researchers, technical demos, workshops, and more.
Speaker DiarizationHONGJOO LEEThis document discusses speaker diarization, which is the process of segmenting an audio stream into homogeneous segments according to speaker identity. It covers feature extraction methods like MFCCs, segmentation using Bayesian Information Criteria to compare Gaussian mixture models, and clustering algorithms like k-means and hierarchical agglomerative clustering. Dendrogram visualizations are used to identify natural speaker clusters. The overall goal is to partition audio recordings of discussions or debates into homogeneous segments to attribute speech segments to individual speakers.
좋은 전략을 찾아서(설명 가능한 주식 전략)_손승한승한 손감사하게도 퀀트 스타트 컨퍼런스 2024에서 '좋은 전략을 찾아서'라는 주제로 커뮤니티 세션에 맞춰 인프라, 전략, 운영 등 넓은 범위에 대해 소개했습니다.
발표 자료를 공유해 드리며, 코멘트와 질문은 언제나 환영합니다.
컨퍼런스 정보: https://quantstartcon.oopy.io/
링크드인: https://www.linkedin.com/in/seunghan-son/
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)Treasure Data, Inc.* 행사 정보 :2016년 10월 14일 MARU180 에서 진행된 '데이터야 놀자' 1day 컨퍼런스 발표 자료
* 발표자 : Dylan Ko (고영혁) Data Scientist / Data Architect at Treasure Data
* 발표 내용
- 데이터사이언티스트 고영혁 소개
- Treasure Data (트레저데이터) 소개
- 데이터로 돈 버는 글로벌 사례 #1
>> MUJI : 전통적 리테일에서 데이터 기반 O2O
- 데이터로 돈 버는 글로벌 사례 #2
>> WISH : 개인화&자동화를 통한 쇼핑 최적화
- 데이터로 돈 버는 글로벌 사례 #3
>> Oisix : 머신러닝으로 이탈고객 예측&방지
- 데이터로 돈 버는 글로벌 사례 #4
>> 워너브로스 : 프로세스 자동화로 시간과 돈 절약
- 데이터로 돈 버는 글로벌 사례 #5
>> Dentsu 등의 애드테크(Adtech) 회사들
- 데이터로 돈을 벌고자 할 때 반드시 체크해야 하는 것
Big Data Analytics and Data MiningSuHyun Jeonhttp://onoffmix.com/event/19596
2013.10.10(목) '빅 데이터 활용을 위한 오픈소스 프레임워크 기술 세미나'에 중
'빅데이터 분석 알고리즘 소개 및 사례' 대한 발표자료입니다.
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...Amazon Web Services Korea기업 환경에 따라 차이는 있겠지만, 최근 대부분의 기업은 데이터 분석 환경이 구축되어 있고, 이를 기반으로 데이터를 분석하고 있습니다. 그럼에도 불구하고 현업에서는 분석하고자 하는 데이터가 없거나 변화하는 비즈니스 요건을 반영하지 못한다는 불만을 제기하고, 분석 환경을 제공하는 IT운영팀은 변화하는 비즈니스 요건에 따라 분석 환경을 적시에 제공하기 쉽지 않다는 어려움을 토로하고 있습니다. 이 해결책으로 운영시스템에 데이터베이스 형태로 존재하고 있거나, 현업의 PC에서 수작업으로 작성한 정형, 비정형 파일을 통합 관리할 수 있고, 또한 인프라 환경의 확장 및 변경을 보다 유연하게 할 수 있는 AWS Cloud 기반의 분석 환경 구축 사례를 소개하고자 합니다.
다시보기 링크: https://youtu.be/YvYfNZHMJkI
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimGruterDeView2013 session note - Big Data Platform Architecture with Hadoop
by Hyeong-jun Kim, Architect at Gruter, inc.
5. 4
1. 주식투자자가 파이썬을 통해 얻을 수 있는 효과
고집이 쎄짐
노안
체력감소
기억력 감소
한정된 인맥
…
자동화 인간의 본성 극복 새로운 통찰력
고집, 집착
변화에 대한 두려움
손실 두려움
특정 수익모델 집착
…
“ 데이터 수집/분석 자동화”
“ 단순 작업 자동화”
“ 분석 자동화”
“ 실시간 자료 수집”
“ 시스템 트레이딩”
“ 알고리즘 트레이딩”
“ 성과 모니터링”
“ Machine Learning”
“ 다양한 라이브러리”
그리고 ???
6. 5
1. 주식투자자가 파이썬을 배워야 하는 이유
“ 파이썬은 주식 투자자에게 있어 엑셀 또는 HTS 역할을 할 것입니다.”
“ 파이썬을 잘한다고 해서 반드시 좋은 성과를 낼 수는 없지만,
없어서는 안 되는 도구가 될 것입니다.”
8. 7
파이썬으로 매우 급격한 시간 절약과 효율성 증대를 달성할 수 있음
또한 머신러닝을 활용하여 인간의 눈으로 보지 못하는 새로운 패턴을 발견할 수 있음
2. 파이썬으로 할 수 있는 것들
공시/뉴스 검색
정기 데이터 업데이트 및 분석
실시간 시장 데이터 모니터링
기술적 분석
실적 발표 체크
자동화
확장성/ 맞춤형
머신러닝
다른 언어보다 상대적으로
쉽게 활용 가능
주식 투자자들이 사용하는 분석법
.
.
.
9. 8
2.1 가격 패턴 분석
프로그래밍을 활용한다면?
• 인간의 눈으로 주가 가격 그래프 분석
• 장점 – 오랜 경력의 프로 투자자의 경우 미묘한 패턴 등을
감각적으로 분석하여 활용할 수 있음
• 단점 – 다수의 종목을 확인할 경우 시간이 많이 걸림, 직감
의존 한계, 과거 사례 등 체크 가능성
기존의 방식
시간의
절약
• 2,000개 이상의 종목 패턴 검색 가능
(2,000개 종목의 2년치 데이터를 600개
구간으로 나누어 분석해도 3분안에 처리가능)
시뮬레이
션 가능
• 해당 패던이 존재했던 과거 유사사례 분석
• 유상증자 전후 및 IPO 주가 패턴
본인의
방식으로
• 기존 HTS 검색기 외에도 본인의 특성에 맞는
양식 개발하여 원하는 방식으로 Reporting
• 하락각도, 패턴기간, 종목조건, 분석대상 등
새로운
패턴의
발견
• 본인이 설정한 패턴 외의 새로운 패턴 제시
• 머신 러닝의 유사도 찾기 및 군집화 알고리즘
10. 9
2.1 가격 패턴 분석
원하는 패턴
정의
자료 입력
자료 처리 및 분석
활용 및 리포팅
• 본인이 원하는 가격 차트 패턴 정의 과정
• 종목, 직접 그린 패턴, 분석대상의 특성, 시가총액, 업종, 이벤트 등
• 차트 패턴 정의 후 list 형태로 입력
1) 원하는 종목과 기간을 지정하여 list로 변환 후 입력
2) 원하는 수식을 지정하여 입력
3) 패턴을 간소화하여 list로 변환하여 입력
• 입력된 자료 처리 – Scikit Learn 등의 모듈 사용
• Cosine Simillar, DTW 등의 모델 이용하여 유사한 패턴 검색
• 현재 시점 기준, 또는 특정 기간 등을 기준으로 설정하여 분석
• 원하는 양식으로 변환하는 과정을 시각화
• 과거 시뮬레이션 시 유사한 패턴 및 이후 성과 분석
• 현재 시점 유사도 기준으로 패턴 정렬
11. 10
2.1 가격 패턴 분석
Cosine Similar
라이브러리 소개
DTW PIP
• 기간의 간격이 정해져 있으며 비교적 짧은
기간의 패턴 분석에 유용함
• 시계열 자료 이외의 분석에도 유용
• 기간의 간격이 유동적일 경우 유용함
• 과거 사례 검색에 도움
• 초단기 패턴 분석에 유용
• 차트 패턴 중 돌파, 지지, 저항 등과 관련된
로직 작성에 유리
• PIP로 전처리 이후 Cosine Similar
라이브러리 사용 시 유용함
12. 11
2.1 가격 패턴 분석
Cosine Similar 분석 예시
[…………………………………………………….………………………..]
[…………………………………………………….………………………..]
13. 12
2.2 정기데이터 업데이트 및 분석
프로그래밍을 활용한다면?
• 오전에 일별로 다양한 정보를 체크
• 뉴스 또는 수치화된 정보를 체크함
• 상당히 다양한 정보가 있어 일일이 체크하기가 어려움
• 또한 당일 시장과 연동되는 핵심 지표 등을 선정하는데
물리적 한계 존재
기존의 방식
시간의
절약
• 시장의 중요한 변수로 작용할 수 있는 3,000개
이상의 지표를 손쉽게 처리 가능
• 원하는 패턴이 올 경우 해당 지표 자동 알람
시뮬레이
션 가능
• 해당 지표의 해당 패턴이 있었던 과거 사례
검색 가능함
• 과거 사례 분석에 따른 패턴화 가능
본인의
방식으로
• 경제뉴스 상의 핵심 지표만이 아닌,
• 본인의 관심종목과 시장 패턴에 맞추어 알람
• 주식에 영향을 줄 수 있는 상황 자동 알람
비정형
데이터
확인가능
• 정형화된 데이터 외에도 구글 트랜드, 쇼핑몰
데이터, 뉴스 분석, 산업지표 등도 크롤링하여
분석 가능
14. 13
2.2 정기 데이터 업데이트 및 분석
필요한 자료 및
처리 방법 정의
자료 수집
및 입력
자료 처리 및 분석
활용 및 리포팅
• 체크해야 할 주요 지표의 정의
• 경제데이터(환율, 유가, 상품가격 등), 해외주식(미국, 일본 등의 각 산업별 분류),
산업지표(수출입 데이터, 산업협회 자료 등)
• 각 지표별 수집 및 처리 방법 정의
• BeautifulSoup 모듈 활용
• Selenium및 팬텀js 모듈 활용 데이터 수집
• MySQL 등을 통해 입력
• 원하는 가격 패턴 분류(List 형식)
• 입력된 자료 처리 (Scikit Learn 등의 모듈 사용)
• Cosine Simillar, DTW 등의 모델 이용하여 설정한 패턴에 부합하는지 여부 판별
• 각 자료 별 우선순위 부여 알고리즘 개발
• 조건 발생 시 휴대폰 알람
• 각 조건 별 시뮬레이션 및 유사사례 점검
15. 14
2.3 실시간 시장 데이터 모니터링
• 투자자별 동향, 주가, 거래량 등에 대한 정보를 주로 HTS 등을
통하여 확인
• HTS 기능이 발전함에 따라 다양한 기능 사용 가능하지만
본인만의 전략 관련 수집하는데는 제한적
• 특히 다양한 종목을 검색할 경우 누락 등의 우려 있음
기존의 방식 프로그래밍을 활용한다면?
시간의
절약
• 전 종목에 대하여 원하는 조건에 따라 검색
• 증권사 API 활용 시 다양한 지표 및 조건식을
한번에 처리 가능함
시뮬레이
션 가능
• 해당 조건에 대한 과거 사례 모니터링 가능
• MySQL 등을 활용하여 시간대별 DB구축 가능
본인의
방식으로
• HTS 기능 등을 본인에 최적화되도록 사용
• 특정 종목군, 조건별 (시간대, 외국인 등) 정렬
16. 15
2.3 실시간 시장 데이터 모니터링
필요한 자료 및
처리 방법 정의
증권사 API 연동
자료 처리 및 분석
활용 및 리포팅
• 체크해야 할 주요 시장 데이터 정의(외국인 수급, 주체별 수급, 주가 데이터, 창구별 현황 등)
• 체크 주기, 조건 등에 대한 명확화
• 실시간 데이터의 경우 인터넷 상에서 수집 어려움
• 키움증권, 대신증권 등의 API 활용
• 수집한 데이터에 대한 조건 처리, 설정한 패턴에 부합하는지 여부 판별
• 각 시간대별로 MySQL에 DB화 시킴
• 각 조건 발생 시 Alarm 및 Reporting 기능
• 각 조건 별 DB 저장 자료를 통한 과거 사례 분석
18. 17
2.4 공시/뉴스 발송 및 분류
• 기업 공시 및 뉴스에 대하여 HTS 또는 금감원 전자공시
사이트 이용(또는 일부 앱 이용)
• 계속 보고 있지 않으면 중요한 뉴스를 놓칠 가능성 있음
• 단기적인 대응만 가능할 수 있음
• 워낙 많은 정보로 인해 꼭 필요한 정보가 묻힐 수 있음
기존의 방식 프로그래밍을 활용한다면?
시간의
절약
• 특정 키워드에 맞는 뉴스/공시 발생 시
텔레그램 발송
시뮬레이
션 가능
• 해당 공시에 대하여 유사한 사례의 공시와
당시 퍼포먼스 검색 가능
확장성
• 공시의 종류별로 저장하여 과거 사례 분석
(기업분할, 액면분할, 유상증자, 상장 등)
• 주가 패턴과 연동 가능
19. 18
2.4 공시/뉴스 발송 및 분류
Key Word 및
특성 설정
데이터 수집
자료 처리 및 분석
활용 및 리포팅
• 검색하려고 하는 Key Word 설정
• 각 Key Word의 특성 구분(장기-단기, 이벤트성, 이슈성-펀더멘털성 필요성 등)
• BeautifulSoup, Selenium및 팬텀js 모듈 활용 데이터 수집
• 전자공시 사이트 및 증권사 API 연동, Naver, Google 등 뉴스면 활용
• 언론사별 RSS 등 활용
• 뉴스/공시별 Key Word의 특성에 맞추어 처리 진행
• 장기성, 이벤트성, 펀더멘털성의 경우로 분류하여 처리
(Telegram API 활용)
• 각 조건 발생 시 Alarm 및 Reporting 기능
• 각 조건 별 DB 저장 자료를 통한 과거 사례 분석
• 주가 위치별로 중요한 국면일 경우 발송 가중치 부여
23. 22
3.1 프로젝트 정의 및 범위
프로젝트
정의
• IPO 종목의 주가 예측
범위
• 국내 KOSDAQ, KOSPI 시장에 신규 상장하는 종목을
대상으로 함
• KONEX 이전 상장, OTC 이전상장 등은 포함
• 기업 인적분할을 통한 신규상장, ETF 등은 제외
목표 결과
• 일반적인 주가 예측 모형은 해당 종목의 예상 수익률 및
변동성 등을 예측함
• IPO의 경우 투자자 입장에서 볼 때, 예상 수익률보다는
공모가 대비 시초가, 상장 이후 주가 움직임을
패턴화하여 나타내는 것이 더욱 가치 있는 결과물이 될
수 있음
결과 패턴
목표 결과
• IPO 예측에 필요한 핵심변수 24개를 선정함
• 해당 변수를 구간별로 나눔
• 각 종목에 대한 Cosine Similarity 이용함
• 공모가 대비 상승하였으나 이후 지속 하락 패턴
• 공모가 부근의 시초가 형성 이후 지속 성장 패턴
• 초기 조정 이후 상승세 나타내는 패턴
• 공모가 하회 이후 지속 하락하는 패턴
24. 23
3.3 주요 변수의 정의
IPO 주가 형성에 영향을 미치는 변수 24가지 추출함.
총 60개 선정 이후 중복성, 중요도, 계량화 가능성 등을 검토하여 범위 축소
각 단계는 1~5로 구분. 일부는 clustering 기법 활용하였으며, 일부는 투자자입장에서 유의미한 기준 구분
25. 24
3.4 데이터 수집
IPO 주가 형성에 영향을 미치는 변수 24가지 추출함.
총 60개 선정 이후 중복성, 중요도, 계량화 가능성 등을 검토하여 범위 축소
각 단계는 1~5로 구분. 일부는 clustering 기법 활용하였으며, 일부는 투자자입장에서 유의미한 기준 선별
26. 25
3.5 유사 종목 검색
각 종목별로 점수 입력하여 List 작성
Cosine Similarity 활용하여 유사도 계산함
해당 종목 입력 시 각 종목별로 과거 유사도가 높았던 종목 위주로 검색
28. 27
3.7 결과
해당 종목을 입력 시 각 종목별로 과거 유사도가 높았던 순으로 검색, 2011년 이후를 분석기간으로 선정하여 기본 데이터는 289개 종목 활용함
데이터가 누적된 2015년 이후 110개 종목에 대한 분석결과 ‘시초가‘ 항목의 경우 85%, ‘당일거래’ 항목은 73%, 상장 후 주가 패턴의 경우 ’66%’의
유의미한 유용성을 보임
대형주의 경우 적중도가 낮았고 반면에 중소형주는 매우 높은 정확성 보임
(대형주는 분석이 상당부분 이루어져 과거 데이터만으로는 초과 수익 가능성 높지 않음)
단순히 과거 적중율보다는 새로운 패턴 발견과 종목군 분류를 통해 투자 Insight 향상
29. 28
결론
프로그래밍 학습을 통해 서로를 보완할 수 있음
기계의 영역
“ 빅데이터와 머신러닝으로 대표”
“ 인프라 및 데이터 가공이 중요”
“과거 데이터를 통한 패턴 파악"
“ 초단기 매매에 적합”
“Passive 투자, 자산배분 등에
주로 활용”
인간의 영역
“ 직감, 통찰력 등으로 대표”
“ 경험 및 재능 등이 중요”
“ 패러다임 및 트랜드 변화 인식"
“중기, 장기 투자에 적합“
“집중 투자에 활용 가능"