Dropbox와 같은 시스템은 파일을 어떻게 저장할까?nexusz99드랍박스, nDrive 등과 같은 클라우드 스토리지 서비스들은 데이터를 어떻게 저장하는지에 대한 이론적 내용과 실제 구현 내용을 살펴봅니다. 이 발표에서는 OpenStack 의 swift라는 Object Storage 를 이용하여 이론이 어떻게 구현되어있는지 알아봅니다.
09 1 날짜와시간모듈Changwon National University본 강의에서는 파이썬의 날짜와 시간에 관련된 모듈인 datetime 모듈에 대해 살펴보고, datetime 모듈내의 여러가지 클래스와 클래스 메소드에 대하여 알아봅니다.
- 강의 키노트 자료는 다음 링크를 통해 다운 받으세요
https://drive.google.com/drive/folders/1UrrO4_ch4xcIErbExstwpUVY6vFvPdkW
- 강의 소스코드는 다음 링크를 통해 다운 받으세요
https://github.com/dongupak/Basic-Python-Programming
Next-generation sequencing: Data mangementGuy CoatesNext-generation sequencing is producing vast amounts of data. Providing storage and compute is only half the battle. Researchers and IT staff need to be able to "manage" data, in order to stay productive.
Talk given at BIO-IT World, Europe 2010.
ICT in HealthcareNawanan Theera-AmpornpuntThe document discusses the concept of a "smart hospital" and how information and communication technologies (ICT) can help digitize healthcare and make it smarter by reducing errors, improving access to patient information, and helping address the fragmented nature of healthcare through standards-based health information exchange. The talk outlines how ICT can add value to healthcare through improved guideline adherence, safety, decision making, and patient education.
Custom TTS using multi-speaker-tacotron(nanheekim)Nanhee Kim@NanheeKim @nh9k
질문이 있으면 언제든지 연락주세요!
Please, feel free to contact me, if you have any questions!
github: https://github.com/nh9k
email: kimnanhee97@gmail.com
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링OpenStack Korea Community- 발표자: 고려대학교 임재민
- 자료: /openstack_kr/openinfra-days-korea-2018-track-4-grafana-openstack
Machine Learning Model Serving with Backend.AIJeongkyu Shin머신러닝 모델을 서비스 단에서 서빙하는 것은 손이 많이 갑니다.
서비스 과정을 편리하게 하기 위하여 TensorFlow serving 등 서빙 과정을 돕는 다양한 도구들이 공개되고 개발되고 있습니다만, 여전히 서빙 과정은 귀찮고 불편합니다. 이 세션에서는 Backend.AI 와 TensorFlow serving을 이용하여 간단하게 TensorFlow 모델을 서빙하는 법에 대해 다루어 봅니다.
Backend.AI 서빙 모드를 소개하고, 여러 TF serving 모델 등을 Backend.AI 로 서비스하는 과정을 통해 실제로 사용하는 법을 알아봅니다.
Serving the machine learning model at the service level is a lot of work. A variety of tools are being developed and released to facilitate the process of serving. TensorFlow serving is the greatest one for serving now, but the docker image baking-based serving process is not easy, not flexible and controllable enough. In this session, I will discuss how to simplify the serving process of TensorFlow models by using Backend.AI and TensorFlow serving.
I will introduce the Backend.AI serving mode (on the trunk but will be official since 1.6). After that, I will demonstrate how to use the Backend.AI serving mode that conveniently provides various TensorFlow models with TensorFlow serving on the fly.
JMI Techtalk : Backend.AILablup Inc.Just Model It 이벤트에서 사용할 Backend.AI 에 관한 소개입니다. Backend.AI의 개괄, 주요 기능 및 사용예들을 다룹니다. 또한 Backend.AI 를 이용한 End-to-end ML model 개발 시나리오도 소개합니다.
An Introduction to Backend.AI to use in Just Model It event. It covers the overview of Backend.AI, its main features and examples. It also introduces the scenario of developing end-to-end ML model using Backend.AI.
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색 BOAZ Bigdata데이터 엔지니어링 프로젝트를 진행한 YouPlace팀에서는 아래와 같은 프로젝트를 진행했습니다.
<aside>
이젠 검색도 유튜브 시대
제주여행을 계획할 때 브이로그 영상을 많이 참고하실텐데요
수많은 영상들과 영상 속 분산된 명소들을 하나 하나 찾으려 생각하면 막막하지 않으셨나요?
이러한 고민을 갖고 계신 분들을 위해, 유튜브 브이로거들이 찾아간 여행 명소들을 지도에서 한 눈에 파악할 수 있도록 만들었어요
(github : https://github.com/Boaz-Youplace)
16기 엔지니어링 고은서 | 중앙대학교 소프트웨어학부
16기 엔지니어링 류정화 | 성신여자대학교 융합보안공학과
16기 엔지니어링 송경민 | 국민대학교 소프트웨어학과
『빠르게 훑어보는 구글 클라우드 플랫폼』 - 맛보기복연 이조대협, 최명근, 최유석, 윤성재, 김영균 지음 | 한빛미디어 | 2016.09.10
구글 클라우드 플랫폼을 처음 사용하는 사람을 위한 실습형 입문서.
이 책은 구글 클라우드를 처음 사용하는 사람이 가상 머신(VM) 기반의 클라우드 서비스 기능들을 빠르게 사용할 수 있도록 도울 목적으로, 실습 위주로 속도감 있게 구성하였다.
구글 클라우드의 가상 머신 서비스인 컴퓨트 엔진을 사용하기 위해 가입부터 VM 설정, 네트워크 설정, 오토 스케일링(자동 확장)과 모니터링, 그리고 MySQL 매지니드 서비스인 Cloud SQL의 사용법을 소개한다. 마지막으로 구글 클라우드만의 장점인 빅데이터 서비스, 전 세계를 덮는 전용 네트워크망, 합리적인 가격 정책을 소개한다.
How to Oracle Ravello Cloud 200% utilize and use case suk kimOracle Ravello Cloud Service essential
Oracle Ravello Cloud Service - infrastructure demo & training system configuration
Oracle Ravello Cloud Service - security demo & training system configuration ( PenTest & Security Solution Training / Security monitoring training )
머신러닝 및 데이터 과학 연구자를 위한 python 기반 컨테이너 분산처리 플랫폼 설계 및 개발Jeongkyu Shin머신러닝 및 데이터 과학 분야의 컴퓨팅 수요는 해가 갈수록 급증하고 있습니다. 이와 더불어 분산처리 기술, 데이터 파이프라이닝 및 개발 환경 스택 관리 등의 관련된 다양한 이슈들 또한 엄청나게 늘어나고 있습니다. 머신러닝 모델의 기하급수적인 모델 복잡도 증가 추세와 마찬가지로, 모델 학습을 위한 환경 관리 또한 갈수록 복잡도가 높아지는 추세입니다.
이 세션에서는 이러한 문제를 해결하기 위해 python 언어 기반의 분산처리 스케쥴링/오케스트레이션 미들웨어 플랫폼을 개발한 4년간의 과정에서 겪은 다양한 문제들에 대해 다룹니다. 2015년 컨테이너 기반의 고밀도 분산처리 플랫폼 설계 및 프로토타이핑 과정을 PyCon KR에서 발표한 이후, 실제 구현 및 오픈소스화, 안정화를 거치며 겪은 다양한 기술적/비기술적 문제들에 대한 경험을 공유합니다.
기술적으로는 최근 몇 년 간의 클러스터 플랫폼 관련 기술의 진보와 함께 탄생한 다양한 도구들과, 이러한 도구들을 python 기반으로 엮어내기 위해 사용하고 개발한 다양한 오픈소스들을 다룹니다. Python 기반의 컨테이너 스케쥴링 및 오케스트레이션 과정의 구현과, 다양한 프로그래밍 언어로 만든 SDK를 graphQL을 이용하여 연동하는 과정에서의 몇몇 유의점을 설명합니다. 아울러 python 기반의 SDK를 다양한 언어로 포팅했던 경험을 간단하게 안내합니다.
플랫폼을 개발하는 중 등장한 TensorFlow, PyTorch 등의 다양한 머신러닝 프레임워크들을 도입하며 겪은 문제와 해결 과정에 대해서도 나눕니다. 연구 분야에는 Python 2.7 기반의 프레임워크들이 여전히 많습니다. 이러한 프레임워크 및 라이브러리의 지원을 위하여 Python 2 기반의 프레임워크와 Python 3.7로 구현한 컨테이너 인터페이스를 단일 컨테이너 환경에 중복 빌드 및 상호 간섭 없이 공존시키기 위해 개발한 아이디어를 소개합니다.
마지막으로 Python 기반의 프레임워크를 개발, 배포 및 상용화 하는 과정에서 겪은 다양한 어려움을 소개합니다. 솔루션을 배포 및 보급할 때 겪는 다양한 런타임, 하드웨어 환경 및 개인 정보 보호를 위한 폐쇄망 대상의 디플로이 등에 대응하기 위하여 Python 응용프로그램을 단독 실행용으로 패키징하는 과정에서 겪은 팁들을 설명합니다. 또한 GUI 빌드 및 Python, Go 및 C++을 함께 사용한 드라이버 가상화 레이어 개발 등의 내용도 살짝 다룹니다.
이 슬라이드는 PyCon KR 2019의 발표 슬라이드입니다. ( https://www.pycon.kr/program/talk-detail?id=138 )
[웨비나] Follow me! 클라우드 인프라 구축 기본편 - 강지나 테크 에반젤리스트NAVER CLOUD PLATFORMㅣ네이버 클라우드 플랫폼클라우드에서 인프라 구축 시 고려해야 할 사항들을 살펴보고, 네이버 클라우드 플랫폼을 활용하여 고가용성을 유지하는 방안에 대해 소개합니다. | Explore the considerations of building infrastructure in the cloud and introduce ways to maintain high availability by leveraging the Naver cloud platform.
Detecting Somatic Mutations in Impure Cancer Sample - Ensemble ApproachHong ChangBumThe document describes an ensemble approach for detecting somatic mutations in impure cancer samples. It details the benchmark data set used from TCGA, which includes BAM files for a tumor sample that is 50% tumor cells and 50% normal cells mixed. It then outlines several commonly used somatic mutation callers - SomaticSniper, VarScan2, MuTect - and applies them to the data set. The results from the different callers are then combined using various filtering and consensus approaches to generate a high confidence list of somatic mutations for validation.
Custom TTS using multi-speaker-tacotron(nanheekim)Nanhee Kim@NanheeKim @nh9k
질문이 있으면 언제든지 연락주세요!
Please, feel free to contact me, if you have any questions!
github: https://github.com/nh9k
email: kimnanhee97@gmail.com
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링OpenStack Korea Community- 발표자: 고려대학교 임재민
- 자료: /openstack_kr/openinfra-days-korea-2018-track-4-grafana-openstack
Machine Learning Model Serving with Backend.AIJeongkyu Shin머신러닝 모델을 서비스 단에서 서빙하는 것은 손이 많이 갑니다.
서비스 과정을 편리하게 하기 위하여 TensorFlow serving 등 서빙 과정을 돕는 다양한 도구들이 공개되고 개발되고 있습니다만, 여전히 서빙 과정은 귀찮고 불편합니다. 이 세션에서는 Backend.AI 와 TensorFlow serving을 이용하여 간단하게 TensorFlow 모델을 서빙하는 법에 대해 다루어 봅니다.
Backend.AI 서빙 모드를 소개하고, 여러 TF serving 모델 등을 Backend.AI 로 서비스하는 과정을 통해 실제로 사용하는 법을 알아봅니다.
Serving the machine learning model at the service level is a lot of work. A variety of tools are being developed and released to facilitate the process of serving. TensorFlow serving is the greatest one for serving now, but the docker image baking-based serving process is not easy, not flexible and controllable enough. In this session, I will discuss how to simplify the serving process of TensorFlow models by using Backend.AI and TensorFlow serving.
I will introduce the Backend.AI serving mode (on the trunk but will be official since 1.6). After that, I will demonstrate how to use the Backend.AI serving mode that conveniently provides various TensorFlow models with TensorFlow serving on the fly.
JMI Techtalk : Backend.AILablup Inc.Just Model It 이벤트에서 사용할 Backend.AI 에 관한 소개입니다. Backend.AI의 개괄, 주요 기능 및 사용예들을 다룹니다. 또한 Backend.AI 를 이용한 End-to-end ML model 개발 시나리오도 소개합니다.
An Introduction to Backend.AI to use in Just Model It event. It covers the overview of Backend.AI, its main features and examples. It also introduces the scenario of developing end-to-end ML model using Backend.AI.
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색 BOAZ Bigdata데이터 엔지니어링 프로젝트를 진행한 YouPlace팀에서는 아래와 같은 프로젝트를 진행했습니다.
<aside>
이젠 검색도 유튜브 시대
제주여행을 계획할 때 브이로그 영상을 많이 참고하실텐데요
수많은 영상들과 영상 속 분산된 명소들을 하나 하나 찾으려 생각하면 막막하지 않으셨나요?
이러한 고민을 갖고 계신 분들을 위해, 유튜브 브이로거들이 찾아간 여행 명소들을 지도에서 한 눈에 파악할 수 있도록 만들었어요
(github : https://github.com/Boaz-Youplace)
16기 엔지니어링 고은서 | 중앙대학교 소프트웨어학부
16기 엔지니어링 류정화 | 성신여자대학교 융합보안공학과
16기 엔지니어링 송경민 | 국민대학교 소프트웨어학과
『빠르게 훑어보는 구글 클라우드 플랫폼』 - 맛보기복연 이조대협, 최명근, 최유석, 윤성재, 김영균 지음 | 한빛미디어 | 2016.09.10
구글 클라우드 플랫폼을 처음 사용하는 사람을 위한 실습형 입문서.
이 책은 구글 클라우드를 처음 사용하는 사람이 가상 머신(VM) 기반의 클라우드 서비스 기능들을 빠르게 사용할 수 있도록 도울 목적으로, 실습 위주로 속도감 있게 구성하였다.
구글 클라우드의 가상 머신 서비스인 컴퓨트 엔진을 사용하기 위해 가입부터 VM 설정, 네트워크 설정, 오토 스케일링(자동 확장)과 모니터링, 그리고 MySQL 매지니드 서비스인 Cloud SQL의 사용법을 소개한다. 마지막으로 구글 클라우드만의 장점인 빅데이터 서비스, 전 세계를 덮는 전용 네트워크망, 합리적인 가격 정책을 소개한다.
How to Oracle Ravello Cloud 200% utilize and use case suk kimOracle Ravello Cloud Service essential
Oracle Ravello Cloud Service - infrastructure demo & training system configuration
Oracle Ravello Cloud Service - security demo & training system configuration ( PenTest & Security Solution Training / Security monitoring training )
머신러닝 및 데이터 과학 연구자를 위한 python 기반 컨테이너 분산처리 플랫폼 설계 및 개발Jeongkyu Shin머신러닝 및 데이터 과학 분야의 컴퓨팅 수요는 해가 갈수록 급증하고 있습니다. 이와 더불어 분산처리 기술, 데이터 파이프라이닝 및 개발 환경 스택 관리 등의 관련된 다양한 이슈들 또한 엄청나게 늘어나고 있습니다. 머신러닝 모델의 기하급수적인 모델 복잡도 증가 추세와 마찬가지로, 모델 학습을 위한 환경 관리 또한 갈수록 복잡도가 높아지는 추세입니다.
이 세션에서는 이러한 문제를 해결하기 위해 python 언어 기반의 분산처리 스케쥴링/오케스트레이션 미들웨어 플랫폼을 개발한 4년간의 과정에서 겪은 다양한 문제들에 대해 다룹니다. 2015년 컨테이너 기반의 고밀도 분산처리 플랫폼 설계 및 프로토타이핑 과정을 PyCon KR에서 발표한 이후, 실제 구현 및 오픈소스화, 안정화를 거치며 겪은 다양한 기술적/비기술적 문제들에 대한 경험을 공유합니다.
기술적으로는 최근 몇 년 간의 클러스터 플랫폼 관련 기술의 진보와 함께 탄생한 다양한 도구들과, 이러한 도구들을 python 기반으로 엮어내기 위해 사용하고 개발한 다양한 오픈소스들을 다룹니다. Python 기반의 컨테이너 스케쥴링 및 오케스트레이션 과정의 구현과, 다양한 프로그래밍 언어로 만든 SDK를 graphQL을 이용하여 연동하는 과정에서의 몇몇 유의점을 설명합니다. 아울러 python 기반의 SDK를 다양한 언어로 포팅했던 경험을 간단하게 안내합니다.
플랫폼을 개발하는 중 등장한 TensorFlow, PyTorch 등의 다양한 머신러닝 프레임워크들을 도입하며 겪은 문제와 해결 과정에 대해서도 나눕니다. 연구 분야에는 Python 2.7 기반의 프레임워크들이 여전히 많습니다. 이러한 프레임워크 및 라이브러리의 지원을 위하여 Python 2 기반의 프레임워크와 Python 3.7로 구현한 컨테이너 인터페이스를 단일 컨테이너 환경에 중복 빌드 및 상호 간섭 없이 공존시키기 위해 개발한 아이디어를 소개합니다.
마지막으로 Python 기반의 프레임워크를 개발, 배포 및 상용화 하는 과정에서 겪은 다양한 어려움을 소개합니다. 솔루션을 배포 및 보급할 때 겪는 다양한 런타임, 하드웨어 환경 및 개인 정보 보호를 위한 폐쇄망 대상의 디플로이 등에 대응하기 위하여 Python 응용프로그램을 단독 실행용으로 패키징하는 과정에서 겪은 팁들을 설명합니다. 또한 GUI 빌드 및 Python, Go 및 C++을 함께 사용한 드라이버 가상화 레이어 개발 등의 내용도 살짝 다룹니다.
이 슬라이드는 PyCon KR 2019의 발표 슬라이드입니다. ( https://www.pycon.kr/program/talk-detail?id=138 )
[웨비나] Follow me! 클라우드 인프라 구축 기본편 - 강지나 테크 에반젤리스트NAVER CLOUD PLATFORMㅣ네이버 클라우드 플랫폼클라우드에서 인프라 구축 시 고려해야 할 사항들을 살펴보고, 네이버 클라우드 플랫폼을 활용하여 고가용성을 유지하는 방안에 대해 소개합니다. | Explore the considerations of building infrastructure in the cloud and introduce ways to maintain high availability by leveraging the Naver cloud platform.
Detecting Somatic Mutations in Impure Cancer Sample - Ensemble ApproachHong ChangBumThe document describes an ensemble approach for detecting somatic mutations in impure cancer samples. It details the benchmark data set used from TCGA, which includes BAM files for a tumor sample that is 50% tumor cells and 50% normal cells mixed. It then outlines several commonly used somatic mutation callers - SomaticSniper, VarScan2, MuTect - and applies them to the data set. The results from the different callers are then combined using various filtering and consensus approaches to generate a high confidence list of somatic mutations for validation.
Detecting Somatic Mutation - Ensemble ApproachHong ChangBumThis document discusses approaches for identifying somatic mutations from cancer sequencing data using multiple mutation callers. It compares several popular mutation callers, explores a simple consensus approach, and proposes an integrated ensemble approach. The ensemble approach applies multiple callers, filters using GATK, and assigns a ranking score to variants based on validation rates to generate a high-confidence list of somatic mutations. This strategy aims to leverage the strengths of different callers to improve accuracy over any single caller.
Genome Wide SNP Analysis for Inferring the Population Structure and Genetic H...Hong ChangBumStudy of genome-wide SNPs, mitochondrial DNA and Y-chromosomal DNA variation can provide a valuable information about the population structure and peopling of human populations. To explain a genetic homogeneity of Koreans and population structure of Koreans and the East Asian populations, we analyzed 153 individuals from the Korea and 77 individuals from the East Asia at 46,559 common single-nucleotide polymorphic loci. The 137 CHB and 113 JPT individuals at 25,769 common SNPs from the International HapMap project were further analyzed to reveal the population structure of the East Asians. Principal Component analyses (PCA) and population differentiation ( ) are examined. In the PCA test, the Jeju individuals were slightly different from other Koreans but their values were not significant. This reflect the genetic homogeneity of Korea population. In general, all the individual samples studied here were clustered into subset of ethnic origin according to their geographical location except Mongolians. Whole genome sequencing of Koreans and other population genome by next generation sequencing technology will provide great opportunity to understand the population expansion and peopling of Korea better.
Galaxy RNA-Seq Analysis: Tuxedo ProtocolHong ChangBumThis document provides an overview of analyzing RNA-Seq data using the Tuxedo protocol in Galaxy. It describes experimental design considerations, quality control of sequencing data using FastQC, mapping reads to a reference genome using Tophat, determining differential expression with Cuffdiff, and visualizing results using IGV and CummeRbund. The tutorial walks through an example analysis on Drosophila melanogaster RNA-Seq data, covering topics such as setting file formats, running alignment and expression tools, extracting workflows, and useful Galaxy resources.
Workshop 2011Hong ChangBumThis document provides an overview of using the STRUCTURE software to analyze population structure from genetic data. STRUCTURE is a model-based clustering method that detects underlying genetic populations among individuals genotyped at multiple markers. It takes genotype data as input and computes the proportion of each individual's genome originating from inferred populations. The document discusses input format, parameter configuration, running single and batch runs, and analyzing results to infer the true number of populations.
BioSMACK - Linux Live CD for GWASHong ChangBum1. BioSMACK is a Linux Live CD customized for analysis of genome-wide association studies (GWAS).
2. It provides pre-compiled, installed and configured software for GWAS analysis like PLINK, EIGENSTRAT, STRUCTURE, and others from a bootable CD/USB without installing on the hard disk.
3. Future works include supporting cloud and cluster computing for parallel GWAS analysis on large datasets.
Next-generation genomics: an integrative approachHong ChangBumThis document summarizes a presentation on next-generation genomics and integrative analysis. It discusses the types of genomic data available from techniques like genome sequencing, RNA sequencing, ChIP-seq, and epigenomics. It explains that integrative analysis can help annotate functional features, infer variant function, and understand gene regulation. Approaches to integration include data reduction, unsupervised clustering, and supervised Bayesian networks. Large-scale datasets can be accessed through browsers, add-ons, and standalone tools to generate novel hypotheses. Future work includes more integrated community resources with search capabilities.
worldwide populationHong ChangBumThis document summarizes a study that analyzed population differentiation at disease-associated SNPs in over 1,000 individuals from 53 global populations. The study genotyped 25 SNPs related to 6 complex human diseases in populations from 7 geographic regions. It found genetic differentiation between populations, with some SNPs showing strong differentiation within East Asia or between Korea and Jeju Island. Allele frequencies of disease SNPs varied between populations and were not always predictive between races. The study also examined selection resources to identify signals of selection, like thicker hair, and found differences in selected regions between East Asia, Middle East and Europe. It concluded that analyzing a large number of populations can help replicate findings and better characterize allele frequency differences globally.
Perspectives of identifying Korean genetic variationsHong ChangBumThis document summarizes research on identifying genetic variations in the Korean population using single-nucleotide polymorphisms (SNPs). It describes analyzing the population structure based on SNP genotypes, using SNPs to determine kinship, and identifying monozygotic twins using copy number variations (CNVs). It also discusses using SNPs to study physical traits in Koreans and developing ancestry informative markers and a database of genomic variants for Korea.
Genome Browser based on Google Maps APIHong ChangBumThe document discusses using the Google Maps API to embed maps on web pages. It allows users to manipulate maps and add content. Key details include how to position maps using longitude and latitude coordinates, how genomic sequence data is tiled into images at different zoom levels, and how those images are named algorithmically based on their position. Components like panels and a search box for interacting with the embedded map are also mentioned.
Korean Database of Genomic VariantsHong ChangBumThe document describes the Korean Database of Genomic Variants (KDGV), which is available online at http://ksnp.cdc.go.kr. It was established in 2009 to catalog genomic variants in the Korean population. The KDGV integrates data from other Korean genomic databases including KSNP, KARE, and GWASaid to provide information on SNPs, genes, and genomic regions of interest. It allows users to search and browse genomic data through the customizable genome browser interface.
Dt CcompanieslistHong ChangBumThis document provides an overview of various direct-to-consumer genetic testing companies and the types of genetic tests they offer. It shows that 23andMe, DeCODE, Navigenics, and Knome offer the widest range of tests related to health, traits, and ancestry. Most companies focus on specific health conditions like cancer, cardiovascular disease, or pharmacogenomics. The tests range from single gene tests to more comprehensive scans of parts of the genome.
DTC Companies ListHong ChangBumDirect-to-Consumer Genetic Testing Companies is a document that lists various genetic tests that can be obtained directly from companies without a doctor. It includes tests related to health conditions like cardiovascular disease, diabetes, osteoporosis, cancer, and neurological disorders. The document also lists tests for traits like athletic performance and tests targeted at certain ethnic populations like those of Ashkenazi Jewish descent.
My ProjectHong ChangBumThis document discusses genomic variation research and personalized medicine. It mentions tools used for sequence alignment, database management, text analysis, and machine learning algorithms. Genome browsers and clusters are referenced as computational resources. Challenges around analyzing large genomic datasets within reasonable timeframes are also noted.
Genome BrowserHong ChangBumThis document discusses GenomeBrowser. It mentions that the UCSC Human Genome Browser receives 50,000 hits per day and 3,000 users per day, while another receives 1,257 hits per day and 10 users per day. It also discusses various features of GenomeBrowser like being lightweight, configurable, and promoting data sharing.
GenomeBrowserHong ChangBumThe document discusses Genome Browser, a lightweight and portable genome browsing software. It can be configured and customized easily. It promotes data sharing through tracks and supports the Distributed Annotation System (DAS) for adding third-party data. The software uses common bioinformatics libraries and has easy installation methods for various operating systems.
2. 클라우드를 이용한 교육 실적
• 농진청 (2014)
1. Galaxy 기반 DNA/RNA-Seq 교육
2. De-novo 교육
• EBI –Workshop (2014)
1. ChIP-seq, Epigenome 분석
• 통계 유전학 워크샵 (2013-2014)
1. 리눅스 교육
• 동계 유전체학회 (2015)
1. Somatic Mutation 교육
2. R 기반의 Visualization 교육
• KOBIC 차세대 생명정보학 교육 (2015)
1. DNA/RNA-Seq교육
2. R 기반의 유전체 분석 교육
2015/4/8 2
3. 클라우드 장점
• 교육자 관점
1. 한번 설정한 서버 환경을 언제나 활용 가능 (1년 후에도 다시
동일한 교육환경을 바로 만들 수 있음)
2. S/W 설치시 교육생 환경에 따른 디버깅 필요 없음
3. 교육생 모두 100% 동일한 실습 환경 제공 가능
4. 데이터전달을 위한 USB나 버추얼 환경(이미지) 필요 없음
• 교육생 관점
1. 복잡한 S/W 설치 및 설정 과정 없이 바로 실습 가능
2. 예제 데이터를 다운로드 필요없이 바로 실습 가능
3. 교육기간내에 언제 어디서든지 실습 가능
4. 교육후에도 얼마간 교육생들에게 실습 공간 제공
2015/4/8 3
4. 교육사례: Galaxy 교육
• 교육내용
1. Galaxy를 이용한 NGS 데이터 분석 (DNA/RNA)
• 제공내용
1. Galaxy가 설치된 클러스터 컴퓨터
2. 8core 16GB x 30대
3. KT에서 미리 제공되는 Galaxy 이미지를 활용
4. 교육생에게 발급할 Galaxy 계정 생성
5. 교육당일 galaxy 접속 주소와 계정을 할당
6. 웹을 이용하여 galaxy 접속
2015/4/8 4
5. 교육사례: De-novo 교육
• 교육내용
1. De-novo 에셈블리 교육
• 제공내용
1. 16 core 128 GB의 대용량 메모리 서버 1대
2. 16 core 32 GB 29대
3. 교육자가 교육 1주전 직접 서버 환경 설정 (S/W 설치 등)
4. 환경설정된 서버 1대를 이미지화 (1일)
5. 29대의 서버를 이미지를 이용하여 설정 (1일)
6. SSH를 통해 터미널 접속
2015/4/8 5
6. 교육사례: EBI Workshop
• 교육내용
1. ChIP-Seq, Epigenome 데이터 분석
• 제공내용
1. EBI에서 요구하는 S/W 설치 (약1주)
2. 설치가 완료된 서버에 대해서 이미지 작업 수행 (1일)
3. 동시에 30대의 서버를 동일한 환경으로 생성 (1일)
4. 8core 16GB x 30대
5. 서버 1대에 교육생 2명씩 할당하여 사용
6. 교육생은 원격접속 S/W를 이용하여 IGV 등 그래픽 환경 사용
2015/4/8 6
7. 교육사례: R 교육
• 교육내용
1. R을 이용한 NGS 데이터 분석
• 제공내용
1. R 패키지 설치 (약1주)
2. 설치가 완료된 서버에 대해서 이미지 작업 수행 (1일)
3. 동시에 30대의 서버를 동일한 환경으로 생성 (1일)
4. 8core 16GB x 30대
5. 서버 1대에 교육생 2명씩 할당하여 사용
6. 교육생은 R Studio Server를 이용하여 웹을 통해 R 코드 작성
및 그래프 확인
2015/4/8 7
8. 교육을 위한 서버 체크 리스트
• 교육생당 서버 자원 (cpu, disk)
1. 교육에 필요한 분석 시간 고려하여 cpu, memory 결정
2. 분석 데이터(예제 데이터 + 교육생 생성 데이터)의 크기에 따라
공유 디스크 (TB급) or 로컬 디스크 (80GB) 결정
• S/W
1. Ubuntu 12.04 기반에서 S/W 설치
• 접속방법
1. SSH, 원격데스크탑, 웹
2015/4/8 8
9. 클라우드를 활용한 실습 요청서
2015/4/8 9
OS Ubuntu 12.04 64bit (리눅스)
서버사양
[ ] 4/8
[ ] 8/16
[ ] 8/60
[ ] 16/124
서버당 실습생 __명/1대
서버 대수 총 __ 대
예제 데이터 디스크 용량 __GB
사용자 디스크 용량 __GB
접속 방법
[ ] SSH
[ ] FTP
[ ] WEB
[ ] R-Studio Server
[ ] Remote Desktop
설치 S/W 목록
10. 클라우드를 이용한 교육 프로세스
• 이미지 생성을 위한 서버 제공
1. Ubuntu 12.04 기반
2. S/W 및 라이브러리 설치 (path 지정)
3. 예제 데이터 저장
• 이미지 생성 (1일)
• 서버당 가능한 실습 인원 파악 (1인당 8/16)
1. 1인당 8core 16GB 1대씩 제공
2. 또는 16core 32 GB를 통해 서버당 2명씩 접속
• 이미지를 통해 다수의 동일한 환경의 서버 생성 (1일)
• 교육에 활용할 접속 주소, 아이디/암호 리스트 전달
2015/4/8 10
11. 2015/4/8 11
S/W
템플릿이 될 마스터 서버 제공
S/W, 예제 데이터 저장 (80 GB내)
S/W
S/W와 예제 데이터가 설정된 서버 제공
예제 데이터 디스크 (80 GB)
추가 디스크 (사용자 데이터 GB x 서버당 교육생수)
Sample DATA
Sample DATA
User DATA
S/W
Sample DATA
User DATA
S/W
Sample DATA
User DATA
12. 2015/4/8 12
S/W
템플릿이 될 마스터 서버 및 별도의 공유 디스크 제공
S/W, 예제 데이터 저장
S/W
S/W와 예제 데이터가 설정된 서버 제공
예제 데이터 디스크 (80 GB)
추가 디스크 (사용자 데이터 GB x 서버당 교육생수)
Sample DATA
User DATA
S/W
User DATA
S/W
User DATA
Sample DATA
읽기만 가능
13. KT 지원
• S/W 설치 지원
• 마스터 서버에 설정이 완료되면 원하는 대수 만큼 서버 생성
지원
• 사용자 계정 생성 지원
• 접속 환경 지원 : ssh (기본), ftp, web(r-studio server,
ipython notebook)
2015/4/8 13