How to organize data science project (データサイエンスプロジェクトの始め方101)Yasuyuki Kataoka
?
(Japanese) This is some tips on how to organize artificial intelligence or machine learning projects. This is presented in the engineering community event, NTT Engineer Festa#3, in Japan.
オープンコミュニティ「要求開発アライアンス」(http://www.openthology.org)の2011年6月定例会発表資料です。
Open Community "Requirement Development Alliance" 2011/6 regular meeting of the presentation materials.
3. 開発と運用の境界の希薄化
開発(design time)と運用(run time)の境界が様々な分野で薄れてきている。
? Web/クラウド
– カナリアリリース、β版
– Phased rollout, A/B testing
? 米軍
– “Developing certifiable V&V methods for highly adaptive autonomous systems is
one of the major challenges … “
US Air Force Technology Horizons – A vision for Air Force Science and
Technology 2010-2030 (https://apps.dtic.mil/dtic/tr/fulltext/u2/a562237.pdf)
? 自動車
– 自動運転の安全性検証プロジェクト
PEGASUS Research Project: https://www.pegasusprojekt.de/en/home
3
7. CPS(Cyber Physical Systems)
? CPS(Cyber Physical Systems): コンピューター上に実世界をモデル化し、分析で
きるようにする。
a. 実世界の情報をセンサーやカメラから得る。
b. 得られた情報から傾向分析、予測、現状把握をする。
c. 傾向分析、予測、現状把握の結果を実世界にフィードバックする。
7
実世界 データ/モデル化
a. 情報を得る
b. 分析、予測、把握
c. フィードバック
10. 開発活動のデータとアナリティクスの3原則とアンチパターン
a. 情報が適切である。
– × 知りたいこととは違う情報を得ている。
b. 分析、予測の結果行動に移せる。
– × 良くない状況が観測されても対策しづらい。
c. 行動に協力を得られる。
– × 報告を加味せず判断する(判断側)、基準が適切でない(情報提供側)。
10
a. 情報を得る: 適切か?
b. 分析、予測、把握: 行動に
移せるか?
c. フィードバック: 協力を得られるか?
11. 事例1: ソースコード規模遷移による進捗共有
? 対象: 研究用統計ツールの委託開発(C言語/20KLOC)
? データ: 機能ごとのソースコード規模遷移のグラフをみながら、委託者?受託者が
開発の情報共有をする。
? 目的: 開発途中段階のツールでの分析結果を論文として投稿する。
ソフトウェア開発 データ/モデル化
a. 機能ごとのソースコード規模遷移
b. どの機能を優先して開発する
か決める
c. 機能の開発に割り振る
時間を変える