狠狠撸

狠狠撸Share a Scribd company logo
IBM ミドルウェア?ユーザー研究会
IBM User Group Conference 2020
Watson Discoveryによる回答の適切性改善
JIMUC API & 奥补迟蝉辞苍ナレッジベース分科会
Elementum Consulting LLC 増田 和紀
2020年6月25日
IBM ミドルウェア?ユーザー研究会
Japan IBM Middleware User Community (JIMUC)
IBM ミドルウェア?ユーザー研究会(JIMUC) は、 Cloud Software 製品とそのソリューションの有効活用を指向して、
ユーザー間および日本アイ?ビー?エムとの情報交換を通して研鑚と交流を図り、会員相互の共通の利益を追求する
ために結成した非営利団体です。
IBMミドルウェア?ユーザー研究会 紹介
利用
ユーザー
取扱
パートナー
IBM
クラウド
ソフトウェア
総会
テーマ別分科会
海外研修派遣
オープン?セミナー
Web???
News配信
分科会ー毎月開催
?先進IT運用管理分科会(15 名/13社)
?API & Watson ナレッジベース分科会(26名/15社)
英語塾-毎月2回
IBM Champion 21名
50社 約600
名
IBM ミドルウェア?ユーザー研究会
Discoveryテストについて
80点の適切性で、結果?回答が出来るか。
IBM ミドルウェア?ユーザー研究会
80点とは?
質問
回答
回答6
回答7
回答8
回答9
回答10
回答1
回答2
回答3
回答4
回答5
? 平均して、回答2に、欲しい情報が返される。
Watson Discovery
プリウスの適正な空気圧
を教えてください。
前輪 260
後輪 250
IBM ミドルウェア?ユーザー研究会
KGI
KPI
KPI KPI
KPI
KPI KPI
業務を改善するWatson
? Discoveryの業務改善を測定可能にする。
ヘルプデスク
平均応答時間が1/2に
適切な個所が表示されるまで
の操作時間は、30秒以内
自然文の質問から、文書の
適切な個所が3番目以内に
表示される。
IBM ミドルウェア?ユーザー研究会
? オープンデータを使って、Discoveryのテスト
? オープンデータの投入
? テスト方法の検討
? テストの分担
? テストの記録方法(KPI)
? Prius取扱書を使用し、質問と回答のセットを手分けして作成、
Discovery上でテストを実施した。
KPIを測定する。
PRIUS取扱書 688 Page
IBM ミドルウェア?ユーザー研究会
?50点 100問の平均
?実用化には、30点不足している!
テスト結果(11/20)
50点
80点
ギャップ
誰が質問する
かによって、大
きく異なる。
IBM ミドルウェア?ユーザー研究会不適切な回答に着眼 原因と対策協議
Discoveryで
用意されている対策
照会拡張 言葉を言い換える
ストップワード 不要な用語を使わない
Smart Document
Understanding
ドキュメントの目次、タイトル、
本文などを認識
Watson Knowledge
Studio
専門用語を認識
機械学習 (Relevancy
Training)
Q&A関連性を学習させる
IBM ミドルウェア?ユーザー研究会
? 両方向
? 単一方向
Discoveryで用意された対策 照会拡張
IBM
International
Business Machines
Big Blue
りんご
シナノゴールド
フルーツ
https://cloud.ibm.com/docs/services/discovery?topic=discovery-query-concepts&locale=ja
※JSONで定義可能
{
"expansions": [
{
"expanded_terms": [
"ibm",
"international business machines",
"big blue"
]
}
]
}
表現の揺れを
カバーする。
IBM ミドルウェア?ユーザー研究会
? ストップワードとは、ほとんど意味がないので照会から除外するワードのことです。
例えば、a、an、the などです。 ストップワード?リストに一般的なワードを追加す
ると、自然言語照会に対する結果の関連性も向上します。
? Japanese default stopword list
の、に、は、を、た、が、で、て、と、し、れ、さ、ある、いる、も、する、から、な、こと、として、い、や
、れる、など、なっ、ない、この、ため、その、あっ、よう、また、もの、という、あり、まで、られ、なる
、へ、か、だ、これ、によって、により、おり、より、による、ず、なり、られる、において、ば、なかっ、
なく、しかし、について、せ、だっ、その後、できる、それ、う、ので、なお、のみ、でき、き、つ、にお
ける、および、いう、さらに、でも、ら、たり、その他、に関する、たち、ます、ん、なら、に対して、特
に、せる、及び、これら、とき、では、にて、ほか、ながら、うち、そして、とともに、ただし、かつて、そ
れぞれ、または、お、ほど、ものの、に対する、ほとんど、と共に、といった、です、とも、ところ、ここ
※おそらく、“~について、知りたい。 ~を教えてください。”なども意味がない。
Discoveryで用意された対策 ストップワード
https://cloud.ibm.com/docs/services/discovery?topic=discovery-query-concepts&locale=ja
IBM ミドルウェア?ユーザー研究会
Smart Document Understanding
SDU では、文書内のフィールドに注釈を付けることでカスタム変換モデルをトレーニ
ングします。 ユーザーが注釈を付けることで、Watson は学習を行い、注釈の予測
を開始します。 SDU モデルは、エクスポートして他のコレクションで使用することがで
きます。
https://cloud.ibm.com/docs/services/discovery?topic=discovery-sdu&locale=ja
IBM ミドルウェア?ユーザー研究会
? 目的
? 質問とドキュメントの関連性を学習させ、適切性を改善する。
? 手法
1.ツールを使用した結果関連性の改善
2.API を使用した結果関連性の改善
? 考え方
? Retrieve & Rankと同じ
機械学習(Relevancy Training)
回答f
回答g
回答h
回答i
回答j
回答a
回答b
回答c
回答d
回答e
質問:パノラミックビュー
モニターを使用するときの
注意点を教えてください。
IBM ミドルウェア?ユーザー研究会
?66.4点 110問の平均
?目標は達成できず。
?実用化には、あと13.4点不足!
最終テスト結果(6/17時点)
50点
80点
ギャップ
54点
11/20 12/18
62.3点
1/22
64.2点
4/15
66.4点
6/17
IBM ミドルウェア?ユーザー研究会
Discoveryで
用意されている対策
照会拡張 言葉を言い換える 効果あり
ストップワード 不要な用語を使わない
実施せず
(影響が小さい。)
Smart Document
Understanding
ドキュメントの目次、タイトル、
本文などを認識
実施できず
(ドキュメントが大きすぎる。)
Watson Knowledge
Studio
専門用語を認識
実施せず
(次年度のテーマ)
機械学習 (Relevancy
Training)
Q&A関連性を学習させる 効果あり
110問中、25問については、三位以内に回答を上げることは出来なかった。
対策後の状況
×
-
IBM ミドルウェア?ユーザー研究会
Briana Walker
2020-03-27 05:34:43
Hello Kazuki-san,
I am today to provide an update on the status of this issue. The investigation into your problem
experience is still on-going, and we are continuing to work with the development team towards a
fix/resolution. As more details become available, we will communicate them to you directly via the
support ticket.
Thank you for your patience as we pursue resolution on this matter.
Rich Langan
2020-04-22 22:55:37
Close notes: Hello - This issue is being prioritized by our internal technical teams for a future
release. Tracked internally via -
https://github.ibm.com/Watson-Discovery/disco-support/issues/164
不要なSPACEの対応状況
ここに入れない。
(^^;
IBM ミドルウェア?ユーザー研究会
? Synonymで言葉をむりやり言い換えることはしなかった。
? 質問文をマニュアルの記述に近づけれることはしなかった。
? 不要なスペースの問題が、解決されれば、おそらく点数は上がる。
? 機械学習により、三位を一位、二位に上げることが恐らくできる。
? 一回の対話だけで、80点を出すことは難しく、関連するキーワードを表示するなどして、複数の対話で、
必要な情報を三位以内に上げるなどAP上の考慮が必要となる。
? 専門分野を扱うデータの場合は、Knowledge Studioの辞書、エンティティ、リレーションがさらに有効に
機能する。
振り返り
IBM ミドルウェア?ユーザー研究会
? 企業の中で埋もれている専門知識と、Discovery+Watson Knowledge
Studioの利用
? 企業の中には、コールセンターのQ&A、工場の機械故障?原因?対策、事故情
報?原因?対策など、RDB化されたり、エクセルシートで格納された半構造化デー
タが蓄積されている。
? ここで言う半構造化データとは、PDFやワード文書ではない、一件一葉のレコード
としての構造化データではあるが、事故、原因、対策等は、テキストとしての非構
造化データであり、組み合わせて使われているものを指す。
? このような半構造化データを、自動的にNLCなどを使って分類し、統計的にデータ
を抽出できるようにし、自然言語検索で、事故情報から、原因を抽出することがで
きるはずである。
2020年度 API & Watson Knowledgebase分科会
IBM ミドルウェア?ユーザー研究会
API & 奥补迟蝉辞苍ナレッジベース分科会

More Related Content

Jimuc watson iugc2020