2. 1
言語処理学会第29回年次大会 (NLP2023) 緊急パネル:ChatGPTで自然言語処理は終わるのか? ||| Jun Suzuki ||| 2023.03.14
l 詳細は未公開 (2023.03.14 緊急パネル当日現在)
l 主にOpenAIが公式に公開している文書 (blog記事, 論文,
preprint) から得られた情報を掲載
l 一部 新聞社の報道記事, ChatGPTの作成に関与したっぽい人の
Twitter投稿 などの情報も含む (但し書きあり)
l 注意点
l 元の情報源に誤りがある場合もありえる
=> 本資料の情報が100%正しいことは担保はできない
l 情報の更新が早いので時間とともに正しくなくなるかも
l 憶測などは (結果としてそれが事実でも) 含めていない
ChatGPTの作成元である
3. 2
言語処理学会第29回年次大会 (NLP2023) 緊急パネル:ChatGPTで自然言語処理は終わるのか? ||| Jun Suzuki ||| 2023.03.14
ChatGPT とは?
l (人間の直感に合う)
対話形式のプロンプトを受け付ける言語モデル
一言で言うと
l 対話形式 => 暗にマルチターンのプロンプトエンジニアリングが可能なことを示唆
l 「対話(チャット)」に最適化 <=> これまでは「文章の補完」に最適化
https://chat.openai.com/chat
4. 3
言語処理学会第29回年次大会 (NLP2023) 緊急パネル:ChatGPTで自然言語処理は終わるのか? ||| Jun Suzuki ||| 2023.03.14
なにがすごいの?
l モデル/サービスの客観的な評価がないので...
l ChatGPTのすごさ (注目度) を説明する根拠
l ChatGPT sets record for fastest-growing user base
(Reutersの記事から取得)
http://reuters.com/technology/chatgpt-sets-record-fastest-growing-user-base-analyst-note-
2023-02-01/
l 月間アクティブユーザー数1億達成:2ヶ月
l (=> 何かユーザーの心にささったので利用されたと考えられる)
TikTok
9ヶ月
Instagram
2年半
5. 4
言語処理学会第29回年次大会 (NLP2023) 緊急パネル:ChatGPTで自然言語処理は終わるのか? ||| Jun Suzuki ||| 2023.03.14
利用に関して
l 利用方法:現在大きく3種類
l Webブラウザ経由(無料版)https://chat.openai.com/chat
? 2022.11.30 開始
l 上の有料版 https://chat.openai.com/chat 最初は左下の Upgrade to Plus をクリック
? 2023.02.01 開始 月額$20
l API https://openai.com/api/
? 2023.03.01 開始 $0.0002 / 1000 token
l データ再利用の規約 https://openai.com/policies/api-data-usage-policies
l 有料版/APIはモデルの学習には使われない
l 但し不正利用や監視目的で一定期間保存 かつ みられる可能性
8. 7
言語処理学会第29回年次大会 (NLP2023) 緊急パネル:ChatGPTで自然言語処理は終わるのか? ||| Jun Suzuki ||| 2023.03.14
ややこしい事情②
l 時間と共にどんどん変わる
l 1月以降ぐらいからChatGPT分析論文が
arXivに多くの投稿
? 例:A Multitask, Multilingual, Multimodal
Evaluation of ChatGPT on Reasoning,
Hallucination, and Interactivity
– https://arxiv.org/abs/2302.04023
l (注意) 12月から2月までの検証論文の
結果は現在のモデルに当てはまらない
可能性
リリースノート
https://help.openai.com/en/articles/6825453-chatgpt-release-notes
9. 8
言語処理学会第29回年次大会 (NLP2023) 緊急パネル:ChatGPTで自然言語処理は終わるのか? ||| Jun Suzuki ||| 2023.03.14
Limitations
l OpenAIが公式に出している制約
l もっともらしく聞こえるが不正確/無意味
な回答をすることがある
l 入力された文章の変化に敏感
? 少しの変化で全然違うことを言う 答えられ
たり知らないといったり
l 過剰に冗長な出力を返すことがある
l 本来曖昧な質問には質問することが理想だ
が現状はユーザーの意図をなんとか推測(?)
して回答する
l 不適切なリクエストを拒否するように工夫
しているが有害な入力文に回答してしまう
ことがある
https://openai.com/blog/chatgpt/
10. 9
言語処理学会第29回年次大会 (NLP2023) 緊急パネル:ChatGPTで自然言語処理は終わるのか? ||| Jun Suzuki ||| 2023.03.14
影響/波及効果 使用禁止
l 論文執筆
l 共同声明:「AIツールを論文の著者として記載することはでき
ない」
l 教育現場
l 日経新聞 2023.03.06
「ChatGPT、米国の学校に波紋 「思考奪う」「新潮流」」
l 企業 (情報漏洩の観点)
l 日経新聞 2023.03.12
「ChatGPT 、などが利用制限 ルール作り急ぐ」
https://publicationethics.org/cope-position-statements/ai-author
(参考) ACL-2023:AIアシスタントの利用を申告
https://2023.aclweb.org/blog/ACL-2023-policy/
https://www.nikkei.com/article/DGXZQOUC069HD0W3A300C2000000/
https://www.nikkei.com/article/DGXZQOGN02EEV0S3A200C2000000/
17. 16
言語処理学会第29回年次大会 (NLP2023) 緊急パネル:ChatGPTで自然言語処理は終わるのか? ||| Jun Suzuki ||| 2023.03.14
謎 その3
l ChatGPT は InstructGPT と同等の処理で構築したと
説明されているが...
実際の生成文章の適切さ
text-davinci-003 (InstructGPT相当) < gpt-3.5-turbo (ChatGPT)
と感じる
=> この違いはなぜ生じているのか?
l 仮説1: 強化学習に用いた学習データの量が違う?
l 仮説2: 用いたデータがたまたまうまくいっているだけ?
18. 17
言語処理学会第29回年次大会 (NLP2023) 緊急パネル:ChatGPTで自然言語処理は終わるのか? ||| Jun Suzuki ||| 2023.03.14
LLM+Instruction tuning 民主化の動き
l BLOOMZ(&mT0) : Crosslingual Generalization
through Multitask Finetuning
l 学習済みモデル
? 560Mから7.1BモデルまでのChatGPTと比較して小さなモデルが
HuggingFace Model Hub に公開済み
560M: https://huggingface.co/bigscience/bloomz-560m
1.1B: https://huggingface.co/bigscience/bloomz-1b1
1.7B: https://huggingface.co/bigscience/bloomz-1b7
3B: https://huggingface.co/bigscience/bloomz-3b
7.1B: https://huggingface.co/bigscience/bloomz-7b1
176B: https://huggingface.co/bigscience/bloomz
https://arxiv.org/abs/2211.01786
19. 18
言語処理学会第29回年次大会 (NLP2023) 緊急パネル:ChatGPTで自然言語処理は終わるのか? ||| Jun Suzuki ||| 2023.03.14
LLM+Instruction tuning 民主化の動き
l OPT-IML: Scaling Language Model Instruction
Meta Learning through the Lens of Generalization
l 学習済みモデル
? OPT-IML 30B はHuggingFace Model Hub に公開済み
? 175B モデルはリクエストベース (公開されていない)
https://huggingface.co/facebook/opt-iml-30b
https://arxiv.org/abs/2212.12017
20. 19
言語処理学会第29回年次大会 (NLP2023) 緊急パネル:ChatGPTで自然言語処理は終わるのか? ||| Jun Suzuki ||| 2023.03.14
LLM+Instruction tuning 民主化の動き
l OpenChatKit
l デモ
l 学習済みモデル
l 20 B Model
l 4300万インストラクションで学習
l HuggingFace Model Hub で公開済み
https://huggingface.co/togethercomputer/GPT-NeoXT-Chat-Base-20B
https://github.com/togethercomputer/OpenChatKit
https://huggingface.co/spaces/togethercomputer/OpenChatKit