狠狠撸

狠狠撸Share a Scribd company logo
日本語が話せる
オープンアクセス
大規模言語モデルの評価
2024/9/24
株式会社ノーザンシステムサービス
佐々木 優興
この発表について
オープンアクセス LLM
? 誰でも自由にダウンロードして利用できる LLM
2
大規模言語モデル (LLM; Large Language Model)
? 大量の言語を学習した AI モデル
? ChatGPT (OpenAI) などのベース
→ 日本語が話せるオープンアクセス LLM について
性能比較、回答傾向分析をした
※ この発表は、弊社で公開している下記記事を要約したものです
? https://qiita.com/wayama_ryousuke/items/105a164e5c80c150caf1
? https://qiita.com/wayama_ryousuke/items/50e36d0dcb37f8fb7dd8
? https://qiita.com/wayama_ryousuke/items/bd8522fda2a9e4b3c70a
目次
3
? オープンアクセス LLM の評価
? 調査の内容
1. 成績とモデルサイズ?学習データ量
2. 量子化モデル
3. 最近のオープンアクセスモデルの動向
? まとめと展望
4
自己紹介
主要業務: AI と地理空間データ( GIS )を中心とするソフトウェア開発、調査研究
ささき
佐々木 優興
ゆうき
株式会社ノーザンシステムサービス
研究開発部
https://github.com/yumemio
https://www.linkedin.com/in/yumemio
* Wayama et al. “Investigation to answer three key questions concerning plant pest identification and development of a practical identification framework”,
Computer and Electronics in Agriculture, 222 (2024), 109021
画像識別 AI を用いた農作物病害虫の自動診
断
はやぶさ 2 データ検索システム
オープンアクセス LLM の評価
5
1
LLM 小史
6
? Deep Learning
? 大量のデータを DNN に学習させ、知的タスクを遂行させる
? DNN: DNN の説明…
? 知的タスク : 言語理解、物体認識、文字起こし、…
? 言語モデル
? 言語に関するタスクを遂行できる DNN
? 感情推定、文章補完、会話、…
? Transformer
? 言語以外の分野(画像、音声など)でも利用される
[1] dvgodoy (2024) “Deep Learning Visuals”. GitHub: dvgodoy/dl-visuals. CC BY 4.0.
Transformer アーキテクチャ
(エンコーダおよびデコーダ) [1]
LLM 小史
7
? LLM (大規模言語モデル)
? 多数の計算資源を並列化して、
大量のテキスト情報を 巨大な言語モデルに学習させたもの
? スケーリング則
[1] Narayanan, Shoeybi et al. (2021) “Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM”. arXiv: abs/2104.04473
[2] Kaplan, McCandlish et al. (2020). “Scaling Laws for Neural Language Models”. CoRR. abs/2001.08361.
計算資源?データセット規模?パラメタ数と損失 [2]
主要な言語モデルのパラメタ数 時系列変化 [1]
オープンアクセス LLM
8
? オープンアクセス LLM :誰でもダウンロードして利用できる LLM
? オープンソースソフトウェアの LLM 版
? コスト、秘匿性などの面でメリット
? 主な開発元
? 海外 : Meta (Llama) 、 Mistral (Mistral) 、アリババ (Qwen) など
? 国内 : ELYZA (ELYZA-japanese-llama) 、 Preferred Networks (PLaMo) など
オープンアクセス LLM
9
? ノーザンシステムサービスの取り組み
? 日本語が話せるオープンアクセス LLM に注目
? ベンチマーク公称成績と性能実感の差異
→ 体系的な評価を実施
Qiita (エンジニア向け記事サイト)で公開
Qiita (https://qiita.com/wayama_ryousuke)
オープンアクセス LLM の性能調査
10
? 性能評価のしかた
? クローズエンド質問
? 利点 : 定量評価のしやすさ
知識量の計測に適する
? 欠点 : 人間が感じる「性能」との差異
? オープンエンド質問
? 利点 : 人間の性能実感に近いスコア
? 欠点 : 定量評価のコスト
(人間が回答評価した場合)
クマが海辺に行ってアザラシと友達になり、最終的には家に
帰るというプロットの短編小説を書いてください。
日本語では 2 つの漢字が組み合わさることで熟語となり、新
しい意味を持ちます。 新しく熟語を与えるので、その意味を
想像してみてください。
杯伝
? LLM-as-a-judge
? 性能のよい LLM ( GPT-4V など)が採点 → 平均点を算出
冷えたものを温まるのに使うものは?
1. 八百屋 2. 電子レンジ 3. 冷蔵庫 4. 収穫 5. 冷凍庫
電子機器で使用される最も主要な電子回路基板の事をなんと
言う?
1. 掲示板 2. パソコン 3. マザーボード 4. ハードディスク 5.
まな板
[1] Yahoo! Japan “JCommonSenseQA” (https://github.com/yahoojapan/JGLUE)
[2] ELYZA “ELYZA-tasks-100” (https://docs.google.com/spreadsheets/d/1mtoy4QAqDPk2f_B0vDogFoOrbA5G42DBEEHdqM4VmDI/edit#gid=1023787356)
設問例( J-
CommonSenseQA )
設問例( ELYZA-tasks-100 )
成績とモデルサイズ?学習データ量
11
2
12
成績とモデルサイズ?学習データ量
? スケーリング則
? データ?計算資源?パラメタのどれが寄与するのか?
? 手法 : オープンエンド質問ベンチマーク( ELYZA-tasks-100 )の質問を
「日本語が話せる」オープンアクセス LLM に回答させる
GPT-4V で採点し、平均点を算出
[1] Kaplan, McCandlish et al. (2020). “Scaling Laws for Neural Language Models”. CoRR. abs/2001.08361.
計算資源?データセット規模?パラメタ数と損失 [1]
13
成績とモデルサイズ?学習データ量
モデルの大きさ(パラメタ数、 x 軸)
と平均得点( y 軸)の相関
? モデルが大きくなると性能は上がる
? 同じモデルサイズでも性能差が大きい
? 学習データ量?質の差では?
モデルの大きさと平均得点
14
成績とモデルサイズ?学習データ量
モデルの大きさ(パラメタ数、 x 軸)
と平均得点( y 軸)の相関
モデルの大きさと平均得点 次に読むべき SF を 10 冊挙げて
設問
以下は、 SF ファンにとって絶対に読むべき 10 冊の中から選んだもの
です。
1. 『さらば、宇宙の戦士』( Arthur C. Clarke ):冒険的なテーマと
先進技術が絶妙に調和した作品。
2. 『ドラキュラの娘』( Dracula's Daughter ):ファンタジー SF と
ホラーの境界を描いた不朽の作品。
…
回答 (Xwin-LM-7B-V0.1)
以下は、今後読むべき SF10 冊のリストです。これらの作品は、古典
的な名作から現代のベストセラーまで、さまざまな時代とジャンルを
代表しています。
1. 『フランケンシュタイン』( Mary Shelley ) - この古典的なゴ
シック SF 小説は、 1818 年に発表されました。研究者が死と再生の境
界線を越えて造り出したクリーチャーとその創造主との関係を描いて
います。 2. 『時計じかけのオレンジ』( Anthony Burgess ) - 1962
年に発表されたこのディストピア SF 小説は、近未来の暴力と狂気に
満ちた世界を描いています。
…
回答 (Xwin-LM-70B-V0.1)
15
成績とモデルサイズ?学習データ量
モデルの大きさ(パラメタ数、 x 軸)
と 1B パラメタあたりの得点( y 軸)の相関
? モデルが大きくなるほど
1 パラメタあたりの性能向上量は小さ
くなる
? パラメタ数の増加により性能向上を
図る戦略には限界がある
モデルの大きさと平均得点
16
成績とモデルサイズ?学習データ量
学習データ量(トークン数、 x 軸)
?平均得点( y 軸)の相関 *
? 一定量のデータを学習しないと
平均得点は伸びない
? 2T トークン程度は必要
( DeepSeek の例)
? 国産モデルの学習データ不足
? データの量と質
? データの量 : Llama3 (15T トークン )
? データの質 : Phi-3
? LLM を用いたデータ拡張
学習データ量と平均得点
* 前の 3 スライドとは評価時期および評価対象のモデルが異なることに注意
量子化とモデル性能
17
3
18
量子化とは
? LLM の課題
? 1: 推論に必要な計算資源( GPU メモリ)が多い
? 2: 推論に時間がかかる
? 量子化:モデルのパラメタ精度を下げる
? 例 : 4 ビット量子化( 16 ビット→ 4 ビット) : およそ 1/4
? 性能と軽量化のトレードオフ
? 疑問点
量子化するとモデルの性能はどのくらい下がるのか?
? さまざまなモデルを 4-bit 量子化
( K-quants )して比較
? 性能の変化は一定でない
(量子化モデルのほうが平均点が高い場合もある)
量子化するとモデルの性能は(どのくらい)下がるのか
19
ベンチマーク平均得点の変化
(濃い青:元モデル、うすい青:量子化モデル)
量子化するとモデルの性能は(どのくらい)下がるのか
20
? 性能の変化が大きい回答例 (Swallow-13B)
「クマの冒険」。
クマはいつも海が何であるかを疑問に思っていました。彼はそれがどれほど壮大であるかを想像し、彼の興味を
そそりました。彼はその広大さについて考え、そこに何があるのかと思いました。ある日、彼は岩の上に座って
海を眺めていました。遠くに、水の大きな塊が見えました。彼はそれがとても速く動いているのを見て、それに
興味をそそられました。
それで、クマは彼の冒険を始めるために泳ぐことにしました。彼は最初は怖かったが、すぐに夢中になり、それ
がどれほど美しくて楽しいかに驚いた。彼は海の下の不思議な生き物と会い、彼がどれほど孤独であるかについ
て泣きました。…
1. 序章
2. クマがアザラシと仲良くなり、その後家に帰るまでのストーリー
クマが海辺に行ってアザラシと友達になり、最終的には家に帰るというプロットの短編小説を書いてください。
設問
回答 ( 元モデ
ル )
回答 ( 量子化モデ
ル )
? 回答の長さが違うのでは?
→ 回答長の分布を示す(右図)
? モデルによって回答長の分布が異なる
? 「つぼ型」「フラスコ型」「スライム型」
? 平均スコアが低いモデルは「スライム型」
(つぶれた形状)の傾向が強い
? 回答の短いモデルは量子化の影響を受けやすい
量子化するとモデルの性能は(どのくらい)下がるのか
21
ベンチマーク質問への回答長 モデル別分布
(上段:元モデル、下段:量子化モデル)
2024 年前半のモデル傾向
22
4
23
2024 年前半のモデル傾向
? 性能
? 全体的に向上
? 商用モデルとの差は縮まっている
? 日本 vs 海外
? 海外勢の性能が高い(米中仏)
PLaMO (API 版 )
Mistral Large Instruct
海外企業モデル
海外企業モデルを日本の組織がファインチューン
日本の組織がフルスクラッチで開発
24
傾向分析
海外モデル優勢の要因
? データセットの質?量
? 大量かつ高品質なデータ
? パラメタ数
? Llama 405B
? 大規模データの学習を支える計算資源
? 巨大な GPU クラスタ( Meta の例 *: H100 が 24,576 台 ×2 クラスタ)
? 日本( ABCI ): A100 (960 台 ) + V100 (4,352 台 )
※ モデル間でアーキテクチャに大きな差は無い
*https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/
まとめ
25
5
? まとめ
? 大量?高品質のデータで学習する海外モデルが優勢
? 計算量を減らす技術(量子化)と性能の関係
? LLM の技術的課題
? 性能を上げる
? 計算量を減らす(量子化、非 Transformer )
? 自律的にタスクを遂行する(エージェント)
? 学術領域での応用
? SOTA 級アルゴリズムの実装論文を
自動執筆?レビュー
まとめと展望
26
Sakana AI “AI Scientist” (https://sakana.ai/ai-scientist/#example-papers-generated-by-the-ai-scientist)
記事リンク
27
ELYZA-tasks-100 で LLM14 個の
日本語性能を横断評価してみた
日本語 LLM 9 種を量子化して回
答内容を比較調査してみた
Llama 3.1 405B と Mistral
Large 2 の性能を ELYZA-tasks-
100 で比較してみた
日本語が話せるオープンアクセス大規模言語モデルの評価
2024/9/24
株式会社ノーザンシステムサービス 佐々木 優興

More Related Content

Evaluation of an open-access large-scale language model capable of speaking Japanese

Editor's Notes

  • #1: 「日本语が话せるオープンアクセス大规模言语モデルの评価」ということで、最近の础滨の性能と开発倾向について、お话ししたいと思います。
  • #2: 昨年あたりから、ChatGPT に代表される「ことばを学んだ AI モデル」が、一般の人々にも爆発的に普及して、ブームになっています。 こうしたモデルを LLM というのですが、このなかでも誰でもダウンロードして自由に使える AI モデルというのがあって、これをAIエンジニアや研究者のあいだでは「オープンアクセスLLM」と呼んでいます。 今回は、オープンアクセスLLMのうち、日本語が話せるモデルに焦点をあてて、性能の比較や回答傾向の分析を昨年から今年にかけて行いましたので、その結果をご紹介します。
  • #4: 私が誰かと言いますと、株式会社ノーザンシステムサービスの佐々木と申します。 研究開発部という、AIと地理空間データの2つを主に扱う部署で、ソフトウェアの開発とAIの調査研究を半々くらいの作業量でやっております。 LinkedIn のアカウントがありますので、もしコネクトしたい方がいらっしゃたらお声がけください。
  • #5: まずは、尝尝惭が発展した経纬を振り返りつつ、オープンアクセス尝尝惭を评価するとはどういうことか、どういう形で性能を测っているのか、という点について、简単にご绍介したいと思います。
  • #6: まず LLM について簡単に説明します。 LLM、大規模言語モデルは Deep Learning 技術に支えられたモデルです。 Deep Learning というのは、大量のデータを DNN というある種のプログラムに読み込ませて、パターンを発見させて、知的タスクを遂行させる、というものです。 知的タスクというのは、言語を理解するとか、画像に写ったものを見分けるというように、普通のソフトウェアとして定型化しづらいタスクを指すと理解されています。 言語モデルというのは、言語にフォーカスしたモデルでして、文章から感情を判断する、文章の欠けているところを埋める、あるいは ChatGPT のように人間と会話する、といったタスクができます。 これらのモデルで広く使われているのが Trasnformer というアーキテクチャ――モデル構造です。2017年に Google が発表したモデル構造なのですが、発表から7年たった今では言語以外にも画像や音声でも使えることがわかって、いまは猫も杓子も Transformer というような具合で、さまざまな領域で活用されています。 ちなみに、アーキテクチャというのはDNNの構造を分類したものです。 例えていうと、土木建築の分野で、いろいろな橋―道路橋とか鉄道橋―を、これは吊り橋、これはアーチ橋、というようにさまざまに分類することがあります。 これと同じで、Deep Learning の分野でもこれはTrasnformer、これはRNN、というようにモデルを分類します。 同じ構造の橋でも長いのと短いのがあるように、Transformer のなかにも大きいモデルと小さいモデルがあったりするわけですが、こうした細かな違いを捨象して、モデルの構造を分類するときに、アーキテクチャという言い方をします。
  • #7: この Transformer モデルを使って 2020 年に発見されたのが、スケーリング則という法則です。 スケーリング則というのは、端的にいうと、モデルを大きくして(パラメタ数を増やして)、さらに学習させるデータ量を増やして、長い時間学習させると、性能は頭打ちすることなく向上します、という経験則です。 つまり、たくさんお金をかけて高速で大規模な計算資源を買って、インターネット上などからたくさんデータを集めて学習すれば、際限なく性能がよくなる、ということになります。 これを背景に、Google や OpenAI のように資源の潤沢な組織が、非常に大規模な言語モデルの構築プロジェクトを立ち上げるようになりました。 こうして誕生したのが LLM(大規模言語モデル)です――ここでいう「大規模」には、モデル自体の大規模さ、という側面と、データの大規模さ、という側面があります。 具体的には、大きい計算クラスタを用意して、メモリを数百TBも使うような大きい言語モデルを展開する。 そして、インターネットやその他の場所から大量のテキストデータを持ってきて学習させる。 これを十分な時間―数カ月というスケールです―続けると、高い言語能力とさまざまな分野の知識を備えた言語モデルができあがる、というものです。
  • #8: ところで、OpenAI の GPT モデルなどは専用の Web サイトや API からサービスとしてアクセスする必要があります。 ちなみに GPT は General-purpose Transformer(汎用トランスフォーマ)の略で、T はトランスフォーマの頭文字です。 そっちに注目が集まりがちなのですが、開発した LLM をモデルごと一般公開して、広く使ってもらう、という取り組みをしている企業や組織もあります。 このように、誰でもダウンロードして利用できる LLM のことをオープンアクセス LLM とよびます。 いわば、商用のソフトウェアに対する、オープンソースソフトウェアのようなものです。 このオープンアクセスLLMは、サーバさえ自分で用意すればいくらでも無料で使えるのと、データが組織外に出ていかないという秘匿性の面でメリットがあり、個人と企業の両方のユースケースで使われています。 開発元としては、Facebook を運営しているメタが Llama というモデルを公開していてトッププレイヤーになっています。また、フランスの Mistral という会社や、中国のアリババなどもオープンアクセスLLMを出しています。 国内でも、いくつかの企業がモデルを公開しています。
  • #9: こうしたモデルには、日本語など多言語対応したものと、英語しか話せないモデルがあります。 当社――ノーザンシステムサービスでは、とくに日本語が話せるオープンアクセスLLMに着目して、いろいろなモデルの成績評価を行ってきました。 その中で気づいたのが、開発元が公表しているモデルの性能と、実際にモデルとチャットしたときに体感する性能がどうも違うな、ということです。 そこで、条件を揃えた体系的な評価を行って、ブログ記事のような形で公開する、ということをしています。
  • #10: 体系的に、といっても、LLMの性能をどう測定するのか、という話がまず問題になります。 言語モデル、とくにチャットモデルをどうやって評価するかというと、いくつか方法があるのですが、 一般的なのは、いろいろなLLMに同じ質問や指示を与えて、回答を採点ないし評価する、という方法です。 LLMを評価するのに使う質問をまとめたベンチマークデータセットというものがあって、その多くが一般公開されています。 このベンチマークの質問には2種類あって、クローズエンド質問とオープンエンド質問に分かれます。 クローズエンド質問というのは、4択問題やはい/いいえで答える問題のように、答えの型が決まっている質問です。 こうした質問のいいところは、回答のフォーマットが決まっているので、機械的に合っている?合っていないを判定することができる。つまり定量的な評価に適する、という点です。 とくに、LLMがもっている知識の量を測りたいときは、こうしたタイプの評価が役立つ、といわれます。 ところが、クローズエンド質問で測った成績がよくても、実際にチャットしてみるとあまり性能がよいと感じない、あるいはこちらの指示を理解できていない、というようなことがあります。 これは、人間が実際に LLM を「使う」ときは、5択やイエス?ノーで答えられる質問というよりも、 「Deep Learning とはなにか説明してください」とか「商品のアイディアを提案してください」というように、型の決まっていない質問をすることが圧倒的に多いためです。 そこで、最近はこうした、より実環境に近い質問への回答を評価してスコアを出す、という方法がポピュラーになっています。 このような質問をオープンエンド質問といいます。 オープンエンド質問を使った評価は、人間の体感する「性能」に近いと言われているのですが、課題となるのが、モデルの回答をどうやって評価するのか、という点です。 クローズエンド質問はプログラマティックに当たり外れを判定できるのですが、オープンエンド質問は決まった正解がないので、機械的な採点が難しい。 採点者を用意して人力でやる、という方法もあるのですが、これだとコストも時間もかかります。 そこで、昨年GPT-4 が登場してからは、LLM-as-a-judge といって、 GPT-4のような性能のよいLLMに採点者になってもらって、自動で採点をしよう、という方法が普及しました。 今回ご紹介する研究でも、この方法を使って、オープンエンド質問をLLMに与えて得られた回答を、GPT-4V に評価させる、という方法を使っています。
  • #11: ご绍介する调査结果が3つあるのですが、そのうち1つめの、ベンチマーク成绩とモデルサイズ、学习データ量の関係についてご绍介します。
  • #12: 先ほどご説明したとおり、スケーリング則といって、データと計算資源とモデルサイズを大きくすれば性能はどこまでも大きくなります、という経験則があります。 ところが、3つある要素のどれが、どのくらいベンチマーク成績に影響を及ぼすのかわからない、という問題がありました。 そこで、われわれは日本語のオープンエンド質問データセットである ELYZA-tasks-100 という、100個の質問で構成された質問集を使って、 日本語が話せるオープンアクセスLLMの性能を測定しました。 それぞれの質問を5段階評価で GPT-4V に採点させて、その平均点をモデルの「成績」として評価しています。
  • #13: 結果のご紹介ですが、まずモデルの大きさと性能――ここでいう「性能」とはELYZA-tasks-100の平均得点です――についてお話ししたいと思います。 お示ししている図は、モデルの大きさをx軸、平均得点をy軸にとったものです。 モデルの大きさはパラメタ数というで表されるのですが、右に行くほど大きなモデルになります。 モデルの大きさのイメージとして、この図の左側3分の1は「軽い」モデルで、GPU1枚あれば十分快適に推論できるのですが、残りの3分の2は「重い」モデルで、つぎに述べる量子化という手法をとらなければ GPU 1枚には載らない、というイメージです。 グラフからまず言えるのは、モデルサイズが大きくなると、性能が伸びる傾向にある、という点です。 特に、ひとつの企業が同じ学習データを使ってモデルサイズだけ変えてモデルを訓練して公開する、ということがあるのですが、 (例えば Xwin-LM のように――マーカを引いて説明?) このように同条件でモデルサイズだけ違う、というような場合、モデルサイズの大きいほうが性能がよいです。 一方で、同じ左端に縦に点がまとまっている箇所があります。これは、いろいろな企業が同じパラメタ数(7B)でパラメタ数を開発しているので、こうなっています。 モデルサイズは、本来はどんな値でもよいのですが、だいたい7B、14B、70B、というようにお決まりの値がいくつかあります。 これはなぜかというと、主にGPUのせいです。 GPUのメモリサイズは、開発元(NVIDIA)が決めているわけですが、これが例えばV100というGPUなら15GB、L4は24GB、A100は 40GBというふうに、型番によってメモリサイズが飛び飛びになります。 このメモリ容量を目いっぱい使うように、どの企業もモデルサイズを決めます。例えば V100 で動かすことを想定して 7B、L4を想定して14B、というような具合です。 なので、いろいろなモデルを並べると、たとえば7Bにモデルが集中したり、次は14Bあたりに集中したり、というふうに、モデルサイズが飛び飛びになることが多くなります。 この部分に着目すると、同じモデルでも得点のよい(上のほうの)モデルもあれば、得点の伸びないモデルもある、というふうに、性能差が大きいことがわかります。 この差がどこから来るかというと、モデルサイズとアーキテクチャは同じなので、学習したデータ(の量と質)に起因すると考えられます。
  • #14: モデルサイズの違いによって、どのくらい性能が変わるのかの実例として、ベンチマークの設問に対する2つのモデルの回答を見てみたいと思います。 ELYZA-tasks-100 の質問のひとつに、「次に読むべきSFを10冊挙げて」というものがあります。 これに対する2つのモデル―ーXwin という中国のちょっと古いモデルで、パラメタ数7Bと70Bのもの――の回答を比べてみましょう。 まずは左のグラフでベンチマークのスコア上を見ていただきたいのですが、Xwin の 7B(小さいモデル)は左の真ん中あたりの四角で囲った位置、70Bは右上の四角のあたりにあります。 次に右の真ん中の段、Xwin-7B の回答をみると、 アーサークラークの「さらば宇宙の戦士」という本を紹介しています。アーサークラークはSF作家ですが、彼の著作に「さらば、宇宙の戦士」というのはありません。(少なくとも Google 検索した結果は見当たりませんでした) それから「ドラキュラの娘」というのは、戦前にアメリカで公開されたホラー映画で、SFではありません。 というような具合で、まったく的外れの回答になってしまっています。 じゃあ70Bのモデルはどうかというと、「フランケンシュタイン」とか「時計仕掛けのオレンジ」を挙げていますが、どちらも代表的なSF小説です。 作者とか公開年などの情報が合っていますし、簡単な紹介文もついています。 このように、7Bと70Bでぱっと見の回答は似ているけれども、7Bというパラメタ数の少ない小さいモデルは見当違いのことを言っていて、 70Bになるときちんと役立つ回答ができている、というのが、モデルサイズによる回答クオリティの違いになります。
  • #15: 次にお見せする図では、パラメタ1個あたりの性能寄与度についてお話しします。 x軸は前図と同じでモデルの大きさですが、y軸を「平均得点をモデルのパラメタ数で割ったもの」に変えています。 つまり、y軸は「モデルのパラメタ1個あたりでみると、どのくらい性能向上しているか」を示しています。 図の右(モデルサイズの大きいほう)に行くほど、パラメタ1個あたりの性能向上幅は小さくなることがわかります。 つまり、パラメタ数が大きいモデルでは、モデルの性能を少し伸ばすのにパラメタ数をたいへん大きくしないといけない。 ところが、パラメタ数が増えればGPUメモリも余分に使うので、現実的なパラメタ数にはおのずと上限が生まれます。 なので、モデルを大きくして性能を伸ばすアプローチには限界がある、ということになります。
  • #16: ここまでモデルの大きさに着目しましたが、次のスライドは学習したデータ量に焦点をあてています。 この図は、これまでと x軸が変わっていて、学習データの量(トークン数といいます)を x 軸にとっています。 y軸は前と同じく平均得点で、上に行くほど性能のよいモデルです。 トークン:モデルに文章を入力するときの単位。英語の文章では1トークンが1語に対応する。 全体的な傾向をみると、グラフの左端、データの少ないほうのレンジを中心に、データを増やすほど成績の伸び方が大きいことがわかります。 これはつまり、たくさんのテキストを読んでお勉強するほど、成績が上がるということです。 グラフの右に行くほど学習データが増えるわけですが、そうすると成績ののびかたは緩やかになります。 DeepSeek 67B(左上の大きい丸)は2兆トークンのデータで学習していて、これはファイルサイズでいうと数TBくらいのデータ量なのですが、フルスクラッチでいちからモデルを学習する場合はこのくらい無いといけない。 一方、左下の丸で囲ったところに日本勢のモデルがいくつか居るのですが、データ量が海外勢に比べて非常に少ないことがわかります。 日本のモデルは日本語のデータで学習することが多いのですが、日本語データは英語のデータセットに比べて圧倒的にデータ量が少ないです。 特に、低品質のテキストデータを削除して品質を上げるような前処理をほどこしたデータは、英語圏ではいくつかパブリックになっている一方、日本語ではほとんど存在しない。 国産モデルは、海外モデルに比べるととにかく学習データの不足によって成績が伸びていない、というのが現状です。 それから、5兆トークンのところに Phi-3 というモデルがいますが、これは Microsoft が開発したパラメタ数が小さめのモデルで、 データ量を増やすかわりに学習するデータの質を上げる、という開発戦略をとっています。 学習させるデータというのはネット上から集めたテキストデータなどで、学習にとってノイズとなるような無駄な情報をたくさん含んでいます。 パラメタ数が大きいモデルは、そのあたりも十把一絡げに学習して、有用な情報だけを選択的にアウトプットできるのですが、 パラメタ数が小さいモデルは、覚えられることが少ないので、そうしたノイズを削って、品質の良いデータセットをつくって学習させるのがよい、というわけです。 実際、Phi-3 medium という 14B パラメタのモデルが、右上の Llama3 の 70B パラメタモデルとほぼ互角の性能なので、この戦略がうまくはまっているといえます。 データの質と量、という2つの要素が、モデルの性能を左右する重要な要素である、と言えます。
  • #17: 次に、量子化という手法とモデルの性能について、ご绍介したいと思います。
  • #18: LLMで推論(テキスト生成など)するときの課題として、GPUメモリをたくさん消費するという点と、推論に時間がかかる点の2つがあります。 LLMは「大規模」言語モデルで、ときに数百GBくらいの大きさになるのですが、GPUのメモリは一般的には数十GBくらいしかないので、そもそも推論ができない、あるいはできても非常に遅いわけです。 これを解決するのが量子化という技術で、これは何かというと、モデルのパラメタの精度を下げるというものです。 LLMは、データとしては何十億という数値の集まりなので、この数値の精度を例えば16ビットから4ビットに下げてやる。 そうすると、1/4のメモリサイズで推論ができるようになります。 ただし、精度を落とすとモデルの性能も下がるので、性能とモデルの軽さの2つはトレードオフの関係にある、といわれています。 LLMの量子化はここ1~2年で急速に発展したのですが、量子化すると実際の体感性能にどのくらい影響があるのかは分かっていません。 それを調べてみよう、というのが、この2番目の調査の趣旨です。
  • #19: そこで、さまざまなモデルー今回は9つですが―について、量子化前と後のモデルに同じベンチマーク問題を解かせて、その成績を比較する、ということをしました。 お示ししている図がその結果なのですが、色の濃いグラフが量子化前、色の薄いほうが量子化後の平均成績を表しています。 こうしてみると、性能の変化は一定でなく、量子化すると成績が下がるどころか、成績が上がっているモデルもある、ということがわかりました。 それから、量子化前と後の回答を比べると、量子化前はふつうの回答なのに、後のモデルでは極端に回答が短くなっている、ということが一部のモデルでみられました。
  • #20: これがその性能変化の例です。 設問は「クマが海辺に行ってアザラシと友達になり、最終的には家に帰るというプロットの短編小説を書いてください。」というものです。 量子化前のモデルの回答が真ん中の段なのですが、よく見ると不自然な表現がたまにあるのですが、ぱっと見た感じでは順当な短編小説に見えます。 ところが、量子化後のモデルは下の段のように、目次のようなものだけを書いて終わり、という、役立つとはちょっと言いがたい回答になってしまいました。
  • #21: そうすると、回答の長さの分布が変わっているのではないか、というふうな推測ができるので、回答の長さをプロットしてみました。 それが、いまお示ししている図になります。 この図をどういう風に見るかというと、まず上段が量子化前、下の段が量子化したモデルです。 1つ1つの「つぼ」や「スライム」のような図形が見えますが、これが各モデルの回答の長さの分布をKDEという手法で表現したものになります。 図のy軸方向は回答の長さを示しているので、スライムのように下に押しつぶされた形の分布は、どの質問に対する回答も極端に短い。 逆に、水滴あるいはつぼのように縦長の分布になっているものは、短い回答から長い回答までまんべんなく出力している、ということになります。 このグラフは上の段と下の段で同じモデル(量子化のあり?無しだけが違う)というように並んでいるので、 上下の形状分布をみることで、量子化したときの分布変化が見られるようになっています。 こうしてグラフをみると、上の段の量子化前のモデルで、ちょっと分布がつぶれ気味、つまり短めの回答が多いモデルは、 量子化すると非常に短い回答しかできなくなってしまう、ということがわかります。 逆に、つぼ型の縦に長い分布形状であれば、量子化しても回答の分布にあまり変化はない、ということもわかります。 スライドにはお出ししていませんが、回答の短いスライム型のモデルは、そもそも平均点が低い、ということも別途調査でわかっています。 つまり、モデルの回答が短い場合、体感のスコアもいまいち伸びないし、さらに量子化すると回答の品質が大きくさがってしまう。 長めの回答も必要に応じてできるモデルを作ることが、成績の面でも、量子化への耐性という面でも重要である、というのが、2番目の調査の結論になります。
  • #22: 量子化というテクニカルな話題に踏み込んできましたが、最後は全体を俯瞰する形で、 今年の前半まででオープンアクセスLLMがどのくらい進歩したのか、ChatGPT のようなモデルと比べてどうか、それから日本と海外のモデル開発の違い観点で、少しお話ししたいと思います。
  • #23: このグラフは、2024年前半までに(と言いつつ7月までに)リリースされたモデルの平均得点をグラフにして表したものになります。 一番左端にあるのが、Mistral Large Instruct という、フランスの Mistral という会社が出したモデルです。 3.94 点というスコアをマークしていますが、5段階評価で平均点は上限が5.0点なので、80%くらいのかなりよい成績です。 参考までに、他の企業さんの調査によると、去年春にリリースされた GPT-4 は平均スコアがおよそ4.0点です。(評価のしかたが少し違うので、単純な比較はできないのですが。) それから、昨年末の段階では、オープンアクセスモデルの最高得点は3点に届かないくらいでした。 こうしてみると、オープンアクセスモデルの成績が4点台―GPT-4 などの商用モデルの性能に届く…とまではいかずとも、近づきつつあることがわかります。 また、モデルの開発元が日本企業のものと、海外企業のものを比較すると、海外勢がトップを占していることがわかります。 棒グラフは日本のモデルなのですが、これはファインチューンといって、海外のモデルをベースに日本語のテキストを追加で学習させたモデルです。 こうしてみると、日本のモデルであっても、基本的に海外企業のモデルをなんらかの形で使っている、ということになります。 これが良いとか悪いとかいう話は別にして、海外モデルのほうが強い、ということはまず現状として認識する必要があります。
  • #24: ではなぜ海外勢が強いのかというと、前半でご紹介したスケーリング則の3要素、データセット、パラメタ数、計算資源のすべてで海外勢が優位に立っているためです。 特に強調したいのがデータセットで、1番目のデータ量と性能の比較のグラフでもお見せしたとおり、海外モデルは非常に大規模なデータセットで学習しています。 日本勢が数百~数千億トークンなのに対して、海外勢は十数兆トークンをモデルに学習させているので、桁が違います。 2番目がパラメタ数です。 パラメタ数―モデルの大きさ―については、大きくしすぎると一般的なサーバに載らなくなってしまうので、ここ1年くらいは70B~100B程度を上限にすることが多かったのですが、 最近はパラメタ数の拡大がトレンドになっていて、Meta が公開している Llama 3.1 の一番大きいモデルは 405B という、従来の4~5倍くらいのパラメタ数になっています。 日本でも、100Bモデルで学習しようとか、1Tパラメタのモデルというのがあるので、それ自体は海外の傾向と合っています。 ただし、モデルサイズだけ大きくしても、学習データが足りなければ結局性能は伸びません。 3番目が、データサイズとモデルサイズの大規模化を支える計算資源です。 大手のIT企業は、GPUを大量に買って自前のコンピュータクラスタを用意し、その環境内でモデルを学習させています。 例えば Meta は H100 という GPU を 合計 50,000 台くらい用意して、 Llama モデルを学習しています。 日本の代表的な GPU クラスタとして、産総研という研究機関が持っている ABCI という計算設備がありますが、これは GPU が H100 ではなくて前世代の A100。GPUの数は 1,000 台で、 Meta の計算基盤の 2% くらいの規模です。 しかも複数組織の共同利用なので、実際に使える枚数はもっと減ります。 海外の Big Tech 企業は、資金に余裕があるので巨大な計算クラスタを組めるのに対して、日本の組織?企業はそこに正面から対抗するのは難しいように思います。 こうした資金力、資源の差はどうしても生じます。 そこで、先ほど述べたように海外のモデルをうまく利用する、つまりオープンアクセスモデルをファインチューンして性能強化する、とか、 特定の問題に特化したモデルへとカスタマイズしていくアプローチのほうが、現実的で有効な考え方なのではないか、と思います。
  • #25: 最后にまとめです。
  • #26: ● 発表内容のまとめ 今回ご紹介した内容の振り返りですが、まず高性能なモデル開発で優位に立っているのは海外の企業?組織である、という点です。 大規模な計算資源をバックに、大量かつ高品質のデータで学習することで、高い性能を獲得しています。 とくに、今回ご紹介したモデル性能は日本語のデータセットを使って測った性能ですが、それでも海外モデルが国産モデルを上回っている、という現状があります。 日本の企業?組織でLLMを構築?開発する場合、いちからフルスクラッチで作るのではなく、海外モデルもうまく取り入れて性能を上乗せしていくのが、現実的なアプローチだと思います。 それから、LLMは計算量がたいへん大きいので、ご紹介したような量子化のように計算量を下げる技術があります。 この量子化が性能に及ぼす影響を測ってみる、ということもやりました。 ●技術的課題 LLMの技術的課題としては、主に3点あります。 まずは、性能を上げる、ということ。特にオープンアクセスモデルについては、商用モデルに比べるとまだ性能向上の余地があります。 商用モデルのほうでは、OpenAI の o1 モデルのように、データというよりもむしろ推論のしかたを工夫するアプローチが試みられています。 次に、現状のLLMは計算量がものすごい必要なので、計算量を減らす、というのが2点目になります。 ご紹介した量子化もそうですが、計算量が爆発的に増える問題は Transformer アーキテクチャ自体に原因があるというので、 Mamba とか RWKV など、RNNをベースにした他のアーキテクチャを試す動きもみられます。 3番目の課題が、単純にLLMにテキストを出力させるだけではなくて、LLMがユーザの指示を理解して作業をしてくれる、エージェントという応用のしかたです。 ● 学術領域のLLM活用 最後に、学生さん?教職員さん向けの発表ということで、学術領域でのLLM活用に目を向けると、LLMに自動で学術研究をさせてみよう、という研究があります。 Sakana AI という企業が発表したシステムなのですが、計算機科学とくにAIの分野で、アイディア出し、実験、論文の執筆、レビューまでを LLM にやらせてみよう、という研究です。 … もちろんこれで学術研究がすべてAIに置き換えられるかというと、全くそんなことはありません。 AIが書いた論文をよく見ると、論理の運び方が間違っていることがあったり、あるいはもっと単純に数値の比較が間違っていたりするケースが時々見受けられた、ということが報告されています。 こうした欠点を踏まえつつ、どのようにAIを活用するかを考えていくのが、今後必要になると思います。 論文執筆の話でいうと、これまで課題や手法の探索というタスクは、人間だけが単独でやっていたタスクですが、AIを併用することで探索の幅を広げる。 ただし、AIの出力は間違っていることがあるので、AIが提案したアプローチが正しいのか取捨選択する部分は人間がやる。 あるいは、AIの提案をベースにしつつ、人間が研究内容を完成させる。 Google検索にはサジェスト機能がありますが、それと同じような形で、研究の方向性をサジェストしてくれるような --- AIというのは、あくまで人間を補助するツールです。 ツールなので、できることには限界があり、できない範囲は人間が補う必要がある。 その落としどころを探りつつ、技術の発展にあわせて人間の側がうまく適応していく、というのが、今後LLMを活用するすべての人に課せられた使命だと思います。
  • #27: この発表でご紹介した調査研究は、ブログとして公開しております。 調査の詳しい内容とか、実際のLLMの回答なども載せていますので、ご興味があれば、QRコードから記事にアクセスしていただければと思います。 (終わり)