狠狠撸

狠狠撸Share a Scribd company logo
2
Most read
4
Most read
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
ToolLLM: Facilitating Large Language Models to
Master 16000+ Real-world APIs
Jeong Seong Cheol, M1, Matsuo Lab, The University of Tokyo
書誌情報
Preprint: https://arxiv.org/abs/2307.16789
Data: Submitted on 31 Jul 2023
Github: https://github.com/OpenBMB/ToolBench
概要:
オープンソースLLMにおけるツール使?能?を促進するために,データ構築,モデ
ル学習,評価の?般的なツール使?フレームワークであるToolLLMを提案.
背景
? 2023年現在,LLMの?を引き出し,様々なツール(API)と効果的に相互作?
して,複雑なタスクを達成することを?的とする学習:Tool learningが注?
されている
? オープンソースのLLM (e.g., LLaMA, Vicuna) はInstruction tuningによって
汎?性の?い性能を発揮するが,現在のInstruction tuningは?語タスク(?般
的な会話)に焦点を当てているためツール使?能?に乏しい
? SOTAのLLM (e.g., ChatGPT, GPT-4) は,優れたツール使?能?を持つが
closed-sourceである
?的
オープンソースのLLMが,実?的なシナリオにおいて多様なAPIを含む複雑な命令を実?す
るためのエンパワーメントを?的としている.この研究が,Instruction tuningとツール活?
の交差点におけるさらなる研究のきっかけとなることを期待する.
具体的には,
? ToolBench:ツール使?に特化したベンチマークデータ構築
? ToolLLM:ToolBenchによるLLaMA-7Bのfine-tuningモデル
? ToolEval:2つの指標によるツール使?の評価
を提案
先?研究
ツール使?のためのInstruction tuning dataの構築についての先?研究(Li et al., 2023a;
Patil et al., 2023; Tang et al., 2023; Xu et al., 2023b)との3つの差分
1. Limited APIs :現実世界のAPI(e.g., REST API)に関与して
いない.多様性のない限られた領域のAPIしか使えていない
2. Constrained scenario:既存研究は単?のツール使?しか
考慮していない.現実では複数のAPIを組み合わせてタスク
を解く.また,ユーザがAPIを指定することを想定している
が,現実では莫?なAPIからユーザが特定のAPIを選ぶのが難
しい.
3. Inferior planning and reasoning:Chain-of-thought (CoT)
やReACT (Yao et al., 2022)といったプロンプトを使う?法
では,LLMの能?を?分に引き出せず,複雑な命令を扱うこ
とができない.(ツール使?の観点で)オープンソースLLMが,
SOTAのLLM (e.g., ChatGPT, GPT-4) に劣る.
引?:https://www.redhat.com/ja/topics/api/what-is-a-rest-api
先?研究
ツール使?のためのInstruction tuning dataの構築についての先?研究(Li et al., 2023a;
Patil et al., 2023; Tang et al., 2023; Xu et al., 2023b)との差
提案?法
本論?で提案されているもの
? ToolBench:ツール使?に特化したベンチマークデータ構築
? ToolLLM:ToolBenchによるLLaMA-7Bのfine-tuningモデル
? ToolEval:2つの指標によるツール使?の評価
? API Retriever:莫?なAPIの中からタスクを解決できそうなAPI候補を提? 引?:https://api-sdk.navitime.co.jp/api/rakutenrapid/
ToolBenchの構築
本論?で提案されているもの
? ToolBench:ツール使?に特化したベンチマークデータ構築
? ToolLLM:ToolBenchによるLLaMA-7Bのfine-tuningモデル
? ToolEval:2つの指標によるツール使?の評価
? API Retriever:莫?なAPIの中からタスクを解決できそうなAPI候補を提?
ToolBenchの構築
API Collection:
? Rapid API hubから49カテゴリ(e.g., sport,
finance, travel)と,より細かいcollectionと呼ば
れる分類(e.g., Recommended APIs, Top Movie
APIs)のAPIを取得.
? 各 API について,名前,説明,HTTP メソッド,
必要なパラメータ,オプションのパラメータ ,
リクエストボディ,API 呼び出しの実?可能な
コードスニペット,および API 呼び出し応答の
例を記録.
? 死んでるAPIなどフィルタリングして, 3,451個
の?品質なツール(16,464個のAPI)を収集
ToolBenchの構築
Instruction Generation:
? 3つの?法でAPIをサンプリング
? single-tool instructions (I1)
? intra-category multi-tool instructions
(I2):同じカテゴリから2~5個
? intracollection multi-tool instructions
(I3) :同じコレクションから2~5個
? 「APIの組み合わせ」と「そのInstruction」を
ChatGPTにより?成
?間が作った3つのインコンテキストシード
[Query1: ......, ?related apis?:[api1, api2,api3...],
Query2: ......, ?related apis?:[api4, api5, api6...],
Query3: ......, ?related apis?:[api1, api7, api9...],
APIの組み合わせ
Instruction N個のAPIの説明ドキュメント
ToolBenchの構築
Solution Path Annotation:
? Instructionが与えられたとき,ChatGPTに
有効なAPIのアクション列を探索させる.
? 探索?法:Depth First Search-based
Decision Tree
? CoTやReACTだとAPI Errorが出ると失
敗を繰り返す
? 深さ優先で?構造を探索させることで
Instructionをのソリューションを?つ
ける
? デメリット:API callが多くなる
ToolLLM
本論?で提案されているもの
? ToolBench:ツール使?に特化したベンチマークデータ構築
? ToolLLM:ToolBenchによるLLaMA-7Bのsupervised fine-tuning(SFT)
? ToolEval:2つの指標によるツール使?の評価
? API Retriever:莫?なAPIの中からタスクを解決できそうなAPI候補を提?
ToolEval
本論?で提案されているもの
? ToolBench:ツール使?に特化したベンチマークデータ構築
? ToolLLM:ToolBenchによるLLaMA-7Bのsupervised fine-tuning(SFT)
? ToolEval:2つの指標によるツール使?の推論時の評価
? API Retriever:莫?なAPIの中からタスクを解決できそうなAPI候補を提?
ToolEval
LLMのツール使?の2つの評価指標
? Pass Rate:限定されたアクション回数(論?中では200回)でにInstructionを成功できた割合.この
指標は,LLMの命令の実?可能性を測定する指標.Instructionを完了できたかどうかを測定するだけで
あり,どれだけ完了できたかは測定しない.
? Win Rate: Instructionをどれだけ完了できたかを測定する指標.これは,与えられたインストラク
ションに対する2つのSolution Path(解答経路)を評価者がA.2の?順に従って?較することによって測定
される.
Win Rateの詳細
(この数式は載っていなかったがおそらく)
Pass Rate =
アクション回数!""回以下のデータ
テストデータ
Win Rate =
ベースラインと?較してSolution Pathが選ばれたデータ
テストデータ
実験
ToolBenchを訓練?テストデータにわけ,テストデータを使ってToolLLaMAの汎化能?を測定.その際,
3つのレベルで評価
1. Inst.: unseen instructions for the same set of tools in the training data
2. Tool: unseen tools that belong to the same (seen) category of the tools in the training data
3. Cat.: unseen tools that belong to a different (unseen) category of tools in the training data
3つのシナリオで評価
1. single-tool instructions (I1):APIを1つ使うinstruction
2. intra-category multi-tool instructions (I2):同じカテゴリからAPI2~5個使うinstruction
3. intracollection multi-tool instructions (I3) :同じコレクションからAPI2~5個使うinstruction
Baseline
? VicunaとAlpacaに洗練されたプロンプトエンジニアリングしたもの(We conduct sophisticated prompt
engineering for both models to elicit the best of their tool-use abilities)
? ChatGPT(teacher model)とText-Davinci-003
VicunaとAlpacaは貧弱なオープ
ンソースLLMがAPIエラー起こ
しまくってる?から測定不能だ
と思われる
実験結果と考察
1. ToolLLaMAは,従来のツール使?法であるChatGPT-ReACTをPass Rate,Win Rateともに?幅に上回り,
優れた汎化能?を?す.また,ToolLLaMAはDFSDTと組み合わせた場合,Text-Dainci-003よりも性能が良い.
2. VicunaとAlpacaはいずれもInstructionをパスできない.このことは,?語能?の向上に主眼を置いた現在の
Instruction tuning?法の?点を浮き彫りにしている.
3. ?般に,ToolLLaMA は全てのシナリオで競争?のある性能を?し,ChatGPT+DFSDT よりも若?低い合格率
を達成した.Win Rateについては,ToolLLaMAはChatGPT+DFSDTの能?に概ね匹敵し、I2-Catでは後者を
も凌駕している.これらの結果は,ToolBenchがLLM内のツール使?能?を?分に引き出し,様々な命令に対
して未知のAPIでさえ巧みに習得できるようにするものであることを実証している.
まとめ&感想
? 本論?では,オープンソースLLMにおけるツール使?能?を促進するため
に,データ構築,モデル学習,評価の?般的なツール使?フレームワーク
であるToolLLMを提案.
? ToolBenchがオープンソースLLMのツール使?能?を?分に引き出したこ
とを確認.
? 今後は各APIはLLM?の追加情報や練習環境を提
供するようになるのでないかと思われる.(PFN
岡野原さん)
? 本論?はかなり実?的なタスクに挑戦していて
献?的かつ有?であると思いました(Jeong)

More Related Content

Similar to 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs (20)

PDF
颁丑补迟骋笔罢の仕组みの解説と実务て?の尝尝惭の适用の绍介冲濒补迟别蝉迟.辫诲蹿
Ginpei Kobayashi
?
PDF
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
ryoma yoshimura
?
PDF
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Kotaro Nakayama
?
PDF
ChatGPT の現状理解と 2023年7月版 LLM情報アップデート
Satoshi Kume
?
PDF
惭尝蹿濒辞飞による机械学习モデルのライフサイクルの管理
Takeshi Yamamuro
?
PDF
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
?
PDF
搁别肠厂测蝉2023论文読み会冲尝尝惭搁别肠冲佐藤.辫诲蹿
Masahiro Sato
?
PDF
MAこ?ころを、君に - #7 ChatGPT勉強会(2023-03-28)
Webpla LLC.
?
PPTX
Solving Quantitative Reasoning Problems with Language Models
harmonylab
?
PDF
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
MapR Technologies Japan
?
PDF
尝尝惭+尝补苍驳颁丑补颈苍で特许调査?分析に取り组んでみた
KunihiroSugiyama1
?
PPTX
DataEngConf NYC’18 セッションサマリー #2
gree_tech
?
PDF
贰濒补蝉迟颈肠蝉别补谤肠丑と机械学习を実际に连携させる
nobu_k
?
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
PDF
広告文生成タスクの规定とベンチマーク构筑
Masato Mita
?
PPTX
[DL輪読会]It's not just size that maters small language models are also few sho...
Deep Learning JP
?
PPTX
GPT
norimatsu5
?
PPTX
データサイエンティストが力を発挥できるアジャイルデータ活用基盘
Recruit Lifestyle Co., Ltd.
?
PPTX
やってみた!OpenAI Function Calling 入門 .
iPride Co., Ltd.
?
PDF
Wandb Monthly Meetup August 2023.pdf
Yuya Yamamoto
?
颁丑补迟骋笔罢の仕组みの解説と実务て?の尝尝惭の适用の绍介冲濒补迟别蝉迟.辫诲蹿
Ginpei Kobayashi
?
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
ryoma yoshimura
?
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Kotaro Nakayama
?
ChatGPT の現状理解と 2023年7月版 LLM情報アップデート
Satoshi Kume
?
惭尝蹿濒辞飞による机械学习モデルのライフサイクルの管理
Takeshi Yamamuro
?
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
?
搁别肠厂测蝉2023论文読み会冲尝尝惭搁别肠冲佐藤.辫诲蹿
Masahiro Sato
?
MAこ?ころを、君に - #7 ChatGPT勉強会(2023-03-28)
Webpla LLC.
?
Solving Quantitative Reasoning Problems with Language Models
harmonylab
?
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
MapR Technologies Japan
?
尝尝惭+尝补苍驳颁丑补颈苍で特许调査?分析に取り组んでみた
KunihiroSugiyama1
?
DataEngConf NYC’18 セッションサマリー #2
gree_tech
?
贰濒补蝉迟颈肠蝉别补谤肠丑と机械学习を実际に连携させる
nobu_k
?
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
広告文生成タスクの规定とベンチマーク构筑
Masato Mita
?
[DL輪読会]It's not just size that maters small language models are also few sho...
Deep Learning JP
?
データサイエンティストが力を発挥できるアジャイルデータ活用基盘
Recruit Lifestyle Co., Ltd.
?
やってみた!OpenAI Function Calling 入門 .
iPride Co., Ltd.
?
Wandb Monthly Meetup August 2023.pdf
Yuya Yamamoto
?

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
?
PPTX
【顿尝轮読会】事前学习用データセットについて
Deep Learning JP
?
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
?
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
?
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
?
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
?
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
?
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
?
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
?
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
?
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
?
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
?
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
?
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
?
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
?
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
?
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
?
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
?
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
?
PDF
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
?
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
?
【顿尝轮読会】事前学习用データセットについて
Deep Learning JP
?
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
?
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
?
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
?
【DL輪読会】マルチモーダル LLM
Deep Learning JP
?
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
?
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
?
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
?
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
?
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
?
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
?
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
?
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
?
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
?
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
?
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
?
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
?
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
?
Ad

Recently uploaded (12)

PDF
AIツールを使った研究の効率化 Improving Research Efficiency with AI Tools
Tohoku University
?
PDF
API認可を支えるKeycloakの基本と設計の考え方 ~ OAuth/OIDCによるAPI保護のベストプラクティス ~
Hitachi, Ltd. OSS Solution Center.
?
PDF
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
PDF
第3回デジタル理学疗法研究会学术大会シンポジウム「デジタル理学疗法の组织活用:教育?管理?研究を繋ぐ新たな地平」の讲演资料.
Matsushita Laboratory
?
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2025_報告会資料_渡辺さ...
IGDA Japan SIG-Audio
?
PDF
渔船に搭载されている电子装备と渔法について冲痴搁颁海洋学研究会冲海の尝罢会発表资料
Yuuitirou528 default
?
PDF
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2024_報告会資料_増野さ...
IGDA Japan SIG-Audio
?
PDF
第3回テ?シ?タル理学疗法学会のシンポジウム「デジタル理学疗法の组织活用:教育?管理?研究を繋ぐ新たな地平」での话题提供
Matsushita Laboratory
?
PDF
マルチAIエージェントの産業界での実践に向けたオープンソース活動の展望 - Japan Regional User Group (RUG) Meet-Up
Kosaku Kimura
?
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
PDF
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
AIツールを使った研究の効率化 Improving Research Efficiency with AI Tools
Tohoku University
?
API認可を支えるKeycloakの基本と設計の考え方 ~ OAuth/OIDCによるAPI保護のベストプラクティス ~
Hitachi, Ltd. OSS Solution Center.
?
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
第3回デジタル理学疗法研究会学术大会シンポジウム「デジタル理学疗法の组织活用:教育?管理?研究を繋ぐ新たな地平」の讲演资料.
Matsushita Laboratory
?
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2025_報告会資料_渡辺さ...
IGDA Japan SIG-Audio
?
渔船に搭载されている电子装备と渔法について冲痴搁颁海洋学研究会冲海の尝罢会発表资料
Yuuitirou528 default
?
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2024_報告会資料_増野さ...
IGDA Japan SIG-Audio
?
第3回テ?シ?タル理学疗法学会のシンポジウム「デジタル理学疗法の组织活用:教育?管理?研究を繋ぐ新たな地平」での话题提供
Matsushita Laboratory
?
マルチAIエージェントの産業界での実践に向けたオープンソース活動の展望 - Japan Regional User Group (RUG) Meet-Up
Kosaku Kimura
?
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
Ad

【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs