斯坦福開源復(fù)雜推理AI Agent，融合超10種工具

2025-07-26 19:45:12發(fā)布來源：多知作者：Mint

　　多知7月26日消息，斯坦福大學(xué)在今年上旬開源了一款名為 OctoTools 的 AI Agent。該工具能夠結(jié)合超過11種不同的工具，以應(yīng)對復(fù)雜的推理任務(wù)。

　　據(jù)了解，傳統(tǒng)的AI助手通常依賴于單一模型或有限的工具集，很難處理需要多步驟推理、特定領(lǐng)域知識或外部工具集成的復(fù)雜任務(wù)。例如，當(dāng)解決視覺謎題時，需要精細圖像理解和基于文本的混合推理……

　　基于此，斯坦福開源了OctoTools，這是一個融合了11種不同工具專用于復(fù)雜推理的AI Agent。

　　研究人員在16個不同的任務(wù)(包括MathVista、MMLU-Pro、MedQA和GAIA-Text)上驗證了OctoTools的通用性，比GPT-4o的平均準(zhǔn)確率提高了9.3%，這使得它能夠在數(shù)學(xué)、科學(xué)和醫(yī)學(xué)等復(fù)雜場景中輕松完成任務(wù)。

　　目前用戶可以通過 OctoTools 更好地解決視覺謎題或進行基于文本的推理，提升工作效率。

　　OctoTools 技術(shù)原理：

　　工具卡片（Tool Cards）：工具卡片是 OctoTools 的核心組件之一，封裝了工具的元數(shù)據(jù)和功能。每個工具卡片定義了工具的輸入輸出格式、功能描述和調(diào)用方式?！　?/p>

　　規(guī)劃器（Planner）：規(guī)劃器基于語言模型，負責(zé)生成從全局視角的初步計劃。根據(jù)用戶查詢和可用工具，制定一個高層次的解決方案路徑?！　?/p>

　　執(zhí)行器（Executor）：執(zhí)行器將規(guī)劃器生成的文本指令轉(zhuǎn)換為可執(zhí)行的命令，運行這些命令獲取中間結(jié)果。

　　多步推理過程：基于多步推理逐步解決問題。在每一步中，規(guī)劃器根據(jù)當(dāng)前上下文生成新的行動指令，執(zhí)行器執(zhí)行指令獲取結(jié)果，然后更新上下文。

　　論文鏈接：https://arxiv.org/pdf/2502.11271

　　代碼鏈接：https://github.com/octotools/octotools

商學(xué)院

Open Talk

斯坦福開源復(fù)雜推理AI Agent，融合超10種工具

相關(guān)閱讀