在數(shù)學、科學和醫(yī)學等復雜場景中輕松完成任務(wù)。

斯坦福開源復雜推理AI Agent,融合超10種工具

2025-07-26 19:45:12發(fā)布     來源:多知    作者:Mint  

  多知7月26日消息,斯坦福大學在今年上旬開源了一款名為 OctoTools 的 AI Agent。該工具能夠結(jié)合超過11種不同的工具,以應(yīng)對復雜的推理任務(wù)。

  據(jù)了解,傳統(tǒng)的AI助手通常依賴于單一模型或有限的工具集,很難處理需要多步驟推理、特定領(lǐng)域知識或外部工具集成的復雜任務(wù)。例如,當解決視覺謎題時,需要精細圖像理解和基于文本的混合推理……

  基于此,斯坦福開源了OctoTools,這是一個融合了11種不同工具專用于復雜推理的AI Agent。

  研究人員在16個不同的任務(wù)(包括MathVista、MMLU-Pro、MedQA和GAIA-Text)上驗證了OctoTools的通用性,比GPT-4o的平均準確率提高了9.3%,這使得它能夠在數(shù)學、科學和醫(yī)學等復雜場景中輕松完成任務(wù)。

  目前用戶可以通過 OctoTools 更好地解決視覺謎題或進行基于文本的推理,提升工作效率。

  OctoTools 技術(shù)原理:

  工具卡片(Tool Cards):工具卡片是 OctoTools 的核心組件之一,封裝了工具的元數(shù)據(jù)和功能。每個工具卡片定義了工具的輸入輸出格式、功能描述和調(diào)用方式?! ?/p>

  規(guī)劃器(Planner):規(guī)劃器基于語言模型,負責生成從全局視角的初步計劃。根據(jù)用戶查詢和可用工具,制定一個高層次的解決方案路徑?! ?/p>

  執(zhí)行器(Executor):執(zhí)行器將規(guī)劃器生成的文本指令轉(zhuǎn)換為可執(zhí)行的命令,運行這些命令獲取中間結(jié)果。

  多步推理過程:基于多步推理逐步解決問題。在每一步中,規(guī)劃器根據(jù)當前上下文生成新的行動指令,執(zhí)行器執(zhí)行指令獲取結(jié)果,然后更新上下文。

  論文鏈接:https://arxiv.org/pdf/2502.11271

  代碼鏈接:https://github.com/octotools/octotools