多項(xiàng)性能測試中性能略勝一籌。

Claude 3.5 Sonnet編程和數(shù)學(xué)等能力強(qiáng)大,網(wǎng)友見證“魔法時(shí)刻”

2024-06-22 10:29:15發(fā)布     來源:多知    作者:Penny  

  來源|多知

  作者|Penny

  6月20日晚,OpenAI的競爭對(duì)手Anthropic在周四宣布了其迄今為止最強(qiáng)大的人工智能模型Claude 3.5 Sonnet。據(jù)介紹,Claude 3.5 Sonnet比其之前的模型Claude 3 Opus快兩倍,價(jià)格只有五分之一。

  Claude 3.5 Sonnet是Anthropic新推出的Claude 3.5系列中的第一個(gè)模型,可以說是下一代版本的中間版本。

  Anthropic還推出“Artifacts預(yù)覽版”,用戶能從中編輯和迭代AI模型生成的內(nèi)容,無縫集成到自己的項(xiàng)目和工作流程中。

  根據(jù)Anthropic介紹,Claude 3.5 Sonnet在覆蓋閱讀、編程、數(shù)學(xué)和視覺等領(lǐng)域的多項(xiàng)性能測試中性能略勝一籌,超過GPT-4o等一眾競爭對(duì)手的AI模型,且優(yōu)于自家旗艦?zāi)P虲laude 3 Opus。

  1.jpeg

圖片

  Anthropic稱,在得到指導(dǎo)和相關(guān)工具后,Claude 3.5 Sonnet 可以獨(dú)立編寫、編輯和執(zhí)行代碼,并具有復(fù)雜的推理和故障排除功能。它可以輕松處理代碼轉(zhuǎn)換,使其特別適合更新舊版應(yīng)用程序和遷移代碼庫。

  全球網(wǎng)友開始試用Claude 3.5 Sonnet,可以看到,其最強(qiáng)大的能力是編程能力。

  比如網(wǎng)友Allie K.Miller利用Claude 3.5 Sonnet 編寫曼卡拉數(shù)學(xué)游戲。

  她說:“這太瘋狂了。在短短 25 秒內(nèi),Claude 3.5 Sonnet 就為我編寫了一個(gè)功能齊全的曼卡拉游戲應(yīng)用程序,我只提供了游戲說明的一張屏幕截圖。

  它完成了其余的工作:- 編寫了整個(gè)游戲 - 預(yù)覽了游戲,以便我可以測試 - 提供了游戲規(guī)則。”

  2.jpeg

圖片

  不過,Allie K.Miller很快發(fā)現(xiàn)有代碼錯(cuò)誤,然后告訴了Claude 3.5 Sonnet 修復(fù)它。Claude 3.5 Sonnet 在幾秒鐘內(nèi)就修復(fù)了。

  曼卡拉是古老的數(shù)學(xué)棋盤游戲,可能起源于公元前6000年的約旦,至今仍在全球各地流行。這個(gè)游戲由石頭組成,玩家在木制游戲板上移動(dòng)石頭,將所有石頭放入棋盤末端的最后一個(gè)坑中是游戲的關(guān)鍵。

  來看看Claude 3.5 Sonnet的設(shè)計(jì)效果:

  0.gif

圖片

  網(wǎng)友João Montenegro用Claude 3.5 Sonnet 制作了一個(gè) threejs+cannonjs 3d 太陽系,其中包含物理和碰撞。

  太陽系.gif

圖片

  來看看實(shí)際效果:

  太陽系.gif

圖片

  網(wǎng)友Janet認(rèn)為,Claud呃推出的 Artifact過于強(qiáng)大,可瞬間寫完一個(gè)網(wǎng)站,速度非???,簡直是“神圣的魔法時(shí)刻”。

  6.jpeg

圖片

  網(wǎng)友calix huang用Claude 3.5 Sonnet生成了一張芯片制作過程的圖。

  7.jpeg

圖片

  可以看到,Claude 3.5 Sonnet視覺能力比較強(qiáng),不僅清晰制作出各種靜態(tài)圖片,利用工具還能制作動(dòng)圖、動(dòng)畫。

  網(wǎng)友Timothy B. Lee讓Claude 3.5 Sonnet判斷“100便士和三個(gè)25美分硬幣,誰更有價(jià)值?”

8.jpeg  

圖片

  Claude 3.5 Sonnet首先給出答案是“三個(gè)25美分硬幣更有價(jià)值”。

  后來通過解析:100便士 = 1美元,三個(gè)25美分 = 0.75美元

  最終認(rèn)為:“0.75美元小于1美元,所以100便士比三個(gè)25美分更有價(jià)值。”

  很明顯,Claude 3.5 Sonnet給出了兩個(gè)截然相反的答案。

  Timothy B. Lee說“你自相矛盾”。Claude 3.5 Sonnet馬上道歉,說“自己錯(cuò)了”,然后經(jīng)過推導(dǎo),最后才得出結(jié)論“100便士更有價(jià)值”,并再次致歉。

  可以看到,Claude 3.5 在一些數(shù)學(xué)問題上可以解答出來,但是它可能并不知道自己給出答案的底層邏輯,以至于“思維混亂”。

  Timothy B. Lee總結(jié)說:“到目前為止,Claude 3.5總體上給我留下了深刻的印象,但它有時(shí)仍然會(huì)犯一些愚蠢的錯(cuò)誤。”

  總體而言,Claude 3.5 Sonnet有很大的進(jìn)步,但是幻覺問題依然存在。

  Claude的運(yùn)營公司Anthropic被認(rèn)為是OpenAI最大的競爭對(duì)手,由前OpenAI研究高管創(chuàng)立,曾得到了包括Google、Salesforce和Amazon在內(nèi)的投資者支持。在過去一年中,Anthropic完成了五筆不同的融資交易,總計(jì)約73億美元。