有了語音和圖像功能后，ChatGPT將能批改作業(yè)了、講故事了！

2023-09-26 10:11:58發(fā)布來源：多知網(wǎng) 作者：關(guān)注教育科技的

　　來源|多知網(wǎng)

　　圖片來源|OpenAI

　　多知網(wǎng)9月26日消息，OpenAI在其官網(wǎng)宣布，將在ChatGPT中推出新的語音和圖像功能，這將提供了一種新的、更直觀的界面，允許用戶進(jìn)行語音對話或向ChatGPT展示正在談?wù)摰膬?nèi)容。

　　語音和圖像讓ChatGPT使用方法將更多元化，如在旅行時拍一張地標(biāo)的照片發(fā)給ChatGPT，并就它的有趣之處進(jìn)行實時對話。當(dāng)回到家的時候，拍下冰箱和食品儲藏室的照片，詢問ChatGPT晚餐要吃什么，還可以追問，以獲得一步一步的食譜。晚飯后，幫孩子做數(shù)學(xué)題，拍張照片，ChatGPT可以進(jìn)行批改，并給出解釋。

　　在接下來的兩周內(nèi)，OpenAI將向Plus和企業(yè)用戶推出ChatGPT的語音和圖像功能。語音支持iOS和Android，圖像支持所有平臺。

　　在Plus和企業(yè)用戶推出之后，未來，語音和圖像功能也會推出給其他用戶組，包括開發(fā)人員。

　　如何使用語音和圖像功能?

　　OpenAI還給出了一些示例和具體使用方法：

　　1、與ChatGPT用語音多輪對話

　　你現(xiàn)在可以使用語音與你的助手進(jìn)行多輪對話。在路上和它說話，為你的家人定制一個睡前故事，或者在餐桌上進(jìn)行辯論。

　　要開始使用語音，請前往移動應(yīng)用程序的設(shè)置→新功能，并選擇語音對話。然后，點(diǎn)擊位于主屏幕右上角的耳機(jī)按鈕，從五種不同的聲音中選擇您喜歡的聲音。

　　新的語音功能由一個新的文本到語音模型提供支持，能夠從文本和幾秒鐘的語音樣本中生成類似人類的音頻。OpenAI與專業(yè)的配音演員合作創(chuàng)造了每一個聲音。OpenAI還使用了自己開源語音識別系統(tǒng)Whisper，將用戶說的話轉(zhuǎn)錄成文本。

　　也就是說，可以讓ChatGPT生成故事，然后語音讀給全家人聽。

　　在這里OpenAI還舉了一個小例子：

　　故事中文大意：

　　從前，在一片寧靜的森林里，有一只毛茸茸的貓媽媽，名叫Lila。一個陽光明媚的日子，她在一棵老橡樹的樹蔭下，抱著她那頑皮的小貓Milo。

　　“Milo，”Lila開始說，她的聲音溫柔而溫柔，“你很快就會有一個新玩伴了。”

　　“一個新玩伴?”Milo的耳朵豎起來，充滿好奇。

　　“是的，一個小妹妹。”Lila咕嚕著。

　　“妹妹?她會像我一樣追逐尾巴嗎?”Milo興奮得睜大了眼睛。

　　“哦，她有她自己的怪癖。你會教她的，是嗎?”Lila咯咯地笑了。

　　Milo急切地點(diǎn)了點(diǎn)頭，已經(jīng)開始幻想他們將一起經(jīng)歷的冒險。

　　2、討論圖片

　　現(xiàn)在可以向ChatGPT顯示一個或多個圖像。比如，排除你的烤架無法啟動的原因，探索冰箱里的東西來計劃吃什么飯，或者分析與工作相關(guān)的復(fù)雜圖表。有一些圖像的特定部分如果需要畫圈、截圖等，還可以使用OpenAI移動應(yīng)用程序中的繪圖工具。

　　可以點(diǎn)擊照片按鈕來捕獲或選擇圖像。如果你用的是iOS或Android，先點(diǎn)擊加號鍵。您也可以討論多個圖像或使用繪圖工具。

　　圖像理解由多模態(tài)GPT-3.5和GPT-4提供支持。這些模型將它們的語言推理技能應(yīng)用于各種各樣的圖像，例如照片、屏幕截圖和同時包含文本和圖像的文檔。

　　研發(fā)圖像和語音功能的背后邏輯

　　OpenAI提到，正在逐步部署圖像和語音功能。

　　OpenAI的目標(biāo)是構(gòu)建安全和有益的AGI。“我們相信我們的工具是逐步可用的，這使我們能夠隨著時間的推移進(jìn)行改進(jìn)和完善風(fēng)險緩解，同時也為每個人在未來更強(qiáng)大的系統(tǒng)做好準(zhǔn)備。這一策略在涉及語音和視覺的高級模型中變得更加重要。”OpenAI提到。

　　在聲音方面，這項新的語音技術(shù)能夠從幾秒鐘的真實語音中制作出逼真的合成聲音，為許多創(chuàng)造性和可訪問性的應(yīng)用打開了大門。然而，這些功能也帶來了新的風(fēng)險，例如有些惡意分子可能會冒充公眾人物或?qū)嵤┢墼p行為。

　　這就是為什么OpenAI使用這項技術(shù)來支持一個特定的用例——語音聊天。語音聊天是由OpenAI直接合作過的配音演員創(chuàng)建的。未來也以類似的方式與其他人合作。例如，Spotify正在利用這項技術(shù)的力量為他們的語音翻譯功能試點(diǎn)，這有助于播客主持人通過使用播客主持人自己的聲音將播客翻譯成更多語言來擴(kuò)大他們的講述。

　　圖像輸入

　　基于視覺的模型也帶來了新的挑戰(zhàn),從對人們的幻想到依賴模型對圖像的解釋這類高風(fēng)險領(lǐng)域。在更廣泛的部署之前，OpenAI使用紅隊測試員測試了高風(fēng)險領(lǐng)域的模型，如極端主義和科學(xué)能力，以及各種alpha測試者。

　　使圖片功能既有用又安全

　　像ChatGPT的其他功能一樣，視覺是關(guān)于幫助用戶的日常生活。當(dāng)它能看到用戶看到的東西時，它會做得最好。

　　這種方法直接來自于OpenAI與Be My Eyes的合作，Be My Eyes 是一個為盲人和低視力人士提供的免費(fèi)移動應(yīng)用程序，以了解使用和局限性。用戶告訴OpenAI，當(dāng)背景中出現(xiàn)人物時(例如，當(dāng)您試圖搞清遙控器設(shè)置時，電視上出現(xiàn)某人)，他們會發(fā)現(xiàn)就圖像進(jìn)行對話很有價值。

　　OpenAI稱，我們還采取了技術(shù)措施，顯著限制了ChatGPT對人員的分析和直接陳述的能力，因為ChatGPT不總是準(zhǔn)確的，而這些系統(tǒng)應(yīng)該尊重個人的隱私。

　　關(guān)于模型局限性的透明度

　　用戶可能會依賴ChatGPT進(jìn)行特定的專題，例如研究等領(lǐng)域。OpenAI對模型的局限性保持透明,并阻止在沒有適當(dāng)驗證的情況下使用高風(fēng)險用例。此外，該模型善于轉(zhuǎn)錄英語文本,但在某些其他語言(尤其是非羅馬字母的語言)上的表現(xiàn)較差。OpenAI建議非英語用戶不要將ChatGPT用于此目的。

　　值得注意的是，大模型多模態(tài)發(fā)展一定是趨勢，目前，我國的大模型有的有語音功能，有的有圖片功能，不過，功能尚簡單，仍處于快速迭代之中。

　　在不久的將來，大模型的多模態(tài)化將有更多的應(yīng)用場景落地。

商學(xué)院

Open Talk

有了語音和圖像功能后，ChatGPT將能批改作業(yè)了、講故事了！

相關(guān)閱讀

商學(xué)院

Open Talk

有了語音和圖像功能后，ChatGPT將能批改作業(yè)了、講故事了！

相關(guān)閱讀

有了語音和圖像功能后，ChatGPT將能批改作業(yè)了、講故事了！