用生成的數據集訓練未來幾代機器學習模型可能會導致“模型崩潰”。

Epoch AI:2028年互聯網上所有高質量文本數據將被使用完畢

2024-08-02 13:32:42發(fā)布     來源:多知網    作者:哆啦  

  多知8月2日消息,據研究公司Epoch AI預測,人類生成的公開文本數據的總有效存量約為300萬億tokens。至2028年,互聯網上的所有高質量文本數據或將被悉數使用完畢,而機器學習所依賴的高質量語言數據集,其枯竭的時間點甚至可能提前至2026年。

  

截屏2024-08-02 10.02.24.png

  為了在 2028 年之后保持當前的進展速度,開發(fā)或改進替代數據源(如合成數據)似乎至關重要。盡管挑戰(zhàn)仍然存在,但這些挑戰(zhàn)可以使機器學習繼續(xù)擴展到公共文本之外。不過,研究人員指出,用生成的數據集訓練未來幾代機器學習模型可能會導致“模型崩潰”。

  不過,也有觀點認為,在語言模型的細分領域內,仍有一片未被充分探索的數據藍海,蘊藏著豐富的差異化信息,等待著被挖掘利用。