用生成的數(shù)據(jù)集訓(xùn)練未來(lái)幾代機(jī)器學(xué)習(xí)模型可能會(huì)導(dǎo)致“模型崩潰”。

Epoch AI:2028年互聯(lián)網(wǎng)上所有高質(zhì)量文本數(shù)據(jù)將被使用完畢

2024-08-02 13:32:42發(fā)布     來(lái)源:多知網(wǎng)    作者:哆啦  

  多知8月2日消息,據(jù)研究公司Epoch AI預(yù)測(cè),人類生成的公開文本數(shù)據(jù)的總有效存量約為300萬(wàn)億tokens。至2028年,互聯(lián)網(wǎng)上的所有高質(zhì)量文本數(shù)據(jù)或?qū)⒈幌?shù)使用完畢,而機(jī)器學(xué)習(xí)所依賴的高質(zhì)量語(yǔ)言數(shù)據(jù)集,其枯竭的時(shí)間點(diǎn)甚至可能提前至2026年。

  

截屏2024-08-02 10.02.24.png

  為了在 2028 年之后保持當(dāng)前的進(jìn)展速度,開發(fā)或改進(jìn)替代數(shù)據(jù)源(如合成數(shù)據(jù))似乎至關(guān)重要。盡管挑戰(zhàn)仍然存在,但這些挑戰(zhàn)可以使機(jī)器學(xué)習(xí)繼續(xù)擴(kuò)展到公共文本之外。不過(guò),研究人員指出,用生成的數(shù)據(jù)集訓(xùn)練未來(lái)幾代機(jī)器學(xué)習(xí)模型可能會(huì)導(dǎo)致“模型崩潰”。

  不過(guò),也有觀點(diǎn)認(rèn)為,在語(yǔ)言模型的細(xì)分領(lǐng)域內(nèi),仍有一片未被充分探索的數(shù)據(jù)藍(lán)海,蘊(yùn)藏著豐富的差異化信息,等待著被挖掘利用。