江溪中文 > 重生之AI教父 > 第387章 391. 圖靈獎風聲

      第387章 391. 圖靈獎風聲

          畢竟【腦中有大概的技術思路和脈絡】與【真的帶隊實現這些功能】,其中的差距是不可同日而語的。

          這次的談話節目順利結束,海文退出了視頻聊天房間。

          不過孟繁岐和辛頓卻未直接離去,經過了剛才的對話,孟繁岐有一些事情想與辛頓交流,而辛頓則也有一個好消息要與孟繁岐分享。

          于是乎,兩人便不約而同地留下了。

          “我覺得其實也有一種可能,現代的人工智能的這種思路已經逼近了它的能力極限。”孟繁岐心中想著自己的秘密,同時也提出了另一種可能性。

          “現在的人工智能訓練,我們所運用的訓練數量達到數個TB級別,模型逼近千億萬億參數。但歸根結底,模型也只是對海量數據的一種規律總結,也就是說即便模型再龐大,其能力的極限也是被數據所限制的。”

          “現在我們產出的各種文字、圖像和視頻數據每年都在飛速增長。可能每兩年多全年生產出的數據總量就會翻一倍。如今每年人類產生的數據量已經是ZB級別。每年10ZB的數據,換算成大家最熟悉的單位,相當于一百億GB。”

          孟繁岐給出了一個令人瞠目結舌了數字,現在主流內存,通常幾百G到一兩千G左右。

          普通人真的很難想象百億GB的數據該是多么恐怖,因為這個體量看一輩子都沒法看完。

          “在數據量已經超越人類極限的現代,可以說人工智能是一種壓縮知識的方式。過去幾年我們的共識是數據的規模,模型的體量越大越好,不過最近我研發GPT4的時候卻已經觀察到了【數據質大于量】的現象。”

          “100G網絡上普通的數據,效果遠不如1G仔細篩選之后的數據。也就是說,很可能不管是數據還是模型參數,都已經有了【邊際遞減效應】。GPT4之后,就可能已經很接近這條道路的極限了。”

          孟繁岐在私下交流里透露給了辛頓一些最新的GPT4實驗的結果。

          他觀察到的現象是很有參考價值的,這意味著現在每年都在增加的海量文字、圖像和視頻數據都很有可能是完全無用的【垃圾數據】。

          它們彼此之間有太多的重復,沒有任何新的知識內容包含在其中,甚至于,因為這些垃圾知識過多,反而會影響模型學到真的有用的智慧能力。

          這在過去的幾年當中是不可想象的。

          從12年辛頓首次使用的百萬參數,到現在ChatGPT的千億級別。

          從孟繁岐首次參賽的IMAGENET,到現在幾十上百T的訓練數據。