江溪中文 > 重生之AI教父 > 第329章 331. 你這個換臉他正經嗎?(合)

      第329章 331. 你這個換臉他正經嗎?(合)

          隨著孟繁岐展現出模型的具體的參數細節,包括算力需求,數據規模等內容,臺下各種驚嘆和倒吸涼氣的聲音此起彼伏。

          “大幾百張P100訓練兩三個月??大模型需要的計算資源真是恐怖如斯啊。這先不說購買設備什么的了,光是每天的運行費用就得十幾萬美金吧?”底下有懂行的人迅速就估算出了大致的超算中心運行費用。

          這個估算可以說是相當準確的,目前孟繁岐的超算中心每天的運行費用已經接近了百萬元。

          待得后續的訂單全部到達之后,這個數字甚至可能超過三四百萬,全年光是運行耗費就來到接近十億元的地步。

          想入局?門檻先交幾個億美金,然后每天幾十萬幾十萬地燒。

          孟繁岐的這個消息一公布,臺下不少大佬們的表情迅速地從原本的躍躍欲試,變成了一片死灰。

          無他,他們訂購的P100數量,根本都不夠上臺面去玩的。

          “......學習率等各種超參數方面,我們的設置是......”

          孟繁岐在模型方面的各種參數設置上非常大方,事無巨細,全部都列了出來,坦誠得令人驚嘆。

          不過談論到模型微調方面和具體數據方面的內容時,就肉眼可見的語焉不詳了起來。

          “在大量的數據上訓練得出的預訓練模型固然重要,但微調環節才是確保大模型能夠在特定領域內使用的關鍵所在。”這是人工智能領域技術人員的共識。

          針對特定的任務,需要準備相應的數據,并在微調期間提供對模型的指令,以告知它應該如何執行特定的任務。

          這些指令可以是針對輸入文本格式、輸出期望等方面的。

          它的目標是使模型適應特定的應用領域和任務。經過微調后,模型在這個特定領域的性能通常會得到顯著提升。

          目前各個領域內最大的技術壁壘和門檻,無非就是特定領域巨頭們自己積攢的高質量數據,以及在這些領域上大量的微調工程經驗。

          針對單一特定任務的微調就已經非常講究了,那么這個通用模型的微調技巧,其中的各種陷阱恐怕能寫滿幾十頁A4紙。

          而孟繁岐這次的展示中的微妙描述,幾乎可以說是明示了,這部分內容將不會像以前一樣,完完整整地開源出來。

          “我們理解這個層級的語言模型研發成本和以往已經不可同日而語,也尊重您對部分技術的保密選擇,不過作為媒體還是比較好奇還有哪些原因促使您改變了以往的開源慣例。”