江溪中文 > 重生之AI教父 > 378. 繪圖AI的三種形式

      378. 繪圖AI的三種形式

          由于其封閉盈利的模式,孟繁岐對這款AI的具體技術細節知之甚少,也不清楚它最為核心的技術關鍵是什么,因而只得放棄這條線路。

          “如果從前世的知名度和受歡迎情況來看,擴散模型和Midjourney會更加穩定,不過DALLE在我重生前已經和ChatGPT進行了組合,有非常大的潛力,考慮到以后的發展情況的話我需要對兩者路線進行融合。”

          正是因為需要集兩家之長處,孟繁岐的擴散繪圖AI才會比預期要晚了幾個月。

          最終形成了一個比較成熟的壓縮、擴散、和隱空間再擴散三步走的系統。

          這種整體做法的實驗、討論和最終確定,耗費的時間甚至比正式訓練還要久。

          “也不知道量子計算機這種計算性能數量級提升的東西什么時候能弄出來,如果算力夠快,其實能省事不少。”孟繁岐想起這件事情還是覺得疲倦。

          之所以要拆分出這么多模塊,其中最大的原因就是計算資源消耗的問題。

          圖像的分辨率是平方,T方法內的運算又有維度上平方的操作,用戶覺得256和512分辨率的圖片差不多,可反應到全局則往往會是一個數量級的提升。

          為此,只得將擴散模型的學習步驟放到低緯度空間里進行采樣。

          說直白點,就是先把分辨率搞低,從而極大地減少擴散前后步驟的計算量。

          “這樣做會不會有損性能?使得生成的圖片效果不夠好?”決定發布這版本算力上有所閹割的擴散模型,CloseAI內部也提出了這樣的擔憂。

          畢竟算法方面其實可以做得更好,雖然代價會大一些。

          “這里也不僅僅是計算時間的問題,同時也是顯存的問題。不做這種拆分和圖像分辨率的閹割,相同的一張卡不僅運算速度變慢一個數量級,能夠同時進行的任務也少了好幾倍。”孟繁岐堅持先解決用戶數量的問題,性能和效果可以慢慢去優化。

          這就像是一個巨大的胖子來吃飯,不僅用餐時間是別人好幾倍,他一個人還能坐四個座位。

          在孟繁岐看來,ControlNet提出之前,首先發布的繪圖AI也只是一個玩具。

          其性能有所上下波動無傷大雅,因為早期優質出圖的成功率本來也不高,往往是需要大量測試后挑選一個能看的。

          這主要是因為不管是文生圖還是圖生圖,在早期都缺乏一個特別好的控制手段。