一文讀懂AIGC，萬億新賽道為何今年獲得爆發？

2022-11-21由翟帥的科技最前沿發表于科技

據統計，CLIP模型蒐集了網路上超過40億個“文字-影象”訓練資料，這為後續AIGC尤其是輸入文字生成影象/影片應用的落地奠定了基礎。

2022年8月，在美國科羅拉多州舉辦的新興數字藝術家競賽中，參賽者提交AIGC（AI-Generated Content，以下簡稱“AIGC“）繪畫作品《太空歌劇院》，參賽者沒有繪畫基礎但是卻獲得了此次比賽“數字藝術/數字修飾照片”類別一等獎，引發多方爭議：

一方面

，批判者認為AI在“學習”了大量前人的作品之後，其創作沒有任何情緒和靈魂，難以和人類的藝術創作相提並論。

另一方面

，支持者認為創作者在一遍遍修改文字內容後，才讓AI創作出滿意的作畫，而且作品有很強的觀賞性，AI的創作有其獨特價值。

一、 AIGC構建發展“加速度”

AIGC是利用人工智慧技術來生成內容。2021年之前，AIGC生成的主要還是文字，而新一代模型可以處理的格式內容包括：文字、語音、程式碼、影象、影片、機器人動作等等。AIGC被認為是繼專業生產內容（PGC，professional-generated content）、使用者生產內容（UGC，User-generated content）之後的新型內容創作方式，可以在創意、表現力、迭代、傳播、個性化等方面，充分發揮技術優勢。2022年AIGC發展速度驚人，年初還處於技藝生疏階段，幾個月之後就達到專業級別，足以以假亂真。這讓花費畢生所學進行創作的從業人員倍感焦慮和緊張。同時，AIGC的迭代速度呈現指數級爆發，這其中深度學習模型不斷完善、開源模式的推動、大模型探索商業化的可能，成為AIGC發展的“加速度”。

（一）深度學習模型是AIGC加速普及的基礎

視覺資訊一直在網路中有較強的傳播力且容易被大眾感知，具有跨平臺、跨領域、跨人群的優勢，天然容易被人記憶和理解。同時視覺資訊應用場景廣泛，因此生成高質量的影象成為當前AI領域的一個現象級功能。

2021年，OpenAI團隊將跨模態深度學習模型CLIP（Contrastive Language-Image Pre-Training，以下簡稱“CLIP”）進行開源。CLIP模型能夠將文字和影象進行關聯，比如將文字“狗”和狗的影象進行關聯，並且關聯的特徵非常豐富。因此，CLIP模型具備兩個優勢：一方面同時進行自然語言理解和計算機視覺分析，實現影象和文字匹配。另一方面為了有足夠多標記好的“文字-影象”進行訓練，CLIP模型廣泛利用網際網路上的圖片，這些圖片一般都帶有各種文字描述，成為CLIP天然的訓練樣本。據統計，CLIP模型蒐集了網路上超過40億個“文字-影象”訓練資料，這為後續AIGC尤其是輸入文字生成影象/影片應用的落地奠定了基礎。

“對抗生成網路”GAN（Generative Adverserial Network，以下簡稱“GAN”）雖然也是很多AIGC的基礎框架，但是GAN有三個不足：一是對輸出結果的控制力較弱，容易產生隨機影象；二是生成的影象分別率較低；三是由於GAN需要用判別器來判斷生產的影象是否與其他影象屬於同一類別，這就導致生成的影象是對現有作品的模仿，而非創新。因此依託GAN模型難以創作出新影象，也不能透過文字提示生成新影象。

隨後出現的Diffusion擴散化模型，則真正讓文字生成影象的AIGC應用為大眾所熟知，也是2022年下半年Stable Diffusion應用的重要推手。Diffusion模型有兩個特點：一方面，給影象增加高斯噪聲，透過破壞訓練資料來學習，然後找出如何逆轉這種噪聲過程以恢復原始影象。經過訓練，該模型可以從隨機輸入中合成新的資料。另一方面，Stable Diffusion把模型的計算空間從畫素空間經過數學變換，降維到一個可能性空間（Latent Space）的低維空間裡，這一轉化大幅降低了計算量和計算時間，使得模型訓練效率大大提高。這演算法模式的創新直接推動了AIGC技術的突破性進展。

總的來看，AIGC在2022年實現破圈，主要是在深度學習模型方面有了長足進步：首先CLIP模型基於海量網際網路圖片進行訓練，推動AI繪畫模型進行組合創新；其次Diffusion擴散化模型實現演算法創新；最後使用潛空間降維的方法來降低Diffusion模型在記憶體和時間消耗較大的問題。因此，AIGC繪畫之所以能夠幫助大眾畫出各種天馬行空的畫作，背後離不開大量深度學習模型的不斷完善。

（二） “開源模式”成為AIGC發展催化劑

在演算法模型方面

，AIGC的發展離不開開源模式的推動。以深度學習模型CLIP為例，開源模式加速CLIP模型的廣泛應用，使之成為當前最為先進的影象分類人工智慧，並讓更多機器學習從業人員將CLIP模型嫁接到其他AI應用。同時，當前AIGC繪畫最熱門的應用Stable Diffusion已經正式開源（包括模型權重和程式碼），這意味著任何使用者都可以以此建立針對特定文字到影象的創作任務應。Stable Diffusion的開源直接引發2022年下半年AIGC引發廣泛關注，短短几個月時間內出現大量二次開發，從模型最佳化到應用拓展，大幅降低使用者使用AIGC進行創作的門檻，提升創作效率，並長期長期霸佔GitHub熱榜第一名。

在訓練資料集方面

，機器學習離不開大量資料學習，LAION作為全球非盈利機器學習研究機構，在2022年3月開放了當前規模最大的開源跨模態資料庫LAION-5B，使得近60億個“文字-影象”對可以用來訓練，從而進一步加快AI影象生成模型的成熟，幫助研究人員加快推動從文字到影象的生成模型。正是CLIP和LAION的開源模式構建起當前AI影象生成應用的核心。未來，隨著模型穩定，開源將成為AIGC成熟的催化劑，源模式有望讓相關模型成為海量應用、網路和服務的基礎，應用層面的創造力有望迎來拐點。

二、 AIGC為創作領域帶來的效率與模式的創新

（一） AIGC工具屬性有助於效率提升

在捕捉靈感方面，AIGC可以幫助有經驗的創作者捕捉靈感，創新互動形式。例如在遊戲行業，製作人靈感往往難以準確表達，與美術工作人員經常由於溝通產生理解誤差。透過AIGC系統可以在設計初期，生成大量草圖，在此基礎上製作人與美術人員可以更好的理解並確認彼此的需求。同時，創作靈感難以琢磨，可以提前透過AIGC來尋找“感覺”，進一步降低美術創作者大量前期工作和專案成本。例如，製作人先構建完整的背景故事後，由AIGC生成系列畫作，之後再由專業的美術人員進行篩選、處理、整合，並將整個故事和畫面進一步完善提升。

在提升效率方面，AIGC的出現將會讓創作者擁有一個更加高效的智慧創作工具，在內容創作環節進行最佳化，而非成為競爭對手。例如在極短的專案籌備時間內，AIGC可以大幅提升效率，驗證了AI投入到工業化使用的可行性。尤其是對於藝術、影視、廣告、遊戲、程式設計等創意行業的從業者來說，可以輔助從業者進行日常工作，並有望創造出更多驚豔的作品。同時，還可以進一步降低成本和效率，為規模化生產構建市場增量。

（二） AIGC構建創意與實現的分離

在創意構思方面，AIGC構建了新的創意完善通路，傳統的創作過程中消化、理解以及重複性工作將有望交由AIGC來完成，最終創意過程將變為“創意-AI-創意”的模式。

在創意實現方面，創作者和AIGC的關係類似於攝影師和照相機。攝影師構建拍攝思路並進行規劃，對相機進行引數配置，但是不用瞭解相機的工作機制，一鍵生成高質量的內容。同樣的，創作者構思並進行規劃，對AI模型進行引數配置，不需要了解模型的原理，直接點選輸出內容即可。創意和實現呈現出分離狀態，實現過程變為一種可重複勞動，可以由AIGC來完成，並逐步將成本推向趨近於0。

（三） AIGC給創作者獲得更多收益帶來思路創新

創作者的成果是AIGC學習的物件，但創作者的創意才是關鍵，創意本身比AIGC生成的繪畫更有價值，因此如何將創作者的“創意”進行量化，甚至定價，將有助於打造AIGC的商業模式。這其中“注意力機制”將成為AIGC潛在的量化載體。例如國內有機構專家提出，可以透過計算輸入文字中關鍵詞影響的繪畫面積和強度，我們就可以量化各個關鍵詞的貢獻度。之後根據一次生成費用與藝術家貢獻比例，就可以得到創作者生成的價值。最後在與平臺按比例分成，就是創作者理論上因貢獻創意產生的收益。

例如某AIGC平臺一週內生成數十萬張作品，涉及這位創作者關鍵詞的作品有30000張，平均每張貢獻度為0。3，每張AIGC繪畫成本為0。5元，平臺分成30%，那麼這位創作者本週在該平臺的收益為：30000*0。3*0。5*（1-30%）=3150元的收益，未來參與建立AI資料集將有望成為藝術家的新增收益。

（四）從“大模型”到“大應用”，探索可行商業模式

基於深度學習演算法資料越多，模型魯棒性越強的特點，當前的大模型規模只增不減，比拼規模已經成為標配。例如，Open AI推出的GPT-3引數已經超過1750億個。但“資料投餵”並非一種技術路徑上的創新，更多的是在工程領域的微調。需要指出的是，模型規模越大，其實越難以在現實場景中落地部署。同時“海量資料”並不等同於“海量高質量資料”，有可能會導致反向效果產生。

AIGC的發展離不開預訓練大模型的不斷精進。大模型雖然在很多領域都表現出良好的使用效果，但是這些效果作為展示甚至噱頭之後，很難形成良性的商業價值，與大模型的訓練成本、基礎設施投入更是相差甚遠。如何推動“大模型”向“大應用”來轉變，正在成為關鍵的考驗。AIGC的破圈以及引發的關注，可以看到大模型商業化的潛力正在清晰化：一方面大模型企業可以根據C端使用者實際“按需提供服務”和商業轉化；另一方面帶動對雲計算、雲端儲存的使用量上升。將AIGC從“嚐鮮試試看”變成大眾頻繁使用的需求，再到與具體行業和領域深度結合，依託我國豐富的產業需求和應用場景，有望為大模型商業化和長期價值探索一條新路徑。

三、 AIGC發展面臨的挑戰

Gartner預計，到2025年，生成式人工智慧將佔所有生成資料的10%。根據《Generative AI ：A Creative New World》的分析，AIGC有潛力產生數萬億美元的經濟價值。AIGC在引發全球關注的同時，智慧財產權、技術倫理將面臨諸多挑戰和風險。同時AIGC距離通用人工智慧還有較大的差距。

（一） AIGC引發“創造力”歸屬爭論

傳統印象中，人工智慧在創造性工作領域與人類還無法進行競爭，主要擅長的是計算、挖掘，聚焦在海量資料分析領域。人類更擅長的是創新，例如詩詞、設計、程式設計等需要創造性的事物上。與AI下棋相比，AI進行繪畫創作給大眾帶來的衝擊更為明顯：棋類遊戲具有明確的規則和定義，不需要AI具備創造性，但AIGC尤其是輸入文字就能進行繪畫、影片，讓沒有相關專業能力的人也可以製作出以假亂真的專業級別作品，則引發人們對自身引以為傲的“創造力”擔憂。AI不會替代創作者，但是可能會替代不會AI工具的創作者。

（二）智慧財產權引發創作者擔憂

由於演算法模型的進一步完善和成本快速下降，AIGC大規模商業化成為現實，過去遙不可及的專業能力已經具備從實驗室飛入尋常百姓家的可能。與此同時，AIGC的飛速發展和商業化應用，除了對創作者造成衝擊外，也對大量依靠版權為主要營收的企業帶來衝擊。具體來看：

一方面，

AIGC難以被稱為“作者”。根據我國《著作權法》的規定，作者只能是自然人、法人或非法人組織，很顯然AIGC不是被法律所認可的權利主體，因此不能成為著作權的主體。但AIGC應用對生成的圖片版權問題持有不同觀點，圖片屬於平臺、完全開源還是生成者，目前尚未形成統一意見。

另一方面，

AIGC產生的“作品”尚存爭議。根據我國《著作權法》和《著作權法實施條例》的規定，作品是指文學、藝術和科學領域內具有獨創性並能以某種有形形式複製的智力成果。AIGC的作品具有較強的隨機性和演算法主導性，能夠準確證明AIGC作品侵權的可能性較低。同時，AIGC是否具有獨創性目前難以一概而論，個案差異較大。

由於創作者每次新的創作都在無形中對AIGC進行免費培訓，這讓眾多版權機構產生巨大擔憂。目前已經有大量藝術家和創作者宣佈禁止AI學習自己的作品，從而保護自身智慧財產權。Getty Images、Newgrounds等網站也紛紛宣佈禁止上傳和銷售AIGC作品。

（三）距離通用人工智慧還有較大差距

當前熱門的AIGC系統雖然能夠快速生成影象，但是這些系統是否能夠真正理解繪畫的含義，從而能夠根據這些含義進行推力並決策，仍是未知數。

一方面，

AIGC系統對輸入的文字和產生的影象不能完全關聯起來。例如，使用者對AIGC系統進行測試，輸入“騎著馬的宇航員”和“騎著宇航員的馬”內容時，相關AIGC系統難以準確生成對應的影象。因此，當前的AIGC系統還並沒有深刻理解輸入文字和輸出影象之間的關係。

另一方面，

AIGC系統難以瞭解生成影象背後的世界。瞭解影象背後的世界，是判斷AIGC是否具備通用人工智慧的關鍵。目前來看，AIGC系統還難以達到相關的要求。比如，在Stable Diffusion 輸入“畫一個人，並把拿東西的部分變成紫色”，在接下來的九次測試過程中，只有一次成功完成，但準確性還不高。顯然，Stable Diffusion 並不理解人的雙手是什麼。

知名AI專家發出的調查也印證了同樣的觀點，有86。1%的人認為當前的AIGC系統對世界理解的並不多。持相同觀點的人還包括Stable Diffusion的執行長。

（四）創作倫理問題尚未有效解決

部分開源的AIGC專案，對生成的影象監管程度較低。一方面，部分資料集系統利用私人使用者照片進行AI訓練，侵權人像圖片進行訓練的現象屢禁不止。這些資料集正式AIGC等圖片生成模型的訓練集之一。例如，部分資料集在網路上抓取了大量病人就醫照片進行訓練，且沒有做任何打碼模糊處理，對使用者隱私保護堪憂。另一方面，一些使用者利用AIGC生成虛假名人照片等違禁圖片，甚至會製作出暴力和性有關的畫作，LAION-5B資料庫包含色情、種族、惡意等內容，目前海外已經出現基於Stable Diffusion模型的色情圖片生成網站。

由於AI本身還不具備價值判斷能力，為此一些平臺已經開始進行倫理方面的限制和干預。例如DALL·E2已經開始加強幹預，減少性別偏見的產生、防止訓練模型生成逼真的個人面孔等。但相關法律法規的空白和AIGC應用研發者本身的不重視將引發對AI創作倫理的擔憂。

TAG： AIGC 模型 AI 影象創作者

一文讀懂AIGC，萬億新賽道為何今年獲得爆發？

相關推薦