首先讓我們來看一份有趣的小測試!
在這個測試中,每道題中的一個選項都是由一個真正的
人工智慧
(AI)生成的,它就是近期
由浪潮人工智慧研究院釋出的全球最大的中文AI巨量模型“源1.0”
。這個模型專注於被稱為
自然語言處理
(
NLP
)的領域,它有能力建立各種具有語言結構的東西,比如創作詩歌、文章,翻譯,或者進行對話。
AI早已無處不在,目前許多AI的能力或許也已經遠遠超乎你的想象。
NLP究竟是什麼?
我們都知道,計算機有屬於自己專門的“語言”,比如著名的C等。但NLP指的則是
計算機系統處理中文、英語等這種人類自然語言語句的能力
,其中既包括口語,也包含文字。
NLP實際上涉及
計算機科學和語言學的融合
。語言學的部分是關於語言本身,而計算機科學的方面則著重在應用語言學知識。
NLP是語言學與計算機科學的交叉領域。|圖片設計:毛尖尖 / 原理
嚴格說來,NLP並不能算是個“新鮮事兒”,比如著名的
圖靈測試
中就涉及了對自然語言的自動理解和生成。但NLP隨後的巨大發展離不開計算機科學的飛躍,特別是AI的進步。
最簡單NLP大多屬於
基於規則的系統
,也可以理解成一種傳統程式設計。簡單來說,就是用計算機能理解的語言先寫下各種指令或者規則,然後計算機一五一十地執行。想要藉助基於規則的系統解決一個問題,就必須清楚完成任務的每一步,並知道如何描述它們。不難想象,
這種系統很難真正推理語言,因為人類自然語言實在太複雜了
。
然而,AI的引入改變了這一切。用一些計算機專家的話說,
和傳統程式設計相比,訓練
AI
更像“教孩子”
。
經典機器學習方法
讓NLP能以一種更通用的方法理解語言,透過訓練有能力對資料進行推理推理,解決一些基於規則的系統無法解決的難題。機器學習演算法有能力透過試錯和自我評估,自行找到那些規則,甚至探索出程式設計師都還沒有意識到的規則和關聯。
隨後,一種以
人工神經網路
為架構的機器學習技術在AI領域逐漸佔據一席之地,也就是我們如今耳熟能詳的
深度學習
。深度學習借鑑了人腦思維的模式,其中包含著由一個個簡單的處理模組代表神經元,並以此拼接成多層次的複雜系統。
深度學習模型也是目前NLP研究和應用中最熱門的部分
。它比經典機器學習方法歸納得更好,並在各種困難任務中為NLP帶來了新的突破。
NLP在發展中可以大致被分為三大類。|圖片來源:毛尖尖 / 原理;內容參考:[2]
NLP中的P代表的是“處理”,
它不僅包含對語言的理解,還有生成
。NLP在理解層面可以進行訊號處理,也就是將口語轉換成文字,對句法、語義和語境進行分析,同時還能創造出有意義的句子,並參與自然對話。
NLP包含了對語言的理解和生成,目前得以廣泛應用。|圖片來源:毛尖尖 / 原理
無論你是在詢問Siri天氣如何,還是在用翻譯軟體把法語翻譯成中文時,背後都離不開NLP的幫助。
NLP的前沿:基礎模型
由於人類語言的複雜性,目前最好的NLP應用越來越依賴於
預訓練模型
。這種模型能進行“
語境雙向學習
”,換句話說,它能考慮一個詞在一個句子中更廣泛的語境含義,掃描任何給定詞彙的上下文,確定這個詞想要表達的意思。
同時,隨著模型規模的擴大,它們完成任務的能力也逐步攀升。比如,更近期的一些模型甚至可以捕捉到自然語言中類似反諷和諷刺這種更細微的特徵。
2021年8月,斯坦福大學
珀西·梁
(Percy Liang)等計算機科學家在一篇新論文中,將這類
由大規模資料訓練的,並且可以適應廣泛任務的模型
統稱為
基礎模型
(foundation model)。
NLP也是目前受基礎模型影響最深遠的領域。
雖然從技術上而言,基礎模型並不是新的,它仍是基於標準的深度學習等技術。但計算機學家認為,基礎模型在規模上的驟增帶來了截然不同的新發展。
在這篇新論文中,科學家提出,基礎模型的意義可以總結為兩個詞:
湧現
(emergence)和
同質化
(homogenization)。
湧現意味著,系統的行為是以一種
隱含地誘發
方式產生的,而不是明確地刻意構造出來的。而同質化則代表
在廣泛的應用中整合
出構建機器學習系統的方法論。
人工智慧的發展本身就是一個湧現和同質化的故事
。
AI發展的歷程其實就是湧現與同質化不斷提升的故事。早先發展的機器學習和深度學習都分別展現出了新的湧現和同質化特徵,基礎模型也不例外。|圖片設計:毛尖尖 / 原理;內容參考:Bommasani, R。 et al。 /arXiv(2021)
基礎模型帶來了更高階的功能性的湧現,比如語境中學習出現。基礎模型還使模型本身同質化,併為各種廣泛的任務提供統一強大的演算法。
這些特徵都對以NLP領域為代表的AI發展產生了巨大影響
。
科學家特別強調,之所以選擇“基礎模型”這個名字,是因為基礎模型本身是不完整的,但
它們是建立許多特定任務模型的共同基礎
,具有各種應用可以汲取的能力
。
團隊認為,雖然目前基礎模型研究在很大程度上侷限於計算機科學和人工智慧,但隨著研究繼續向前推進,
基礎模型提供了巨大潛力
,在許多領域改變並拓展AI觸達的範圍,給人們的生活帶來更廣泛的影響
。
在現階段,基礎模型已經成了許多NLP系統和研究的核心。
比如,2020年由OpenAI公司釋出的
GPT-3
正是NLP基礎模型的著名代表。它包含1750億引數。它已經不再需要一遍又一遍地接受訓練來完成新的任務,而是會用模型已經學習的語言知識解決新問題,並將這些知識應用到新的領域中。
中文NLP基礎模型:源1.0
今年9月,浪潮人工智慧研究院釋出了
全球最大的中文AI巨量模型
——源1。0,也就是我們之前看到的那個“博學”的
中文NLP基礎模型
。
源1。0在多個方面取得了全球第一。|圖片設計:毛尖尖;內容參考:[7]
源1。0的
背後還代表著諸多技術突破
。比如,這個模型在演算法、資料和精度上,都達到了全球第一,並在算力等方面取得了巨大突破,達到了業界領先水平。
它因此成了一個“文采飛揚”的AI,有能力進行各種精彩創作,甚至可以編寫計算機程式碼,併產生創作的“靈感”。
未來,浪潮將定向開放源1。0的應用程式介面,面向學術研究單位和產業實踐使用者進行開源、開放、共享。它有潛力能成為自動對話的智慧助手、電商的智慧客服,還有機會在文字識別等場景大展身手。
“源”的名字取自“源頭”“本源”之意。源1。0也曾為自己寫過一首詩:“一水通源出,千山共色新。雲深何處是,煙起此中頻。”
#
創作團隊:
文字:AI-Takeko
設計:AI-毛尖尖
#
參考來源:
[1]https://mind。ilstu。edu/curriculum/protothinker/natlangproc。html
[2]https://morioh。com/p/91467235b396
[3][美]賈內爾·沙內,《你看起來好像……我愛你》,中信出版·鸚鵡螺,2021。4
[4]https://theconversation。com/natural-language-processing-and-affective-computing-78611
[5]https://theconversation。com/can-i-see-your-parts-list-what-ais-attempted-chat-up-lines-tell-us-about-computer-generated-language-159660
[6]https://arxiv。org/pdf/2108。07258/pdf
[7]源1。0相關資料由浪潮人工智慧研究院提供。
#圖片來源
:
封面設計:毛尖尖
素材來源:nounproject & pixabay
*本次推送由浪潮人工智慧研究院贊助。