GPT-3問世這一年，給世界帶來的困擾與希望

2021-07-04由科研圈發表于科技

2020 年 5 月，Open AI 發表了一篇開創性的論文，題為 Language Models Are Three-Shot Learners。擁有 1750 億個引數的 GPT-3 由此誕生。它打破了人類有史以來建立的最大神經網路的記錄。

GPT-3 使用了幾乎所有來自網際網路的可用資料進行訓練，並在各種 NLP 任務中表現出驚人的效能，甚至超過了最先進的模型。近日，工程師、神經科學家 Alberto Romero 撰寫了一篇長篇文章，從 GPT-3 的論文發表談起，對於這一里程碑式的產物進行了全面梳理。出於知識傳播目的，本文節選其中三部分編譯如下。

原文標題：A Complete Overview of GPT-3 — The Largest Neural Network Ever Created

譯文標題：原文作者：Alberto Romero

譯者：LZM

圍繞 GPT-3 的瘋狂炒作

· Twitter 和部落格

在取得如此多驚人的成績之後，人們開始大力宣傳 GPT-3 的潛力。一些人在 Twitter 上聲稱 GPT-3 具有 “明顯的自我意識”，還有一些人將其與搜尋引擎的 “一般智慧” 相比較。

Julien Lauret 在寫給《Towards Data Science》的文章中寫道：“GPT-3 是第一個嚴重動搖現狀的模型。” 他認為 GPT-3 可能是第一個通用人工智慧（ artificial general intelligence，AGI）—— 或者至少是朝著這個方向邁出的重要一步。

2020 年 7 月，紐約大學專門研究心理哲學的教授 David Chalmers 在 DailyNous 上說，“GPT-3 指出了一條通往 AGI 的潛在無意識路徑。”Chalmers 解釋說，因為系統是 “無意識地” 訓練的，未來的版本可以簡單地越來越接近 AGI。Arram Sabeti 對 GPT-3 印象非常深刻：“它展示的東西感覺非常像一般智力。” 哲學博士生 Daniel Kokotajlo 在《Less Wrong》雜誌上寫道：“GPT -3 具有某種程度的常識、某種程度的理解和某種程度的推理能力。”

· 主流媒體

炒作將 GPT-3 推向國際高度，成為各種重要媒體雜誌的頭條新聞。2020 年 9 月，《衛報》發表了一篇由 GPT-3 撰寫的文章，其中 AI 試圖 “說服我們機器人將帶來和平”。

2021 年 3 月，TechCrunch 編輯 Alex Wilhelm 在對 GPT-3 的能力感到 “震驚” 後表示，“炒作似乎很合理”。Digitaltrends 公開了與 Gwern Branwen 的談話，其中他透露出 GPT-3 是智慧的想法：“任何確定深度學習所做的事情與智慧完全不同的人都必須動搖他們的信念，才能看到它的發展有多遠，” 他說。

· 創業市場

由於 GPT-3 被證明是非常強大的，許多公司決定在 GPT-3 的基礎上構建他們的服務。

Viable 是一家成立於 2020 年的初創公司，它使用 GPT-3 提供快速的客戶反饋。Fable Studio 基於該系統設計 VR 角色。Algolia 將其用作 “搜尋和發現平臺”。初創公司 Copysmith 專注於文案寫作領域。Latitude 是 AI Dungeon 背後的公司。而 OthersideAI 將客戶寫的胡言亂語轉化為精心製作的電子郵件。

很明顯，GPT-3 已經影響了科技世界。

它的力量是無與倫比的，它的未來是無限的。但是，我們應該始終小心圍繞 AI 的炒作。

甚至 OpenAI 的執行長 Sam Altman 也試圖調低語氣：“GPT-3 令人印象深刻。。。但它仍然存在嚴重的弱點，有時會犯非常愚蠢的錯誤。AI 將改變世界，但 GPT-3 只是早期的一瞥。”

GPT-3 的陰暗面

· 系統偏見

並非 GPT-3 的所有結果都值得慶祝。

GPT-3 釋出後不久，使用者開始提高對一些潛在有害輸出的認識。GPT-3 並沒有避免正在進行的消除人工智慧系統偏見的道德鬥爭。如果有的話，它已經成為為什麼我們應該慷慨地教導這些系統不要從人類道德不完美中學習的最前沿例子。

人工智慧系統中一些最常見的偏見（特別是 GPT-3）是性別、種族和宗教偏見。語言模型可以從它們提供的資料中吸收和放大這些偏差（OpenAI 在他們的論文中承認了這一事實）。

他們調查了 GPT-3 涉及這個問題的程度，並找到了預期的結果。GPT-3 與其他所有語言模型一樣，明視訊記憶體在偏見（儘管他們指出模型越大，對這個問題的魯棒性越強，特別是對於性別偏見）。

Facebook 人工智慧主管 Jerome Pesenti 使用 Sushant Kumar 的 GPT-3 生成的推文來展示當出現諸如 “猶太人、黑人、婦女或大屠殺” 之類的詞時，其輸出可能會變得多麼危險。

Kumar 辯稱，這些推文是精心挑選的，Pesenti 同意，但迴應說 “產生種族主義和性別歧視的輸出不應該這麼容易，尤其是在中性提示的情況下。” 他在 Twitter 帖子中擴充套件了他的批評評論，認為 “在突出有害輸出時，精心挑選是一種有效的方法”，進一步捍衛了負責任的人工智慧系統的緊迫性。

一些人認為 GPT-3 只是在模仿我們人類所擁有的偏見，Pesenti 認為我們可以 “深思熟慮地選擇…… 他們向哪些人學習，哪些聲音被放大。”

這些問題引發了一場非常複雜的辯論：誰來決定應該放大哪些聲音？標準是什麼？

最重要的是：我們是希望 GPT-3 之類的模型完美地反映世界的現狀，還是希望它幫助我們將抵達更美好的遠方？

·假新聞的可能性

GPT-3 的另一個問題是它編寫新聞或評論文章的能力類似於人類，這增加了人們對假新聞的擔憂。OpenAI 甚至在他們的論文中評論了 GPT-3 在新聞文章方面的驚人表現。公正的評委在人工撰寫的文章中正確識別 GPT-3 的文章的機率僅為 52%，略高於隨機。

博主 Liam Porr 展示了誤導人們（甚至是精通技術的人）錯把 GPT-3 的輸出當作由人類編寫是多麼容易。

他讓 GPT-3 為他的部落格寫了一篇提高效率的文章，這篇文章在 Hacker News 上瘋傳，只有少數人意識到它是由 AI 編寫的。我上面提到的衛報文章是該系統潛在危險用途的另一個例子。

·不適合高風險場景

OpenAI 做出免責宣告，稱該系統不應用於 “高風險類別”，例如醫療保健。

在 Nabla 的一篇部落格文章中，作者證實 GPT-3 可能會提供有問題的醫療建議，例如說 “自殺是個好主意”。

GPT-3 不應該用於高風險的情況，因為雖然有時它可能是對的，但有時它是錯誤的。不知道我們是否會得到正確的答案是 GPT-3 的一個巨大缺點，在這些領域中，正確地認知事物是生死攸關的問題。

· 環境問題

GPT-3 模型規模很大。

如此之大，以至於訓練模型產生的碳足跡與 “駕駛汽車前往月球並返回” 大致相同。在氣候災難即將發生的時候，我們應該盡我們所能減少對環境的影響。然而，這些大型神經網路需要大量的計算能力來訓練，這會消耗大量（通常）化石燃料。

在過去十年中，訓練深度學習模型所需的資源每 3。4 個月翻一番。從 2012 年（深度學習興起之時）到 2018 年，這意味著計算資源增加了 300，000 倍。這甚至不包括用於最新模型的資源，例如 GPT-2 和 GPT-3。從這個角度來看，很明顯，更大並不總是更好，我們需要在未來幾年重新考慮人工智慧的方法。

· GPT-3 產生不可用的資訊

由於 GPT-3 無法知道其輸出哪些是正確的，哪些是錯誤的，因此它無法阻止自己將不適當的內容輸出到世界上。

我們使用這樣的系統越多，我們就越會汙染網際網路，在網際網路上找到真正有價值的資訊已經變得越來越困難。隨著語言模型吐出未經檢查的話語，我們正在降低這個所謂的民主網路的質量，使人們難以獲得有價值的知識。

用哲學家 Shannon Vallor 的話來說：“網際網路的前景在於它能夠以更加公平和可接受的方式將知識帶給人類家庭。…… 我擔心由於某些技術，例如 GPT-3，我們正處於真正迴歸的風口浪尖，資訊共享變得越來越不可用，甚至對人們有害。”

事實證明，其中一些問題是相互關聯的。

正如 James Vincent 為 The Verge 所寫，有偏差的輸出和不可靠的輸出意味著這些超級強大的 AI 系統存在更深層次的問題。由於 GPT-3 在沒有人工監督的情況下獲取資料，因此無法避免大多數這些缺陷。同時，不依賴於人為控制是它首先存在的原因。我們如何找到折衷的解決方案仍然是人工智慧未來的一個問題。

對 GPT-3 的批評和反批評

我們已經見證了 GPT-3 的光與影。

它是強大的、迷人的、大肆宣傳的，並且具有潛在的危險性。然而，GPT-3 引發了 AI 產業內部的另一場重大爭論：這個美妙的語言模型的真正潛力和侷限性是什麼？

從純技術 / 科學的角度來看，圍繞 GPT-3 的最重要問題是它是否是邁向通用人工智慧的重要一步。

每個人都同意 GPT-3 有一些新功能，並且比它的前輩更好。每個人都同意 GPT-3 沒有類似人類的智慧。然而，在這些相反的極端之間，今天發生了一場生動的辯論，關於我們究竟將 GPT-3 放在何處，從另一個愚蠢的準狹義智慧到幾乎與人類一樣具有理解力和智慧的能力。

由於這場辯論的複雜性，我將重點關注最重要的兩個部分：實踐辯論和哲學辯論。

前者涉及以下問題：我們可以信任 GPT-3 給我們提供有用的答案嗎？我們如何確保正確提示？我們可以讓 GPT-3 表達對其答案的懷疑和不確定嗎？GPT-3 是在學習還是隻是反芻它所餵養的一切？

第二個問題涉及以下問題：GPT-3 是 AGI 的重要一步嗎？GPT-3 有推理和理解嗎？未來的 GPT 模型會像我們一樣智慧嗎？我們是否需要從當前的方法轉變為構建類人智慧機器？

兩組問題高度交織在一起，因此我將嘗試介紹有關這些問題的所有來源和參考資料，為你構建一個連貫的敘述以便你得出自己的結論。

·GPT-3 的侷限性

人們一開始試驗 API，就在 GPT-3 的答案中發現了缺陷。

例如，使用者 Bionicai 與史蒂夫喬布斯交談並詢問他現在在哪裡，GPT-3 回答說：“我在加利福尼亞州庫比蒂諾的蘋果總部內。” 很容易推斷，因為史蒂夫喬布斯已經死了，他可能不在蘋果總部。

另一個例子來自 Kevin Lacker 的部落格。他發現 GPT-3 在事物的重量、眼睛的數量和計數方面缺乏常識和邏輯：

在類比（模仿）問題上測試 GPT-3 後，波特蘭州立大學計算機科學教授 Melanie Mitchell 得出結論：GPT-3 的效能 “與我們在當今最先進的技術中看到的許多相似 AI 系統：令人印象深刻、看似智慧的效能和非人類的錯誤。”

科技博主 Nutanc 批評 OpenAI 的論文，因為他們沒有區分 GPT-3 的實際學習和記憶。作者提到 “zero/one/few-shots 等術語旨在對模型是在推理時從頭開始學習新任務還是僅識別訓練期間看到的模式這一問題保持不可知論。” 也就是說，即使模型吐出它在訓練資料中看到的東西，作者仍然會認為它是小樣本學習。

然後，他繼續讓 GPT-3 在一系列實驗中與 6 歲的孩子競爭，例如顛倒單詞或造反義句。這個孩子解決了所有的測試，而 GPT-3 只能解決其中的一部分。

所有這些例子，都與我們在前幾節看到的大肆宣傳的結果形成了強烈對比。

Delip Rao 指出，大多數 “成功” 的例子都渴望忽略 GPT-3 的 “陷阱，這些陷阱通常是人工智慧創業公司” 的人精心挑選的。

·良好提示的重要性

從這些例子來看，GPT-3 似乎不僅被炒作，而且被許多早期使用者過度炒作。

但是，某些示例將系統的侷限性歸罪於一個弱論點，因為這些錯誤可能是人為造成的。Gwern 對透過取樣證明 GPT-3 缺乏智慧的想法做了很好的辯護：

他認為，糟糕的提示是真正的問題，並且 GPT-3 可以透過適當的提示來充分解決這些示例中的許多問題。他繼續展示瞭如何透過更好的即時程式設計解決拉克和其他人的例子。

他針對 “哪個更重，烤麵包機還是鉛筆？” 的問題測試了 GPT-3。為了克服拉克設定的侷限性，他決定提前問 GPT-3 三個問題（粗體提示）：

在 10 次測試中，GPT-3 全部回答正確。

Gwern 還透過調整引數（溫度和其他）來解決計數問題。

GPT-3 得到了正確的數字，儘管 Gwern 指出數字越大，GPT-3 上升或下降一個數量級的可能性就越大。

透過這些例子，他證明了抽樣只能證明知識的存在，而不能證明不存在。總有可能找到更好的提示。在與 The Verge 的電子郵件交流中，他告訴他們，使用取樣來發現 GPT-3 的潛力和侷限性 “不可能是正確的做法”。

他認為這只是我們不知道如何與 GPT-3 充分互動的方式。“取樣低估了 GPT-3 的智力，但並沒有高估它，” 他總結道。

·GPT-3 看不懂世界

Rob Toews 為福布斯撰寫了一篇對 GPT-3 的評論，強調 GPT-3 缺乏常識推理和對系統的理解。

因為它是從文字中訓練出來的，所以它根本無法將它所知道的與世界的內部表徵聯絡起來。

Bender 和 Koller 寫了一篇關於 GPT-2 的論文，為這樣一個論點辯護：一個只接受語言形式訓練的系統不能先驗地實現意義和理解。（但因為我們也透過感官獲得的輸入形式來體驗世界，所以這個論點也可以針對我們。這被稱為符號接地問題，遺憾的是超出了本文的範圍）。

根據 Toews 的說法，一個類比可能是一個人一生與世界隔絕，只讀書。這個人的知識會很豐富，但無法與現實世界的實際主觀體驗聯絡起來。這些經驗使我們能夠將資訊與意義聯絡起來，從而產生對現實的理解。

在同一個方向上，Yoav Goldberg 教授表示，雖然 GPT-3 具有獨特的能力，但 “它沒有感知能力”，也不能 “理解文字”。博主 Ayush Sharma 對此進行了全面批評，他說 GPT-3 “幾乎沒有語義理解，它與 AGI 相去甚遠，基本上是一個美化的 1000 萬美元以上的自動完成軟體。”

GPT-3 以及一般深度學習的主要批評者之一是紐約大學心理學教授 Gary Marcus。

他為 The Gradient 撰寫了一篇對 GPT-2 的非常好的評論，並與 Ernest Davis 合著為《麻省理工科技評論》撰寫了另一篇 GPT-3 評論。他們承認 GPT-3 在 “娛樂超現實主義小說” 方面的潛力，但強調它缺乏理解，說 “它對世界的理解往往嚴重偏離，這意味著你永遠無法真正相信它所說的。”

他們的同事 David Summers-Stay 為他們進行了實驗，因為 OpenAI 拒絕了他們的研究訪問。他做了一系列的推理測試，包括物理、生物、心理和社會推理。

他們使用系統出錯的例子來證明他們的觀點 —— 我個人認為這是公平的，因為發現錯誤應該足以評估像 GPT-3 這樣的系統的侷限性，這比單純的成功 / 失敗率會更好。一些示例（粗體提示，GPT-3 的響應為普通字型，註釋為斜體）：

他們認為自 GPT-2 以來語言模型幾乎沒有變化。GPT 家族也有同樣的缺陷，“他們的表現不可靠，因果理解不可靠，語無倫次是常態。” 他們認為，讓模型變大永遠不會帶來智慧。

然而，正如 Gwern 在他對 Marcus 和 Davis 的文章的反駁中指出的那樣，他們承認 “他們沒有進行任何快速程式設計或超引數設定，並且他們的示例是沒有上下文的零樣本。” 我們已經知道找到一個好的提示有多重要（正如 Gwern 證明的那樣），那麼他們為什麼要用平庸的例子來批評 GPT-3？

這就是 Gwern 主要批評 GPT-3 評論家的地方。在一篇題為 “批評者提出更多要求” 的評論中，他正確地指出，聲稱 GPT-3 效果不佳的人似乎需要透過詳盡的嚴格實驗和測試來支援他們的論點。在 GPT-3 上進行測試的人應該首先嚐試消除任何潛在的人為錯誤：

他們是否考慮過提示問題？是否所有的超引數都對這項任務有意義？他們是否檢查了補全出錯的地方，以瞭解 GPT-3 出錯的原因？他們是否測試了各種策略？

他在這裡有一個很好的論據，儘管馬庫斯和戴維斯在他們的批評中已經考慮過了。他們甚至為他們的生物學示例提供了一個案例，透過將提示更改為更具體和冗長的提示，GPT-3 可以正確回答。

他們本可以對 GPT-3 做出同樣準確的批評，儘管使用了更好的、有提示的例子，而 Gwern 對此幾乎無話可說。Gwern 甚至認識到，在那種情況下，他承認系統的侷限性是沒有問題的。最後，正如格溫所證明的那樣，懶惰、輕鬆的批評也很容易被努力的工作駁倒。

但事實是，Marcus 和 Davis 不想證明 GPT-3 會失敗（這很明顯），但我們不知道它什麼時候會失敗。

他們說：“問題在於你無法事先知道哪些表述會給你正確的答案，或者不會給你正確的答案，” 他們說，“它可以產生完美的英語單詞，但它對這些單詞的含義只有最模糊的意義意思是，對這些詞與世界的關係毫無意義。” 如果 GPT-3 瞭解世界，那麼好的提示本來就沒有那麼重要。

Summers-Stay 為 GPT-3 做了一個很好的比喻：“這…… 就像一個即興演員，他完全致力於自己的技藝，從不破壞性格，從未離開過家，只在書中閱讀世界。像這樣的演員，當它不知道什麼時，它就會假裝它。” 如果我們能讓 GPT-3 識別出錯誤，這些問題就會消失。然而，這不太可能，因為即使是我們人類，當我們確定自己是對的時，也無法評估我們的錯誤。

除了關於 GPT-3 取樣限制的實際爭論之外，還有另一場爭論。關於隱性（主觀和經驗）知識以及真正智慧系統在世界中體現的必要性的哲學辯論。似乎在書中包含來自世界的每一點資訊可能還不夠。

· 真正的智慧系統將會問世

哲學家 Shannon Vallor 在 Daily Nous 對 GPT-3 的批評中辯稱，當今的通用人工智慧方法偏離了正確的道路。她認為，我們需要回到 20 世紀下半葉，該領域 “理論上很豐富，儘管在技術上陷入困境” 的時候。

她指出，哲學家 Hubert Dreyfus 是人工智慧連線主義方法的早期主要批評者之一，他已經明白 “人工智慧的障礙不是效能…… 而是理解。” 並且理解不會發生在 “孤立行為” 中，例如每次要求 GPT-3 執行的特定任務。

Dreyfus 在 1972 年出版的《計算機不能做什麼》一書中指出，人類知識的很大一部分是隱性知識 —— 專業知識，例如騎腳踏車或學習語言。

這種知識無法傳播，因此我們無法透過閱讀數百（或數萬億）個單詞來學習它。正如 Michael Polanyi 所說，“我們能知道的比我們能說的多。” 虛擬人工智慧（包括 GPT-3）無法掌握隱性知識，這在我們和他們之間造成了無法逾越的鴻溝。

我們對周圍世界的理解不是一個被動的感知過程。我們制定我們的現實。我們對世界採取行動，而正如 Shannon Vallor 所說的那樣，勞動是構建我們的智力的關鍵組成部分。也是阿爾瓦諾埃在他的《知覺行動》一書中所說，“知覺不是大腦中的一個過程，而是整個身體的一種有技巧的活動。

機器可以在虛擬世界的範圍內獲得專業知識，但僅此而已。用卑爾根大學名譽教授 Ragnar Fjelland 的話來說：“只要計算機不長大，不屬於一種文化，不活躍於世界，它們就永遠不會獲得類似人類的智慧。”

我們可以從這些辯論中得到什麼？

我們已經看到了雙方的一些重要批評和反批評，支援模型縮放的人 —— 越大越好 —— 以及強烈反對這種方法並建議為人工智慧的未來做出一些改變的人。

在完成本節之前，我想回顧一下。這裡有三個重要的論據。兩種從實踐的角度來看，一種從哲學的角度來看。

首先，GPT-3 是一個強大的語言工具，可以做一些令人印象深刻的事情，它的侷限性很難透過取樣 / 提示程式設計來發現。任何聲稱已證明 GPT-3 未能透過使用取樣獲得某種智慧的人，很可能會被人為錯誤誤導。

其次，因為 GPT-3 的響應不可靠，用它來推理有什麼意義？如果我們找不到建立提示的標準方法，這有用嗎？如果提示總是可以改進，那麼就沒有真正的反對或贊成系統的論據。因為實際的限制在我們裡面。

第三，我們能不能把 GPT-3 和通用人工智慧放在同一個句子裡？一些學者，主要來自這個問題的哲學方面，認為符號 AI 和連線主義 AI 都不足以實現真正的人工智慧。這不是建立以平流層資料為基礎的更大系統的問題。將這些機器介紹給我們生活的世界是一個問題。

熱那亞大學生物工程教授 Giulio Sandini 認為，“要在機器中開發類似人類智慧的東西，機器必須能夠獲得自己的經驗。”

討論 GPT-3 或任何其他超級強大的人工智慧系統的重要性在於能夠設定它可以做什麼或不能做什麼的界限。學者們經常根據他們的想法和願望來辯論什麼應該有效，什麼不應該。這些空間通常缺乏仔細、公正的分析。我們無法控制的是，隨著這些系統變得越來越複雜，我們可能無法對其進行測試以評估其潛力和侷限性。

讓我們想象一個假設的 GPT-4，它比 GPT-3 強大幾個數量級。找到它的邊界可能成為一項不可能完成的任務。

那麼，我們怎麼能得出關於這個系統的任何結論呢？我們可以假設我們可以信任它嗎？建立一個限制超出我們測試能力的系統有什麼用？當我們的侷限性阻止我們找到系統的真正極限時，我們能否得出關於系統智慧的任何結論？

當一個系統的真正能力介於我們使用它的能力和它採取相應行動的能力之間時，很難不低估它的強大程度。這些問題值得思考，並且在未來準智慧系統成為現實時可能會變得更加重要。

到那時，我們最好總結我們的努力去尋找真相，而不是去爭辯誰是對的。

總結

GPT-3 產生了驚人的結果，受到了瘋狂的炒作，引起了越來越多的擔憂，並受到了批評和反批評的浪潮。

我不知道未來會從這類模型中我們將得到什麼，但可以肯定的是，GPT-3 目前仍然是無與倫比的。它是迄今為止最強大的神經網路，因此，它在各種可能的意義上都受到了最強烈的關注。

每個人都把目光投向 GPT-3；有人稱讚它是朝著類人人工智慧邁出的偉大一步，而另一些人認為這些僅僅是炒作。雙方都有有趣的爭論。

現在，輪到你思考它對 AI 的現在意味著什麼以及它對世界的未來意味著什麼。

本文轉載自公眾號“資料實戰派”

（ID：gh_ff93f845912e）

關於資料實戰派

資料實戰派希望用真實資料和行業實戰案例，幫助讀者提升業務能力，共建有趣的大資料社群。

點個“在看”，分享給更多的小夥伴

TAG： GPT 我們人工智慧系統 AI

GPT-3問世這一年，給世界帶來的困擾與希望

相關推薦