百餘大佬署名AI論文被爆抄襲!智源現已致歉

百餘大佬署名AI論文被爆抄襲!智源現已致歉

新智元報道

編輯:好睏 袁榭 拉燕

【新智元導讀】

最近,一篇由智源研究院等組織百餘名作者的綜述報告「大模型路線圖」被曝抄襲,震撼了整個AI界!

2022年4月初,一起AI界的學術不端事件可謂是「引爆」了整個學術圈。

涉及到的100位作者,無一不是業內大佬。

知乎討論也從第一天最初的幾萬瀏覽量,飛漲到了現在的600多萬。

百餘大佬署名AI論文被爆抄襲!智源現已致歉

對此,我們可以引用知乎使用者、倫敦瑪麗皇后大學學子「謝圜不是真名」的一句話來進行總結:

「學術聲譽的建立是一輩子的事情,然而要推倒只需要一瞬間。」

智源官方宣佈道歉

2022年4月13日晚,智源研究院作為這一綜述文章的組織者,在知乎的官方賬號上發表公開致歉信,稱「從網際網路上獲悉」此事,承認涉事論文有抄襲的部分,並向學界與公眾表示歉意。

百餘大佬署名AI論文被爆抄襲!智源現已致歉

公開致歉信中,智源研究院提到了論文的研究領域綜述性質,由百餘名作者分多組「並單獨署名」撰寫多篇文章綜合而成。智源未能做到「理應對…所有內容嚴格稽核」。

在承認過失的部分,智源研究院的致歉信承認了爆料者Nicholas Carlini在其個人部落格上曝出的部分指控抄襲部分確有其事,論文即將在預印本網站上更新的版本已刪除這些內容,其他進展等待正式調查報告並已開展追責處理。

據悉,這是一篇報告而不是論文。也就相當於是16篇文章的合集,其中的內容是由各個作者獨立完成和署名的。

百餘大佬署名AI論文被爆抄襲!智源現已致歉

致歉信中最後表示智源研究院將「根據正式調查結果對相關責任人作出問責處理」,不過尚未提及具體責任人。

4月13日上午,智源研究院的官方推特賬號也釋出了簡短的致歉宣告,內容與致歉信類似。

百餘大佬署名AI論文被爆抄襲!智源現已致歉

哈佛預備講師、創業公司Mosaic Machine Learning的總研究科學家Jonathan Frankle跟帖表示:我等著看後續。

百餘大佬署名AI論文被爆抄襲!智源現已致歉

一篇綜述引發的「血案」

整個事件,還是要從這篇在3月26日上傳至arXiv的「A Roadmap for Big Model」說起。

百餘大佬署名AI論文被爆抄襲!智源現已致歉

不得不說,如此大規模的「作者團」也就能在Nature、Science等頂刊中偶爾瞥見。

而近一半的共同一作,和四分一的共同通訊作者則實屬罕見。

隨後,作者又分別在3月30日和4月2日對版本進行了更新,這其中也涉及到了作者名單的變動。

百餘大佬署名AI論文被爆抄襲!智源現已致歉

這篇論文不僅談到了大模型技術本身,還有訓練大模型的前提條件。

研究分為四個部分:資源、模型、關鍵技術以及應用。

並介紹了16個有關大模型,分別是:資料、知識、計算系統、平行訓練系統、語言模型、視覺模型、多模組模型、理論&可解釋性、常識推理、可靠性&安全、治理、評估、機器翻譯、文字生成,以及對話和蛋白質研究。

在論文的最後,研究人員從更加宏觀的角度總結了大模型未來的發展。

而這,只是一切的開始。

被抄的谷歌研究員親自爆料抄襲

2022年4月8日,來自谷歌大腦的研究員Nicholas Carlini在其個人部落格上貼出文章「機器學習研究中的剽竊事例」(A Case of Plagiarism in Machine Learning Research)。

其中條分縷析、清楚剋制地指明瞭「大模型路線圖」(A Roadmap for Big Model)的抄襲實跡:

「大模型路線圖」一文確實抄襲了他所在研究組2021年7月發表在預印本網站上的論文「複製訓練資料讓語言模型更優」(Deduplicating Training Data Makes Language Models Better)。此外,「大模型」一文還涉嫌抄襲十餘篇其他論文。

Nicholas Carlini含蓄地表示:「大模型」一文「複製貼上」了一篇關於資料複製效果的論文,此舉實在諷刺到無法被忽視。

不過Nicholas Carlini也忠厚地體諒了有關涉事者:「從大局來看,這次複製貼上並不是最惡劣的事。這又不是此論文直接抄襲了過往研究的方法與結論、然後自稱這是開創性新研究成果。

不過即便如此,領域總括性綜述的價值在於如何重新表述/定義研究領域。直接複製貼上之前其他論文內容的長篇總括性綜述,並不比簡短的引用列表的用處更大。」

4月13日,在事件被更多人瞭解並關注後,Nicholas Carlini在此文中補充了更新內容:

本文受到了我預期外的太多關注。本文的每小時新增瀏覽量都多過我部落格上週的一週全站瀏覽量。

所以在此懇求,不要讓此事發酵成一場獵巫迫害。我看到已有人稱應該馬上把肇事論文相關人等全部開除、預印本網站應對他們完全禁入等等。

我並不假裝瞭解肇事論文何以如此廣泛抄襲的幕後原因,因此我不多做論斷。

可能是一些初級作者並無惡意,以為有引用來源就可以複製貼上。也可能是學生們受到來自導師的壓力,覺得要按時交稿就只好走捷徑。高階作者們可能只讀了遍文字,認為無大礙就小修小補後放行,不清楚文字的來源為何。

關鍵在於,此事幕後因由現在仍未公開。此論文有過百名作者,任何事都有可能發生。

我釋出此貼文的願望,是想給學界常見的積弊招來更多關注。學界有近1%的已發表和被接受的論文,其資料複製貼上比率比「大模型」一文還要高。

我該在寫此貼的一開始就說清這個背景。所以再次請大家不用對肇事論文過苛。抄襲是學界常見之弊,我對此事更警醒,是因為被抄襲的是我的論文。希望大家可以將此作為提高學界整體質量的嚴肅學習經驗。

判定流程

Nicholas Carlini在其部落格文章中稱,在發現「大模型」一文有抄襲後,他與研究組同事將幾乎所有機器學習領域的頂會、頂刊論文的PDF檔案下載、然後提取所有其中的文字、再錄入單個txt文件中,獲得對比用的資料集。

最後Nicholas Carlini與同事使用-自家被抄襲論文中的-資料集複製工具,將「大模型」一文與對比資料集一跑,發現了「大模型」一文的抄襲部分。

部落格文章中列舉了十處抄襲最昭彰的部分,其中五處的主幹部分已被智源研究院的致歉信承認。

以下是Nicholas Carlini博文中列舉的、智源研究院承認的抄襲處與原文對比的示例,左側標綠部分為抄襲後的文字,右側為原文對照文字。

百餘大佬署名AI論文被爆抄襲!智源現已致歉

百餘大佬署名AI論文被爆抄襲!智源現已致歉

百餘大佬署名AI論文被爆抄襲!智源現已致歉

百餘大佬署名AI論文被爆抄襲!智源現已致歉

百餘大佬署名AI論文被爆抄襲!智源現已致歉

為了避免假陽性,Nicholas Carlini列舉了自己認定抄襲的標準:

1、在文字空格規範化後,至少有十個字詞以上的抄襲雷同處;

2、在「大模型」一文中依順序出現;

3、在之前的其他論文中有出現;

4、但不在之前一篇以上的論文中出現。

如此可以避免軟體工具將論文的版權宣告部分、此前論文對更前論文的引用、此前各篇論文的作者這些理應出現雷同處的部分認作抄襲。

Nicholas Carlini稱,他們的軟體工具還跑出來不少「大模型」一文作者們自我抄襲的部分。不過相較於對他人論文的肆意赤裸抄襲,「我抄我自己」簡直不算什麼大事了。

Nicholas Carlini還表示,由於篩選工具的急就性質、和對比資料集的不完備性(只包括已在學刊上發表的論文,不包括預印本網站論文),很可能還有更多的抄襲部分尚未被發現。無論如何,現有程度已經很令人傷感了。

「大模型」一文隨後也被arXiv官方做了標註:與其他作者的文字「重合」。

百餘大佬署名AI論文被爆抄襲!智源現已致歉

此外,也有國內的網友對文章進行了源頭對比,其中紫色的是無抄襲的,黃色的是涉嫌抄襲的。部分作者沒有出現在具體章節裡但是在總作者名單裡。

百餘大佬署名AI論文被爆抄襲!智源現已致歉

除了對自己文章進行了一波排查以外,Nicholas也與其他可能被抄襲的作者取得了聯絡。

其中一個收到郵件的網友表示,現在很多人對於抄襲的重視和了解程度是不夠的。

copy-past是抄襲,copy-paste-edit是抄襲,截圖是抄襲,複製別人arxiv上的latex公式也是抄襲。

百餘大佬署名AI論文被爆抄襲!智源現已致歉

這次的事件影響之大,對整個華人學者的聲譽都帶來了沉重的打擊。

AI業界的研究者紛紛在社交網站上表示疑惑:即使有任務分工、或者掛名現象,百多號作者沒一個細讀過自己要掛名的東西麼?

百餘大佬署名AI論文被爆抄襲!智源現已致歉

百餘大佬署名AI論文被爆抄襲!智源現已致歉

學術不端擦邊球,亟須重視!

科學道德與學術規範,這大概是國內所有研究生都必須要上的課程。

在北京大學等高校,還有一年一度的科學道德與學術規範基本知識測試,同時還對不符合科學道德與學術規範的行為進行量化,制定了明確的、從處分到開除的,一系列懲罰措施。

看起來我們的體系已經足夠完善了,可事實上抄襲、剽竊等情況還是時有發生。

給我翻譯翻譯,什麼叫「抄襲」?

那麼,什麼程度才算抄襲?抄襲和引用的區別又是什麼?

這些標準不能靠上下嘴唇一碰張口就來,而必須有明確的、可量化、可執行的標準。

著名的中文查重平臺PaperPass就在其官網上給出了有關抄襲的認定標準。

百餘大佬署名AI論文被爆抄襲!智源現已致歉

可以看到其中對於抄襲判定的量化規定:連續引用200字且未註明出處、直接翻譯或複製、重排超過15%的內容等等。以及,照搬他人論文或著作中的實驗結果、分析、系統設計以及問題解決辦法而未註明出處、未說明借鑑來源等等。

出於嚴謹起見,我們給出照搬的定義:照原樣不動地搬用(現成的方法、經驗、教材等)。

與此同時,在認定為抄襲之後,對於抄襲程度的判定同樣有規可循。重複內容佔比的三條劃線分別為不到30%、30%~50%之間、50%以上,分別判定為輕度、中度、嚴重抄襲。

此外,IEEE對抄襲也有相關的規定。有非常明確的分級標準,共五級。

其中第一級是最嚴重的,定義為:未註明引用的、全文一字不差的照搬;未註明引用的、對主要部分超過50%的、一字不差的照搬;以及一名作者的多篇論文內都有一字不差的照搬、且總量超過50%。

第二級:未註明引用的、一字不差的、對一篇文章20%到50%內容的照搬。

第三級:未註明引用的、一字不差的、對一篇文章中段落、句子的照搬,總量20%以下,且使用在抄襲論文中的主要部分。

第四級:未註明引用的、對篇章段落不合適的轉述。

第五級是評判標準中最輕的:註明引用的、但界限不明的、一字不差的、對一篇文章中主要部分的照搬。

有國內網友稱,本次智源抄襲事件是第五級,處置還算及時妥善。

可見,在這套清晰的框架下,任何不端行為皆無處遁形。

百餘大佬署名AI論文被爆抄襲!智源現已致歉

IEEE分級標準:https://www。ieee。org/content/dam/ieee-org/ieee/web/org/pubs/Level_description。pdf

掛名掛出一個「海」

此外,對於這次的「大抄襲」事件,有相當多的網友對論文的「署名」提出了質疑。

在此前的學術不端事件中,知乎答主「Summer Clover」就曾指出,現在的paper不僅從灌水變成了抄襲和洗稿,而且還時常出現「掛名成風」的現象。

百餘大佬署名AI論文被爆抄襲!智源現已致歉

實際上,掛名問題由來已久。通常來說,分為利己型和利他型。

要麼就是掛一些知名人士的名字上去,以增加文章發表在更高階期刊上的機率,而這些知名人士可能對論文撰寫並無任何貢獻。

要麼就是出於情感因素,掛上不相干的人的名字。

你掛我名,我掛你名,互利互惠,互相貼金。

而文章的水分,可能比太平洋裡的還多。

學術規範,就在地平線上

不得不說,在學術行為規範這塊,中國還有挺長的路要走。

TAG: 抄襲論文Nicholas模型Carlini