1分鐘就能查出整篇論文的圖片誤用：這個AI是有些火眼金睛在身上的

2021-12-25由機器之心發表于科技

機器之心報道

編輯：蛋醬

那些篡改後的論文圖片，或許騙得了人類的兩隻眼睛，但卻騙不了 AI。

先看一張論文圖，兩個紅框內的影象，有何相似之處？

對於人類來說，兩隻眼睛實在很難迅速分辨，但 AI 就能在極短的時間內指出數百個相似特徵：

藍線為相似特徵。

旋轉、過濾、翻轉、拉伸…… 像這樣的篡改手段，AI 一眼就能看出來，哪怕是檢查完整篇論文裡所有圖片，也只需要一兩分鐘。

再來 6 張不同的子影象，你能找出重複的地方嗎？

AI 標出了 3 個重複（紅框所示）。藍線表示影象中相似特徵的位置，線相交的地方表示影象發生了旋轉。1 和 2 是旋轉了 180 度，3 旋轉了 90 度。

這個 AI，是有些火眼金睛在身上的。

走進「全自動時代」

為了避免發表的論文中帶有被篡改過的影象，許多期刊都會聘請專門的人員來檢查這些提交上來的手稿圖片，當然這個過程也是在軟體的協助之下。現在，這個過程似乎開始變得完全「自動化」了。

從 2021 年 1 月起，美國癌症協會（AACR）開始採用一款叫做「Proofig」的 AI 軟體，檢查那些經過同行評審後臨時接收的文稿，這款軟體能夠自動提醒編輯哪些影象有哪些重複的部分。

《Nature》雜誌發現，過去一年裡，至少有四家出版商開始採用 AI 軟體，在稿件發表之前發現圖片中重複的部分，不管這種「重複」是出於抄襲的目的，或者只是不恰當的美化方法。

2016 年，一項分析了大約 20000 篇生物醫學論文的研究表明，多達 4% 的論文可能都存在影象重複問題。實際上，這個問題比論文更正和撤回等問題更嚴重、更廣泛，每年大概只有大約 1% 的論文得到更正，被撤回的論文就更少了。

此前，當軟體被用來標記影象問題時，仍然需要一位專業編輯來決定如何處理。例如，如果資料集被特意展示了兩次，文中也有解釋，那麼重複的影象就不算是問題；又比如，一些重複可能是手稿組裝過程中簡單的複製和貼上錯誤，並不是欺詐，這種情況只能透過編輯和作者之間的溝通來解決。

專家表示，隨著人工智慧軟體變得足夠有效且成本低廉，一系列的影象自動檢查工具可能會在未來幾年席捲科學出版行業。

研究者一直在開發影象檢查相關的 AI 技術。2020 年，出版商成立了一個工作組，專門為影象問題篩選的軟體制定了標準，又在今年釋出了編輯如何處理篡改影象的指導方針。開發此類軟體的公司不只「Proofig」一家，但它是第一家公開了自己客戶名字的公司，除了 AACR 之外，美國臨床調查學會今年 7 月份也開始使用 Proofig，SAGE Publishing 在 10 月份的五份生命科學期刊中也採用了該軟體。

Proofig 軟體從論文中提取影象，並將它們成對地進行比較找出共同特徵，包括部分重複。一般的論文在一兩分鐘內就能完成檢查，還能順便查出一些其他小問題，比如將高解析度原始資料壓縮成較小檔案時可能出現的壓縮偽影。

這一切工作，都能在幾分鐘之內完成，你要做的就是上傳 PDF，確認圖片都被選中了，等待一會兒，下載 PDF 報告即可。

影象檢查的成本遠高於抄襲檢查每篇論文不到 1 美元的成本。Proofig 與出版商簽訂的合同中，費用是根據論文中的影象數量收取的，但這也取決於手稿的數量，相當於每篇論文的收費「大概幾十美元，而不是幾百美元」。

「計算機視覺比人類視覺更有優勢，」公司創始人 Dror Kolodkin-Gal 表示。「計算機不僅不會感到疲倦，執行速度也會更快，而且它也不會受到大小、位置、方向、重疊、部分複製和這些因素組合的影響。」

軟體發現的問題比此前編輯手動檢查的問題要多，但是編輯對於 Proofig 輸出結果的把控仍然必不可少。

與此同時，位於瑞士洛桑的出版商 Frontiers 也開發了自己的影象檢查軟體，成為 AIRA 自動檢查系統的一部分。自 2020 年 8 月以來，這家出版商內部的研究誠信團隊一直在使用 AIRA 對所有提交的手稿進行影象檢查。在被選中標記的論文中，大多數沒有問題，只有大約 10% 需要該團隊再跟進。

除了重複問題之外，檢測影象處理也很重要，例如刪除或裁剪了影象的一部分，以及其他 PS 痕跡。Frontiers 的軟體是人工視覺篩選的有用補充，但它可能無法完全替代當前形式。

仍有出版商保持謹慎

尚未採用 AI 影象檢查工具的出版商提到了成本和可靠性問題，其中一些出版商正在開發自己的 AI，包括 PLOS 和愛思唯爾等大型出版商。

2020 年 4 月，Wiley 面向臨時接收的手稿推出了影象篩查服務，目前已用於 120 多種期刊，但還是由軟體輔助的手動篩查。Springer Nature 表示，它正在評估一些外部工具，同時也在整理資料以訓練自己的軟體，該軟體將「人工智慧和人類結合互補來識別有問題的影象」。

像 EMBO Press 這樣的出版商仍然主要使用手動篩查方法，因為他們還不相信商業產品的成本效益比，除此之外，還有另外一層擔心：欺詐者可能會了解該軟體的工作原理，並使用 AI 製作人類和軟體都無法檢測到的虛假影象。

儘管還沒有證據表明此類影象已經出現在研究論文中，但去年釋出在 bioRxiv 上的一份預印本表明，製作與真實資料無法區分的生物影象偽造版本是有可能的，比如蛋白質印跡。

論文連結：https：//www。biorxiv。org/content/10。1101/2020。11。24。395319v2

研究人員也在努力解決這個問題：計算機科學家 Edward Delp 在美國國防高階研究計劃局資助的一個專案帶領團隊專注於偽造的生物影象，例如顯微鏡影象和 X 射線。他們擁有一組檢測器，用於檢測 GAN 生成的逼真影象。

TAG：影象 AI 論文軟體出版商

1分鐘就能查出整篇論文的圖片誤用：這個AI是有些火眼金睛在身上的

相關推薦