B站CEO 的身份證被上傳到 GitHub 了?

B站CEO 的身份證被上傳到 GitHub 了?

AI 自動補全程式碼,結果補出來了一張別人的身份證?

GitHub Copilot 又出神操作了。

有人在推特上曬圖,表示自己在使用 GitHub Copilot 時,它竟然給補全出了一張身份證資訊出來。

輸入 B 站 CEO 陳睿的資訊後,下方竟然自動補出了

身份證號

這操作確實夠嚇人的。

網友就表示:恐成社工庫利器啊!

不過恐慌之際,眼尖的網友們很快發現了問題:

顯示的身份證號其實是

假的

,其中出生年份和校驗位明顯都是錯的。

陳睿應該是 1978 年生,而這裡的證件號上顯示為 1988。

叔叔我啊,變年輕了

B站CEO 的身份證被上傳到 GitHub 了?

也就是說,這串所謂的身份證號,其實是 GitHub Copilot 自動生成的

假資料

這讓人們提起來的心稍微放下了一些。

但是原本是生成程式碼的 GitHub Copilot,怎麼會生成個人隱私資訊呢?

吃了的,不經意又吐出來

這和 GitHub Copilot 的工作原理有一定關係。

GitHub Copilot 由

Codex

模型支援,它可以看做是 GPT-3 的升級版,既能看懂程式碼、也能看懂自然語言。

一方面

,GitHub Copilot 為了能看懂註釋,需要接受像 GPT-3 一樣的語言訓練。

語言模型在生成結果時,往往會隨機表現出某些訓練資料的特徵。

也就是模型 “記住了” 見過的資料資訊,處理任務時,把它 “吃進去” 的訓練資料又 “吐了出來”。

而對於 GPT-3、BERT 這些超大型語言模型來說,訓練資料集的來源往往包羅永珍,大部分是從

網路公共資訊

中抓取,其中免不了

個人敏感資訊

,比如姓名、地址、身份證號等等。

有人就表示,b 站高層的個人資訊可能早就被人惡意曝光了。

這一次很可能是 GitHub Copilot 在生成結果時,隨機表現出了一些訓練資料的特徵,這部分資料剛好來自陳睿的隱私資訊。

事實上,GitHub 的 CEO Nat Friedman 也迴應過類似的問題。

他表示 GitHub Copilot 給出的隱私資訊都是

假的

,是透過訓練資料合成而來。

而前不久曝出的 Copilot 抄襲大神程式碼、原版註釋一事,直接讓 Nat 這番迴應啪啪打臉。

自動生成的程式碼不僅和原版一樣,連 “what the fuck” 那句註釋也用上了。

B站CEO 的身份證被上傳到 GitHub 了?

GitHub Copilot 復刻 Quake 程式碼

另一方面

,GitHub Copilot 是由數十億行

公開程式碼

訓練的。

有人認為,這可能是訓練集中的原始程式碼就違反了相關隱私條款。

GitHub Copilot 受到錯誤程式碼的影響,意外把陳睿的個人資訊從資料集裡套了出來。

雖然這次情況可能只是個意外,但是也暴露了 GitHub Copilot 在安全隱私上存在許多風險。

有網友就對 GitHub Copilot 的敏感資訊處理,表示擔憂:

倒是說會對敏感資訊處理,但是我覺得總會有漏的。

小米開源技術委員會主席、小米副總裁崔寶秋則表示,這提醒了使用者要注意自己的安全隱私保護,個人資料要記得匿名化。

GitHub Copilot 爭議不斷

事實上,GitHub Copilot 從上線以來就爭議不斷:

直接照抄原始碼、沒有開源許可證;

由公共程式碼庫訓練,卻要以付費商品上線;

……

除了安全隱私上的風險,openAI 還發現 GitHub Copilot 的模型 Codex 與 GPT-3 一樣,會生成帶有種族主義或其他倫理問題的結果。

最近,自由軟體基金會(Free Software Foundation,FSF)也發出了抗議,他們表示使用 GitHub Copilot 必須執行 Visual Studio IDE 或 Visual Studio Code 這種付費軟體,侵犯了使用者的權益。

B站CEO 的身份證被上傳到 GitHub 了?

為此,FSF 正在向大眾徵集 GitHub Copilot 在版權、法律等問題的投稿。

對於這一抗議,GitHub 方面則表示願意對任何問題持開放態度。

“這是一個全新的領域,我們渴望與開發者就這些話題進行討論,並引領行業為訓練人工智慧模型制定適當的標準。”

參考連結:

[1]https://twitter。com/DeltonDing/status/1423651446340259840

[2]https://venturebeat。com/2021/07/08/openai-warns-ai-behind-githubs-copilot-may-be-susceptible-to-bias/

[3]https://www。infoworld。com/article/3627319/github-copilot-is-unacceptable-and-unjust-says-free-software-foundation。html

TAG: githubCopilot訓練程式碼隱私