新智元報道
編輯:袁榭 拉燕
【新智元導讀】
嫌情人節的各種卡片、糖果上情話千篇一律?每年上AI界網紅Janelle Shane的個人部落格,蒐集她例行用AI生成的奇葩情話吧:「愛上兩千野豬」、「打到我服」、「螞蟻能留下」。
情人節到了。
不管是永遠孤寂的萬年單身宅,還是等著另一半奉上例行年敬的有情人,抑或是憎惡商業化節日物化人性的憤怒野狼,都會預期在今天看到鋪天蓋地的量產單調情話。
嫌棄情人節的情話千篇一律令人厭倦,幾乎已是普世情緒。那麼,想要月下鬼步舞不走尋常路、整點詭奇情話的話,該怎麼搞呢?
有會寫碼的大姐姐支招了:拿AI來跑。
2018年,開始用個人電腦訓練AI說情話
自由研究者Janelle Shane,主職是在光學裝置公司供職的鐳射科學家,副業是搞自己愛好的神經網路AI訓練、寫AI科普書籍、做AI界網紅。
在gpt沒有面世的2017年,她就拿自己的MacBook,訓練簡單的神經網路AI寫哈利波特同人文、給星戰宇宙和龍與地下城遊戲創作新的角色名字、生成新的寶可夢卡片。
2017年底-2018年的情人節,她開始了自己的著名習慣,隔年就用AI生成一批情人節心形糖果/卡片上的情話。
在情人節前後,這些被稱為「糖果心」的產品會在歐美熱銷一陣。它們小小的,上面寫著一些簡短的和情人節相關的資訊。心形的糖果上一般只有幾個字元的空間,所以一般就寫一些像「我愛你」或「給我打電話~」或「我是你的!」之類的東西。
為了建立「情話bot」AI,最開始Shane蒐集了366條市面上真正在售賣的情人節心形糖果的情話。將這些原始資料集輸入神經網路,讓AI識別資料模式然後利用這些模式生成新的仿作情話。
結果嘛,的確頗為新異。不過看得出AI在示愛勾引人這門技術的造詣上還遠遠比不過真人。生成的情話產品也遠未達到能填在糖果、卡片上賣錢的商業化質量。
儘管不能賣錢,但結果真的非常奇葩。
AI生成的情話有的甜度達標:
「愛情面包」(LOVE BUN)
「你是寶貝」(YOU ARE BABE)
「親愛的我」(DEAR ME)
「可愛的吻」(Cute Kiss)
「我的小熊」(MY BEAR)
有的就差點意思:
「就是你」(YOU ARE IT)
「我比心」(HEART ME)
「愛我的英雄」(FANCY MY HERO)
更多的往奇怪的方向奔去了:
「全體懸浮」(ALL HOVER)
「熊隊」(TEAM BEAR)
「釘住一臉」(PIN A FACE)
「陷坑愛」(BOG LOVE)
「我鳴笛」(I HONKER)
還有一些進入了真正詭異的領域:
「愛上兩千野豬」(LOVE 2000 HOGS YEA)
「打得我馴服」(BEAT ME TAME)
「臭臭的愛」(STANK LOVE)
「汗汗的便便」(SWEAT POO)
「汗汗的梨」(SWEAT PEAR)
「燧石臉」(CHERT FACE)。
更有一些進入了成年人雙關語領域:
「甜心長棍」(SWEET POLE)
「貼肉伴侶」(MEAT MATE)
「你是坨黏液」(YOU A GOO)
「舔」(LICK)
「看著大」(LOOK BIG)
「我的小賤人」(MY HAG)……
按Janelle Shane接受採訪時的迴應,她覺得拿AI生成勾引人情話這事非常有意思,因為演算法完全不懂單詞的具體意思,也不知道為什麼換一個字母意義就會改變。當時的簡單AI只會學習資料排列的模式,並按這些模式排列字母。
不過以AI為鏡,可以知人類自己求偶時能有多搞笑,畢竟原始資料字眼全是從市售的真實心形糖果上摘錄的。
2020年,用GPT-2生成亂碼情話
2017年生成情人節情話的神經網路AI,對英語的訓練經驗為零,只能學習原始的那 366 條文字中的內容——而且,它還是不知道在某些組合中應該避免哪些字母。
在2019年底-2020年的情人節,Janelle Shane嘗試使用 GPT-2來生成情話。
在當時,GPT-2算得上是自然語言處理領域的市面上最強AI,引數超過15億,爬取的訓練文字相當於3。5萬本《白鯨記》,在各種「預測給定文字後內容」的任務上有突出表現。
雖然當時GPT-2還沒有學習過關於情人節卡片的內容(儘管它可能已經在網上看到過卡片的列表),但Shane用 talk to transformer 給它添加了現有的心形糖果、情人節卡片上的情話內容資料,看它會輸出什麼。
不過Shane知道,GPT-2不是專門生成心形糖果情話的神經網路。她所做的事有點像走到某人面前大喊「火辣好傢伙!酷男!甜蜜情侶!給我打電話!魔法男孩!就算!」這些詞彙的雜燴,任何真人聽到這些都會感到迷茫。
但其實,這和朝著神經網路AI喊「潤滑劑」,並期望從AI運算結果裡得到反饋,是差不多的事。說實話大多數自然語言處理的實驗都是這麼無厘頭。
那這個神經網路AI知道它到底在做啥嗎?應該是不知道的。在GPT-2輸出了一些全文大寫的文字後,又會繼續顯示其他型別的文字。從這些其它的文字,才能看出它到底想輸出什麼:
歌詞
樂隊名
動物有趣小知識
校園慘案記錄
鈴聲曲調
即使給GPT-2一個線索,並在提示中標清楚,這是一些和情人節相關的資訊,GPT-2似乎仍然不知道自己在輸出什麼東西。這類文字在它的訓練資料中可能很少見。
另一個線索是,GPT-2生成的心形糖果情話通常都很長而且無厘頭——它沒有長度限制的概念。比如如下:
插入困難,真的需要低密度鱘魚
天佑不死隊伍
火辣玩意,我的身體是
排出橫溢之愛
舞場地板的面單
來自地穴的資訊稱看到你給我發朋友資訊非常高興
我想知道今天是幾號
警惕我們的底層
如何穿得像只蝙蝠
美國海洋捲心菜愉悅
朱古力香蕉乳酪塊
如此的話,我能請你吃餅乾麼
生成的長句糟糕,但在生成情話短句上,GPT-2還是頗有斬獲的。比如還算甜蜜的有:
真心對待(HEARTED TREAT)
戀愛號角(LOVING HORN)
麵包上起舞(DANCING ON A LOAF)
詭異範的有:
螞蟻能留下 (ANTS CAN STAY)
完蛋了 (DOOMED)