Twitch表情中的情緒分析

作者 | Martin Anderson

譯者 | 馬可薇

策劃 | 凌敏

近年來,人們在社交媒體平臺上 越來越多地使用emoji、表情符號、顏文字、GIF 以及各種非文字的表達方式,這讓資料科學家們在研究全球範圍的社會學格局時愈發艱難,但從人們公開的發言中還是能找到全球化社會學的一些趨勢的。

儘管在過去的十年裡,自然語言處理(NLP)是個非常強大的情緒分析工具,但它不僅跟不上快速更新發展、跨語言的網路詞彙和縮寫,面對臉書和推特等社交網站上以圖為主的帖子也束手無策。

因為這類研究真正能依靠的超大規模資源只有這些為數不多的大型社交媒體平臺,所以人工智慧必須要做到與時俱進。

今年七月,一篇論文提出了一種新方法,該方法利用包含了 30000 條推文的資料庫,根據使用者發到社交網路博文下的“GIF 反應”(見下圖),對博文引發的情緒進行歸類和預測。該論文發現,這類以影象為主的反應從各方面來說都很容易衡量,因為大多數都不會包含情緒分析中的弱勢項:諷刺。

Twitch表情中的情緒分析

研究學者們將人們使用的動態表情 GIF 稱作“還原指標”,並在他們釋出於 2021 的論文中分析其用法。

2021 年上半年,波士頓大學帶領研究團隊透過訓練 機器學習模型 預測推特上可能會流行的梗圖。2021 年八月,英國學者們透過研究社交媒體中人們使用表情符號(指影象形式的數字、字母和標點)或 emoji(指影象形式的人臉、物品和符號)的趨勢對比,整合了一個包含七種語言的大型推特情緒資料集。

Twitch 顏文字

現在,美國的研究者們已經開發出了一種機器學習訓練方法,可以更好地理解、歸類並測量 Twitch(國外一遊戲直播平臺)上不斷髮展變化的顏文字(emotes)偽詞彙。

顏文字 emotes 是指 Twitch 上用來表達情緒、情感或小眾笑話的新造詞。因為其定義便是新造表情,所以對於機器學習系統來說,最難的並不是對源源不斷新產生的新表情進行歸類,總結的速度恐怕還趕不上他們過氣的速度;我們要讓機器能更好地理解這些表情背後的結構,並開發系統將這些顏表情識別為“臨時”的單詞或組合短語,而其所代表的情感則完全需要依靠上下文情景來判斷。

Twitch表情中的情緒分析

與快樂蛙相類似的顏文字,簡單更改字尾其含義便完全不同了。

上圖來自舊金山的一家社交媒體分析公司中的三位研究者釋出的論文,《快樂蛙:推斷 Twitch 中新造詞背後的情緒含義 (https://arxiv。org/pdf/2108。08411。pdf)》。

爆紅後的轉型

儘管這些表情新鮮一時又多數短命,但 Twitch 經常會把舊錶情素材挖出來回收利用,讓飽經訓練的情緒分析框架判斷錯誤。透過追溯表情在演變過程中含義的變化,經常會發現他們現在所代表的情感或意圖與最初創造時完全是天翻地覆。

舉例來說,研究者們注意到由於極右翼對快樂蛙梗圖的濫用,這個表情幾乎完全失去了它在 Twitch 上最初流行時代表的政治含義。

快樂蛙的形象和它那句經典的“真不錯兄弟(Feels Good Man)”,最初是出現在 2005 年美國插畫家 Matt Furie 的一本漫畫中,隨後在 2010 年左右變成了極右翼的代表梗圖。Vox 曾在 2017 年發文稱,雖然 Furie 自稱與其撇清關係,但這種右翼挪用後所代表的含義還是流傳了下來,但這篇論文背後的舊金山研究人員卻並不認同:

在 2010 年早些時候,Furie 創作的卡通青蛙形象被 4chan(外網匿名論壇)等各種線上論壇中的右翼用作宣傳。而從那時起,Furie 一直在努力贏回青蛙 Pepe 本身的意義,而在 Twitch 上,大量非仇恨、積極的青蛙表情成為了主流,讓快樂蛙和它對應的悲傷蛙用法更加傾向表情的字面意義。

後續麻煩

這種梗圖的常見表達含義在爆紅後又轉換的情況經常會讓 NLP 研究專案進展受挫。畢竟這些表情已經被打上了“仇恨”或者“民族主義 (US)”這類標籤,並且打包扔進了長期開源倉庫裡。後續使用這些資料的 NLP 研究專案可能並不會檢查資料的正確性,有的會是因為沒有資料審計的手段,有的則可能是壓根沒意識到審計的需要。

這種過期標籤的後果很明顯,如果在 2017 年使用 Twitch 表情資料集來訓練一個“政治分類”的演算法,那麼歸功於悲傷蛙表情的大量使用,我們將觀測到 Twitch 上有非常明顯的極右翼傾向。當然,也許 Twitch 確實充滿了極右翼的主播們,但你並不能靠青蛙頭來驗證這點。

悲傷蛙梗圖的政治意義似乎被 Twitch 上 1。4 億的使用者(其中 41% 的使用者未滿 24 歲不客氣地拋棄了。他們不約而同地從盜圖的政治家手中非常效率地將青蛙 Pepe 奪了回來,重新用自己的方式將其定義。

方法和資料

研究者們發現帶標籤的 Twitch 顏文字資料集“幾乎不存在”,雖然先前有研究稱他們共使用了八百萬的 Twitch 表情,而其中 40 萬都是在同一周內造出來的。

2017 年的一份預測 Twitch 上流行顏文字的研究],在將預測範圍限制在了前 30 後,仍然只有 0。39 的得分。

為應對這一難題,舊金山的研究者對舊資料使用了新方法,將訓練集和測試集的比例分成了 80/20,並採用了樸素貝葉斯,隨機森林(RF)、支援向量(SVM,用線性核),以及邏輯迴歸(Logistic Regression),這些之前並未在 Twitch 資料中使用過的“傳統”機器學習演算法。

這種演算法的效能和先前研究的基準線相比高出了 63。8%,而研究人員藉此開發的 LOOVE(“從詞彙中學習情緒”的英文縮寫)框架做到了新詞彙的識別,並將這些全新的定義新增到現有的模型中。

Twitch表情中的情緒分析

研究人員開發的 LOOVE(Learning Out Of Vocabulary Emotions)框架結構

LOOVE 在無監督訓練嵌入詞上大展身手,透過定期再訓練和微調避免了對標記資料集的需求。考慮到表情的數量和其演化的速度,實時更新標記資料集非常的不現實。

在專案中,研究者們用一個未標記的 Twitch 資料集訓練一個顏文字的“偽字典”,在訓練過程中,模型生成了 444,714 個單詞、顏文字和 emoji 的嵌入。

此外,他們在 VADER 詞典中新增了 emoji 和表情符號詞彙,除了之前提到的 EC 資料集之外,他們還利用來自推特、爛番茄和 YELP(外網一美食點評網站)取樣這三個公開可用的資料集進行三元感情的分類。

由於專案中使用了不止一種方法和資料集,其結果也各不相同,但可以肯定的是,專案中表現最優的基準線比先前研究要高出 7。36 個百分點。

研究者認為,該專案的後續價值是在於 LOOVE 框架的繼續開發,藉助 K 最鄰近法(KNN)和 word-to-vector(W2V)的嵌入訓練 Twitch 上超過 3。31 億條的聊天資料。

論文作者總結道:框架背後的功能驅動是可用於預測未知表情情感的顏文字的偽詞典。利用這個顏文字的偽詞典,我們建立了一個包含 22,507 個表情的情緒表,可以說是第一個如此規模的顏文字解讀案例。

https://www。unite。ai/understanding-twitch-emotes-in-sentiment-analysis/

TAG: Twitch表情文字資料研究者