SIGIR 2021|快手聯合清華提出基於圖神經網路的序列推薦新方法

機器之心專欄

機器之心編輯部

來自清華大學未來智慧實驗室聯合快手社科推薦模型組的研究者提出了一種基於圖神經網路的序列推薦框架 SURGE,大大降低了建模使用者興趣的難度。

序列推薦旨在利用使用者的歷史行為序列來預測使用者的下一次互動,此類方法已被現代線上資訊流系統(例如新聞,影片,廣告等)廣泛採用。但使用者長期歷史行為中普遍存在隱式和嘈雜的偏好訊號,這無疑會降低使用者真實興趣的建模效果。為解決該挑戰,清華大學未來智慧實驗室聯合快手社科推薦模型組提出了一種基於圖神經網路的序列推薦框架 SURGE。透過圖神經網路技術對行為訊號進行傳播與池化,動態地融合並提取使用者當前啟用的核心興趣。

該模型不僅較現有方法取得了不俗的效能提升,其優勢更在於訓練時的收斂過程更加穩定快速,並且對超長序列的建模更加魯棒,而且可以給現有的序列推薦模型(DIN, DIEN)帶來增益。這為處理序列推薦問題提供了一種新的視角。該研究的論文已被 SIGIR 2021 接收。

論文地址: https://arxiv。org/abs/2106。14226

研究背景與動機

在現實生活中,使用者的行為前後都存在極強的關聯性甚至因果性。與傳統的推薦任務以靜態方式對使用者的偏好進行建模不同,序列推薦能夠捕獲使用者在發展過程中的動態偏好。例如,使用者可能在一段時間內對各種運動產生興趣,而在另一時間內需要書籍。使用者的當前偏好可以從時間順序的使用者 - 物品隱式反饋中推斷出來。序列推薦系統不僅可以更好地捕捉使用者的廣義興趣來提高使用者體驗,還可以準確地預測使用者當前的興趣以增強他們下一時刻的互動意願。

現有的工作已經意識到建模使用者快速變化偏好的重要性。早期的方案採用人為設計的規則(FPMC)或注意力機制(DIN),為歷史互動物品分配時間衰減或重要性權重,但這難以學習使用者興趣的演化模式。隨後,利用迴圈神經網路(GRU4REC,DIEN)或卷積神經網路(Caser)來總結行為序列的方法逐漸成為主流。但由於難以對長範圍依賴(Long-range Dependency)進行建模,它們在學習使用者的動態興趣方面遇到了短期瓶頸。最近的解決方案(PLASTIC,SLi-Rec)聯合建模長短期興趣(Long and Short-term Interest)以避免長期興趣的遺忘,但長期和短期興趣的劃分與整合仍然具有挑戰性。簡而言之,現有方法通常更多地集中於建模使用者的近期行為,無法充分挖掘使用者較舊的行為序列以準確估計其當前興趣。

因此,該研究認為序列推薦問題中存在兩個尚未得到很好解決的挑戰:1)長序列的使用者行為反映了隱式和嘈雜的偏好訊號:與可以推斷使用者喜好(例如點贊和收藏)的顯式反饋不同,單個隱式(例如點選和觀看)反饋無法反映使用者的偏好。一些無用記錄會作為使用者行為歷史中的噪聲,影響其真實興趣的建模。2)使用者興趣是多樣的,其當前興趣總是在不斷轉移:給定一個時間點,某些偏好可能仍被啟用,而另一些偏好可能已被停用。使用者的不同偏好隨時間被動態啟用,其模式在隱式和嘈雜的序列中更加難以挖掘。

方法介紹

針對這些挑戰,該研究提出了一種基於圖神經網路的序列化推薦演算法 —— SURGE(SeqUential Recommendation with Graph neural nEtworks),該方法利用圖卷積傳播以融合隱式偏好訊號,然後利用動態圖池化來提取偏好的動態模式。透過將冗長的互動序列壓縮為較短的興趣序列,SURGE 模型從一種新的角度處理序列推薦問題。

具體來說,該方法主要分為四個部分:A。興趣圖構造,B。 興趣融合圖卷積層,C。 興趣提取圖池化層,D。 預測層。

SIGIR 2021|快手聯合清華提出基於圖神經網路的序列推薦新方法

圖 1:SURGE 模型的結構框圖

A.興趣圖構造

研究者首先基於度量學習(Metric Learning)將使用者互動序列重構為物品 - 物品興趣圖,從而將長期使用者行為中的不同型別的偏好整合到圖的不同簇。透過將每個使用者的互動歷史表示為圖,有助於區分使用者的核心興趣和邊緣興趣。核心興趣節點由於連線更多相似興趣而具有比邊緣興趣節點更高的度數,並且相似興趣的頻率越高導致子圖結構越緻密。這樣就構建了一個先驗框架:即鄰居節點相似,緻密子圖是使用者的核心興趣。

由於模型需要一個鄰居節點相似的先驗圖,因此可以將圖學習問題轉化為節點相似度度量學習,與下游推薦任務聯合訓練。為了平衡表達力和複雜度,該研究採用加權餘弦相似度作為度量函式。但簡單地對節點之間的度量值進行歸一化不會對圖的稀疏性施加任何約束,完全連線的鄰接矩陣在計算上是昂貴的並且可能會引入噪聲(即不重要的邊)。研究者提出整個圖上的相對排序策略(Relative Ranking Strategy of the Entire Graph)能夠很好地保留圖的緻密 - 稀疏分佈,以使後續的圖卷積專注於圖的最相關部分。

B.興趣融合圖卷積層

接著為了區分並編碼豐富的歷史行為中不同型別的偏好,該研究在能夠顯式區分使用者各類核心興趣的構造圖上,設計了一種帶有注意力機制的圖卷積傳播策略。研究者認為這一特殊的傳播策略,透過同時感知簇結構(Cluster)與查詢目標(Query),可以很好地將隱式反饋的弱訊號聚合為可以反映使用者偏好的強訊號。

其中,簇感知注意力(Cluster-aware Attention)用於判斷目標節點是否為使用者的核心興趣:透過假設目標節點的鄰域將形成一個簇,來識別目標節點是否為簇的中心,即使用者的核心興趣。而源節點的查詢感知注意力(Query-aware Attention)用於捕獲與預測目標的相關程度;為了學習使用者興趣對於不同目標興趣的獨立演化,模型旨在保留與目標興趣相關的資訊,不相關的資訊在聚合時便被丟棄。

C.興趣提取圖池化層

下一步,考慮到使用者在不同時刻的不同偏好,研究者提出了一種動態圖池化技術,來自適應地保留啟用的偏好以捕獲偏好的動態模式。類似於 CNN 中池化(Pooling)是對特徵圖的下采樣,圖池化(Graph Pooling)旨在合理地縮小圖的大小。研究者認為,透過將鬆散的大圖池化為緊湊的小圖,可以提取使用者主要的興趣並保留興趣分佈,從而有效地縮短冗長嵌入序列。

為了獲得池化圖,一個可學習的簇分配矩陣(Assignment Matrix)是必要的。然而,非凸最佳化問題使其在早期訓練階段很容易陷入區域性最優,並且反映使用者興趣的簇之間的時間順序很難在分配過程中得到保證。該研究透過相同對映(Same Mapping)、單一從屬(Single Affiliation)和相對位置(Relative Position )三種正則化技術對簇分配矩陣進行約束來有效地緩解上述問題。

D.預測層

最後,該研究將池化後的圖轉化為能夠反映使用者顯式和被啟用的興趣序列,並進一步對增強興趣訊號的演化進行建模以預測使用者的下一次互動。具體來說,得益於相對位置正則,池化後的簇嵌入矩陣保持了使用者興趣的時間順序,這相當於將池化後的圖展平為具有增強興趣訊號的縮減序列。

為了給興趣的最終表徵提供更多相對歷史資訊,需要考慮興趣之間的時間順序關係。直觀地,這裡可以採用任何已知的序列推薦模組來對壓縮後的興趣序列進行建模。該研究採用了帶有注意力更新門的 GRU(AUGRU),其中注意力權重為圖池化興趣提取層中獲得的各個簇的重要性得分。它可以更有效地避免興趣漂移帶來的干擾,推動相對興趣平滑演化。

實驗結果

為了證明提出的 SURGE 模型的有效性,研究者在最大序列長度分別為 50 和 250 的淘寶電商資料集和快手短影片資料集上進行了實驗。採用兩個準確性指標 AUC 和 GAUC,以及兩個排名指標 MRR 和 NDCG 進行評估。並與若干主流的序列化推薦器和最近興起的長短期聯合建模方法進行了比較,所有模型共享相同的預測和損失函式設計,以排除其他因素的干擾。

SIGIR 2021|快手聯合清華提出基於圖神經網路的序列推薦新方法

表 1。 整體實驗結果

從表 1 可以看出,與幾種最先進的方法相比,無論是分類指標還是排名指標,該研究提出的 SURGE 模型都具有不俗的效能提升。其中,在具有較長互動歷史的快手資料集上,改進更加明顯,這說明利用圖神經網路總結序列的策略對於處理長序列具有重大意義,顯著降低了建模使用者興趣的難度。

此外,主流的序列化推薦演算法雖然有效,但在具有更長曆史序列的資料集上會因短期記憶瓶頸的存在而遺忘長期興趣。而最近興起的長短期興趣的聯合建模並不總能帶來更好的效能,尤其是在包含更多噪聲的歷史序列中,判斷使用者下一次互動是受長期還是短期興趣驅使則更加困難。這些現象進一步驗證了壓縮使用者歷史興趣資訊的動機是合理的。

SIGIR 2021|快手聯合清華提出基於圖神經網路的序列推薦新方法

圖 2:序列長度分組實驗結果

為了進一步探究所提出的方法是否在處理長序列方面具備足夠的優越性,研究者首先將使用者分組,並在不同的序列長度組下測試並對比各個模型的效能,結果如圖 2 所示。當序列長度較短時,所有模型由於資料稀疏性難以捕捉使用者的真實興趣。隨著序列長度的增加和建模難度的降低,大多數模型的效能都會提高並達到頂峰。但是隨著長度繼續增加,幾乎所有模型的效能會隨著大量噪聲訊號的引入而下降。這一現象表明,儘管較長的歷史序列通常具有更多可反映使用者興趣的模式,但伴隨增加的噪聲訊號將誤導真實興趣的建模。而 SURGE 模型和其他方法之間的效能差距會隨著序列長度的增加而變大,這證實了 SURGE 模型可以更有效地建模使用者的長期歷史序列。

SIGIR 2021|快手聯合清華提出基於圖神經網路的序列推薦新方法

圖 3:收斂過程視覺化

SIGIR 2021|快手聯合清華提出基於圖神經網路的序列推薦新方法

表 3:收斂前的總訓練時長(m 表示分鐘)

對於序列推薦系統,高效地建模使用者行為歷史記錄是一個很大的挑戰。使用者歷史序列中物品的差異性和多樣性導致模型收斂緩慢。此外,長曆史序列往往對應著更復雜的計算和更耗時的訓練。為了研究 SURGE 是否可以緩解此問題,該研究可視化了不同模型訓練時的收斂過程,使用提前停止(Early Stop)來檢測訓練是否結束,對比了各個模型的收斂速度和訓練時間。

圖 3 和表 3 分別顯示了模型的收斂過程和訓練時長。實驗發現,與所有基線相比,SURGE 的收斂過程更加穩定快速;除了快手資料集上 DIN 這個非序列模型外,其訓練效率相較於其他方法提高了 20%以上。這是由於 SURGE 在將嵌入序列饋入到迴圈神經網路之前,對序列進行了壓縮操作,大大減少了迴圈神經網路的迴圈步長。此外,研究者認為由於絕大多數噪聲已被濾除,池化的序列只包含最核心的興趣,這無疑有助於加快模型的收斂速度。

SIGIR 2021|快手聯合清華提出基於圖神經網路的序列推薦新方法

圖 4:SURGE 在應用不同興趣演化層時的效能比較

最後,由於該框架與在對序列進行池化後的預測層的選擇是無關的。該研究比較了在壓縮後的序列上使用不同預測層的影響,來驗證模型的泛化性。圖 4 的結果顯示該研究提出的模型可以為所有現有方法帶來增益。這表明該框架將大大減少建模使用者興趣的難度並獲得更好的效能。

該研究洞察了使用者長期歷史行為中存在隱式和嘈雜的偏好訊號,並採用興趣融合和提取的建模方式予以解決,這無疑為處理序列化推薦問題提供了一種新的思路。研究者透露,該方案已經在快手推薦的一些主要場景上線,目前能將觀看時長提升約 1%。

WAIC AI開發者論壇:後深度學習的AI時代

TAG: 興趣使用者序列建模模型