風控實戰:使用者畫像是什麼?怎麼用?

在日常的風控實戰中,經常會有業務部門的同學提問:

業務中的黑產使用者 / 羊毛使用者是誰?他們長什麼樣子?

他們是怎麼進來的?進來之後又去了哪裡?

風控會不會誤攔?誤攔之後的客訴怎麼去處理?

……

圍繞這些實戰問題,我們需要藉助【使用者畫像】這個產品,來做詳細的解釋。

畫像包括哪些內容

網上其實對這個問題做了很多的介紹,只不過大家使用的場景不同,所以對於畫像的定義和使用方法也不盡相同。

簡單來說:畫像就是一個人的wiki百科,在這個百科中,介紹了使用者的來歷、身份介紹、做了什麼事情、在某些業務場景下的成就或者比較“有名”的事情。

只不過,繁雜的文字,對於平臺或者運營而言,閱讀和理解成本過高,所以又在該百科基礎上,做了標籤的提煉,因此出現了使用者標籤體系。目前市面上看到的使用者畫像,其實大部分是使用者標籤庫。

使用者標籤庫的構建程度,代表著平臺對使用者的認知程度。

風控場景下,平臺往往會透過以下幾個維度來建設:

1、基礎維度

這個維度比較大,包括使用者的身份子維度、裝置子維度、支付子維度、手機號子維度等,在這些子維度下去構建標籤;

身份子維度:年齡、性別、地區、姓名、實名記錄、擴散關聯等;

支付子維度:渠道、支付方式、擴散關聯等;

手機號子維度:是否小號、是否接碼號、是否二次放號、風險等級、擴散關聯等;

裝置子維度:虛擬裝置、裝置root、裝置篡改、常用裝置等;

擴散關聯,一般是指以該維度為主體,基於關係圖譜,檢視該主體的周邊關聯度數,比如關聯裝置數、關聯賬號數、關聯支付賬號數、關聯訂單數等;

2、行為維度

主要基於使用者在APP中的埋點資料和請求資料,來制定使用者的行為軌跡,並基於行為軌跡,提煉使用者的風險標籤。

切換頻次:近N天裝置切換頻次、近N天IP切換頻次(geoHash、POI)、近N天時速異常切換等;

資料缺失:完整路徑缺失率、請求引數缺失率、關聯因子異常(例如UA、IP、裝置資訊等);

APP速度:近N天機器行為(頻次和時間間隔接近)、近N天使用者CV時間過短等;

……

3、訂單維度

主要跟交易相關,重點檢視交易鏈路上的維度標籤:

佔庫存:下單率、完單率、SKU商品等;

羊毛下單:打折(低價)商品的佔比、平臺貢獻度(帶來的收入 - 支出)等;

聯合刷單:同一商家的佔比、低價商品的佔比等;

虛假交易:收貨地址的真實性、地址中帶有特殊編號的佔比、無完整或實際軌跡的佔比、接單完單時效過快的佔比等;

4、資金維度

主要在提現環節,大部分的平臺基本在提現環節做了同人認證,即資金只能進入賬號本人賬戶。因此這裡主要做監控為主,監控短期內資金規模、大額資金的佔比、提現賬號的數量等。

畫像解決了什麼問題

畫像的構建是否成功,是否滿足業務場景的訴求,需要在實際應用中提現出來。這裡從三個方向來驗證畫像:

1、策略規則的生命管理

風險運營同學對風險的感知和作案方式的還原,風險策略同學對風險使用者群體的定位和特徵的提煉,線上部署了相應的攻防策略規則。

但所謂“道高一尺魔高一丈”,黑產的攻擊手法不斷的變換,原有的策略規則會進入相應的“失效期”。而感知到這一變化,可藉助畫像的標籤內容進行水位的統計展示,以此來快速感知到。

例如:惡意佔庫存場景,可以檢視下單率超過一定閾值使用者的佔比,與之前的正常佔比進行比較,來感知到規則是否正在失效。

2、單使用者的風險下探

集中在客訴場景,C端使用者被攔截後發起客訴,運營同學需要對風控攔截做出相應的解釋,即對攔截的規則進行解釋。

注意,上面講到風控畫像主要是標籤庫,規則依賴標籤庫,如果仍然是以標籤庫進行解釋,那麼意味著規則必須100%準確,太難了。

所以,在畫像中,仍然需要構建風險的下探鏈路。構建的思路是基於使用者實際發生的業務資料、行為資料、訂單資料,進行反向的驗證。

例如:切換裝置頻次過高和時速異常被攔截,那麼在畫像中則以詳細列表的方式展示使用者近N天的登入記錄(因為切裝置就要重新登入),在登入記錄中列出裝置的IMEI、裝置指紋、經緯度、和登入時間,以這些資料來幫助運營進行定性。

因此,畫像要支援使用者風險標籤的提煉,同時還要支援對於這些標籤的解釋。

3、使用者群組的挖掘

風險的攻防,不是單一使用者的攻防,而是群體的攻防和管控,而群體中的使用者表現,往往是具有相似度的。

畫像是單一使用者的標籤集,此時可透過標籤集的相似度對相似使用者進行挖掘。

當然,必須承認,準確率不高,比如:下單率低,很多小姐姐只看不買,太正常了。因此往往是多個維度相加來做相似度挖掘。同時再借助關係圖譜,將使用者之間的強關聯屬性提煉出來,一個簡單的群組就產生了。

而此時使用者的標籤,則會上升到群組,形成群組的標籤,群組畫像。

構建畫像中的難點

1、標籤的實時性

畫像中的標籤,多則幾千個,少則也有幾百個,如果全部要求實時或者離線,前者造成計算資源的浪費,後者造成線上風險的漏過。

在這裡,則採取一個原則來進行分類:標籤的增益,即該標籤在風險中的影響力 + 標籤本身的動態性。

標籤本身的動態性:一般是指標籤的更新頻率,例如身份資訊,基本是不會變的;使用者近30分鐘的切換裝置數量,這種是30分鐘要重新統計的。

標籤在風險中的影響力:舉個例子,30分鐘內使用者切換裝置超過3個,這個不能定義為使用者有風險;30分鐘內使用者切換了虛擬裝置超過3個,這個可以認定為使用者有風險。因此前者的實時性要求不高,但後者就要求實時。

因此,在實戰中,跟風控規則強關聯的,往往是實時性要求高的。

2、標籤的完整度

是否所有的使用者,標籤體系都要建設成一樣的,比如活躍使用者和剛註冊的新戶是否一樣?

這裡,需要藉助一個分類思想:業務場景 - 使用者角色 - 使用者價值 - 使用者風險度,將此定義為一個空間,每往下走一級,則建設的標籤內容就不一樣。這個方式,有助於後續不斷列舉並迭代補充遺漏的資訊維度。

3、標籤的區分度

實際上,不是每個標籤都會被用到,也不是每個標籤都能代表使用者,也就是無效標籤。往往建設一個標籤,用該標籤對使用者進行分層,無論是閾值多少,發現動不動就是80%+的使用者被圈在一起,這就代表該標籤是無效的。

這裡有一個小的檢驗方式,即透過該標籤 + 風險閾值,將使用者進行白戶、黑戶、灰戶的分層,如果其實現的比例接近1:8:1,則代表該標籤具有一定的區分度。

當然,像年齡、城市、性別這些基礎中的基礎標籤,是不能使用這種方式的。

總結

其實,使用者畫像實際上不只有一種,上面的觀點論述,更多還是在賬號維度出發,給到大家的更多是一個方法論的介紹。在實戰中,還有裝置畫像、IP畫像、手機號畫像、訂單畫像等多種風險畫像。

畫像這個產品,從早期的滿足業務需求下進行建立標籤,到龐大標籤庫下的建立變數,未來的方向希望是能夠自出創造標籤給到業務方使用。

而在創造標籤這個方向上,對於風控團隊而言,除了需要加強自身的風險挖掘能力之外,還需要工程側提供一套標準的、快捷的驗證標籤的產品流程,後續將會為大家介紹下這套流程的構建方式。

TAG: 標籤使用者維度畫像裝置