圖演算法在阿里風控系統中的實踐-人工智慧-PHP中文網

圖演算法在阿里風控系統中的實踐

一、電商風控場景中的圖形演算法介紹

首先簡單概述下阿里電商風險特點、圖演算法的應用歷史與現況。

1、阿里電商風險特徵

#阿里電商風險的主要特徵：對抗性& 排列組合式的複雜性。

風險一定有對抗性，同時阿里電商的風險還具有排列組合的複雜性。做風險辨識主要是用 X（數據）去預測 Y（風險）：P（Y|X）。而在阿里電商X 非常複雜，因為阿里電商是一個非常高維的經濟生態：

#① 多樣的市場-- 淘寶、閒魚、天貓、1688、Lazada 等，不同市場的風險特徵不一樣；

#② 多元的業務場景-- 帳號，商品，促銷等，且隨著業務的迭代與創新會產生新的風險；

③ 多樣的應用端-- PC、H5、APP 等，每個端都需要做防控；

④ 多樣的資料來源，需要有能力處理和整合不同模態的資料。

圖演算法在阿里風控系統中的實踐

# 也很複雜，主要體現在三個方面，第一個是風險種類很多，常見的內容風險、行為風險等只是眾多風險中的滄海一粟；第二是這些風險是有關聯的，例如賣家欺詐跟註冊、被盜、商品內容都有關係；第三是風險會轉移，當一類風險防得比較好了，犯案成本高了，又轉移到其他風險或產生新的風險。

所以整個的風險防治非常複雜，具有排列組合式的複雜性。

2、圖演算法的重要性

#圖演算法可以提升風險辨識模型的對抗能力。平台上大部分的「壞事」只是少數人幹的，「壞人」有很多馬甲，我們可以透過「關係」找出蛛絲馬跡，事先辨識和處置。例如下圖中黃色的點，假設它是一個有異常行為的用戶，僅憑他自身的行為很難判斷他是一個欺詐用戶，但是可以透過分析和他關聯的其他三個欺詐用戶（黑點）來確定他是個詐欺用戶。同時我們把這四個帳戶關聯緊密的帳戶都找出來，發現是一個團夥，提前的批量處置這些帳號，可以提升作惡的成本。

圖演算法在阿里風控系統中的實踐

#此外，異質圖可以自然的全域融合各模態、各風險對象數據，計算出各個不同物件的表徵，進而進行不同風險的識別，來應對排列組合式的複雜性

3、圖演算法的歷史與現狀

基於圖形演算法的重要性，阿里電商風控從2013 年就使用圖形演算法。

起初圖演算法被用來建構整個帳號函式庫的關係網。這個關係數據是詐欺、帳戶安全、反作弊、假貨等所有風險防控場景所需的基礎數據，主要使用的數據有設備資訊、手機號碼等媒介數據。它主要是刻畫帳戶與帳戶之間的相關性、關係類型和群體識別等。目前已對該關係網建立了從生產到應用的閉環回饋通道。

底層的關係資料非常多，整體的進行一次關係資料的匯總、清洗、圖計算和存儲，成本是很高的，而且後面還要保持不斷的更新，所以構建關係網路的成本很高，但因為我們有許多風險的模式、策略依賴這個關係網絡，所以還是值得的。

圖演算法在阿里風控系統中的實踐

#而對於圖神經網絡，我們在2016 年就開始探索應用，那時我們也叫GGL（Geometric Graph Learning，幾何圖學習），當時還沒有直接可用的圖神經網路演算法框架，所以我們用C 實作了一個GGL 演算法框架。在 2018 年的時候轉移到了阿里計算平台提供的 Graph learn 上，這個框架目前也是開源的，我們也在這個框架中貢獻了一些圖演算法程式碼。

圖演算法在阿里風控系統中的實踐

電商風控場景豐富，在圖演算法驗證階段選擇適當的場景也尤為重要。風險場景中佔比較大的行為風險「判斷標準」不直觀，在工業場景裡行為風險白樣本混雜著很多還未被發現的黑樣本，當圖算法將白樣本判斷為黑樣本時很難判斷是誤召回還是增益召回，這會影響模型的調優和上線效果的判斷。相反，內容安全場景，例如垃圾訊息、辱罵，是一個有「直觀判斷標準」的場景，更適合驗證圖演算法有效性。所以我們先在內容安全場景探索演算法，驗證有效和沈澱最佳實踐後，鋪開應用到行為風險場景。

目前為止，阿里電商各類風險業務都會用到圖形演算法。整個圖演算法應用架構如下圖，首先在底層維護一個關係資料層，匯集並清洗各類關係數據，便於上層的應用；在資料層之上，沉澱常用的圖演算法；再上一層利用關係資料層和演算法層建構了帳號關係網絡，它橫向支撐業務層的各類風險場景的防控；在最上層的業務層，結合具體風險的特點，我們利用這些圖算法和關係數據構建圖模型，識別各類業務風險。

圖演算法在阿里風控系統中的實踐

接下來的分享將主要介紹「互動內容風險」、「商品禁限售」、「假貨治理」這三類風險應用的一些圖算法。

二、互動內容風控的圖演算法

#阿里電商平台有豐富的互動內容場景，例如商品評價、評論、問大家，以及手淘逛逛、閒魚社群等，以下以閒魚留言垃圾廣告的辨識為例來介紹內容風控圖演算法。

圖演算法在阿里風控系統中的實踐

#在閒魚APP 裡的商品留言裡很容易出現「垃圾廣告」這類的內容風險，例如兼職、刷單、賣減肥藥等，且對抗性很強，比如上面截圖裡的“兄弟看看我”，其真正的廣告不在文字本身，而在該用戶的首頁。

閒魚留言的垃圾廣告辨識是我們圖神經網路演算法第一個落地應用的場景，這個辨識模型我們簡稱為 GAS。整個模型由一個異質圖和一個同質圖構成。異質圖學習每個節點的局部表徵，包含商品、留言和用戶，同質圖則是一個 comment graph 學習不同留言的全局表徵，最後將這四個表徵融合在一起進行二分類模型訓練。

圖演算法在阿里風控系統中的實踐

训练整体数据集包括留言有 3kw ，商品 2kw , 用户 900w ，上线后相比原来的 MLP 模型识别多召回了 30% 的风险。此外，通过消融实验也证实，加入全局信息提升也很显著，这是由于垃圾广告本身的特点——需要大量转发才有较好的收益。这个工作最终整理并发表于 paper[1]，获得了 CIKM2019 的 Best Applied Research Paper。

圖演算法在阿里風控系統中的實踐

三、商品内容风控的图算法

这里主要介绍两类商品内容风控的图算法：一类是商品图结构学习，一类是商品图结构与专业知识图谱的融合。

圖演算法在阿里風控系統中的實踐

商品风险管控主要是管控“禁限售”风险，很多种类的商品是国家法律法规规定不能售卖的，比如国家保护动植物、作弊造假、管制医疗器械等。

商品的管控很复杂，商品数据是多数据流、多通道、多模态的：

① 多数据流：标题、描述、主图、副图、详情图、SKU；

② 多通道：文字的音、形、意，图片的 RGB；

③ 多模态：文字、图片、元信息（价格、销量）。

同时商品内容风险也是复杂多样且对抗激烈的，比如上图中看上去是卖串珠，但实际上是卖象牙。

商品内容风控图算法主要有两类：一种是多模态融合的模型，用深度模型构建一个商品的神经网络，通过多模态的融合进行多任务的学习，这是商品局部信息的学习；另一种是为了提升对风险的召回，用异质图建立商品和商品、商品和卖家、卖家和卖家之间的关系，进行全局信息的融合学习。

1、商品图的图结构学习

GCN 的本质是融合邻居特征的特征平滑，因此图神经网络的学习对图结构的质量有一定要求，好的网络图是稠密且同质率高的。然而，风险商品图稀疏且同质率比较低（0.15，对公开数据集统计发现 0.6 以上才比较好），所以我们必须对图结构进行学习。

圖演算法在阿里風控系統中的實踐

商品图里面有三种边分别构成三种图，如下图右边框架图所示：一类是两个商品是同一卖家卖的同卖家图，第二类是两个商品被同消费者浏览过的同浏览图，第三类是两个商品的卖家有很强关联的关联卖家图。

商品图结构学习本质是加边和删边的过程：首先根据商品 embedding 用 KNN Graph 构建一个 KNN 图，之后将以上四类边和商品 embedding 一起放入 HGT 学习商品新 embedding 并对 attention 值较低的边作为噪声进行删除，新的商品 embedding 可以用来更新 KNN Graph，如此往返迭代直到 loss 收敛。在真实数据中的实践表明该图结构学习框架相比同质图/异质图，达到了 SOTA 的效果。

圖演算法在阿里風控系統中的實踐

2、圖計算與風險知識圖譜的融合

#商品圖演算法的提升演算法是圖計算與風險知識圖譜的融合。有些商品風險很難透過常識判斷，需要結合一定的專業領域知識。所以針對這些具體的風險領域知識點建構了特定的知識圖譜，以此來輔助模型辨識和人工審核。

例如下圖左側顯示的兩個商品，直接觀看是賣簡單的飾品，實際上是賣藏羚羊角，而藏羚羊是國家一級保護動物，它的相關產品是禁售的，我們透過該商品和藏羚羊相關知識進行配對可識別出該商品風險。融合演算法架構如下圖右所示：模型目標是判斷候選商品和風險知識點是否符合。 Item p 是商品圖文表徵，Risk-Point R 是知識點表徵，透過實體辨識、實體連結和關係抽取等得到商品和該知識點的子圖，再用GNN 計算子圖的表徵，最後用該表徵進行風險的分類識別。其中，CPR 是商品表徵和知識點表徵的融合，它主要用來指導圖表徵學習一些全局資訊。實踐表明，相比商品多模態識別，加入風險知識圖譜對長尾風險的召回提升 10 個點以上。

圖演算法在阿里風控系統中的實踐

在此基礎上，我們也嘗試引入了全域商品圖。當商品內容直接關聯知識圖譜也不能識別風險時，可以進一步引入商品和商品之間的關聯輔助判斷，例如下圖中某個標有“幼崽也有”的商品和“紅腹松鼠”知識沒有強匹配關係，但這個商品同賣家的另一個商品「紅腹」和「紅腹松鼠」知識匹配，因此可推理該商品實際上賣的是紅腹松鼠（二級保護動物，禁售）。實踐表明，做知識推理時引入整個大的商品圖能再提高長尾風險召回 3% 以上。

圖演算法在阿里風控系統中的實踐

#四、動態異質圖的風控實踐

前面介紹的圖演算法主要還是靜態圖的挖掘應用，但是許多的風險場景存在動態圖的風險模式。

例如售假商家先註冊，再批量發布大量商品，炒作吸引流量，然後快速進行售假，在這一系列動作中時間維度的圖結構變化對我們的風險辨識很重要，因此動態圖也是圖演算法探索與應用的重點方向。

動態圖最大的挑戰是如何設計和搜尋到好的圖結構。一方面，動態圖在原有的異質圖基礎上引入了時間維度，例如有30 個時刻，那麼動態圖的參數（資訊量）是異質圖的30 倍，這給學習帶來很大壓力；另一方面，由於風險的對抗性，動態圖需要有較強的穩健性。

圖演算法在阿里風控系統中的實踐

1、動態圖自動學習

據此，我們提出了基於Attention 的動態GNN AutoML，在限定一定參數空間下，選擇最好的模型結構（DHGAS）。此模型的核心是透過自動學習對模型結構尋優，如下圖所示：首選將動態圖分解成不同時刻的異質圖，並對不同時刻和不同節點設定不同的函數空間來表示商品表徵的變化空間（N*T 種，N：節點種類；T：時間空間），對不同時刻和不同邊類型也設定不同的函數空間來表示訊息傳播的路徑空間（R*T 種，R：邊種類；T ：時間空間），最後節點和鄰居聚合的時候有R*T*T 種聚合的方式（兩個T 分別是邊兩端節點的時間戳。

顯然整個搜尋空間龐大，我們嘗試限定參數空間，借助自動機器學習技術建立 supernet，讓模型自動搜尋到最佳網路架構。具體做法：限制N*T 的函數空間數目為K_N，R*T 函數空間資料為K_R，R*T*T 的模數為K_Lo，例如N=6，T=30，理論有N*T=180個函數空間，實際限製到K_N=10。

該演算法目前已落地到“假貨賣家識別”，“商品禁限售的惡意商家識別”等場景，且和業界主流演算法對比都得到了SOTA 的結果，具體可以查閱論文[ 2]。

圖演算法在阿里風控系統中的實踐

2、動態圖穩健學習

由於風險的對抗性，動態圖需要有較強的魯棒性，其本質是希望動態圖能學到一些本質的pattern，比如下圖中示例子圖的本質pattern 是冰淇淋銷量上升是由於天氣變熱了，而不是溺水人數增加。

我們希望穩健性學習解決電商風控動態圖的一些分佈偏移問題：

（1）特徵偏移：例如如果過度依賴歷史違規資訊這類特徵，對新註冊的問題會員召回會不佳；

（2）結構偏移#：例如過度依賴垃圾廣告會員的度密集子結構，會把很活躍的正常會員誤召回；

（3）時間偏移量：惡意使用者隨著防控會發生明顯的行為變異。

圖演算法在阿里風控系統中的實踐

對此，我們提出了一個演算法DIDA，核心思想如下圖所示：在學習動態圖時學習兩個pattern－橘色代表的本質pattern 和綠色代表的非本質pattern，僅以本質pattern 的loss（L）非本質patterns 組合的loss 變異數（Ldo）作為模型最終學習的loss。非本質patterns 組合的loss 變異數（Ldo）的設計想法是：假設圖中綠色的a3 是非本質的pattern，那麼把這個綠色的a3 換成其他非本質patterns 如b3、c3 等應該對模型的loss（判別能力）影響不大。因此我們可以將非本質 patterns 的 loss 變異數加入模型學習，最終預測階段則只用本質 pattern 來進行分類。目前演算法已經落地到商品內容風控場景中，也整理出 paper[3]。

圖演算法在阿里風控系統中的實踐

#五、ICDM2022 比賽：大規模電商圖上的風險商品偵測

「ICDM2022 比賽：大規模電商圖上的風險商品偵測」是我們今年主辦的演算法比賽，提供的數據是真實場景的脫敏數據。最後從提交的技術程式碼和報告中也收穫了一些啟發：

（1）自監督預訓練對於效果提升有比較大幫助，但是需要選擇合適的自監督任務；

（2）GNN 結合標籤傳播可以帶來顯著提升，在先前的圖演算法應用中由於擔心標籤洩漏而丟棄了該部分數據，但在真實數據中實踐後發現並不明顯。猜測原因是現在的圖形網路只是做到了資訊融合，還沒做到推理或推理能力較弱；

（3）解耦深度和層數有普遍提升, 可以傳播一次的同時聚合好幾次。

圖演算法在阿里風控系統中的實踐

六、圖演算法落地方式總結與展望

結合我們的經驗，總結了以下圖演算法落地方式：

（1）圖形演算法框架/平台：應該有個圖演算法框架沉澱技術和最佳實踐，提陞技術的複用性。

（2）半自動化建模：為了提高建模的效率，在資料層面上我們最好對底層的關係媒介資料做個清洗和匯總，在建模層面可以提供一些組件（MetaPath/MetaGraph 選擇組件，圖採樣組件，向量檢索組件等）提高建模效率。

（3）自動化呼叫：可以自動化呼叫只依賴輸入樣本的圖演算法或圖模型，不需要了解圖模型，方便其他不熟悉圖演算法的風險控制同學進行模型最佳化使用，例如團體識別，商品回撈，風險用戶回撈等。

（4）生產（自監督）圖形表徵：作為單獨的模態輸入到模型中使用，不影響原來的建模方式，大幅提升圖的應用場景。

圖演算法在阿里風控系統中的實踐

後續工作展望：

（ 1）大規模的圖自監督表徵學習。我們有上千個風險模型，其中還有很多沒應用上圖演算法，因此我們下一步是做大規模的圖自監督表徵，以擴大圖特徵的應用範圍，幫助提升業務效果。這項工作存在著工程和演算法上的雙重挑戰：首先是工程上，我們至少有數十億節點和數百億的邊供大規模學習，其次是演算法上，圖表徵不僅要能涵蓋常用的關係表徵，也要學到更高階的圖的結構的特徵，具有很強的通用性，能應用到各個場景。

（2）在具體的風控場景中探索實作圖的推理能力，目前圖演算法更多的還是知識的融合，推理能力比較薄弱，無法應對風險的高對抗性。從客觀上我們需要我們的模型具備很強的智能所以圖的推理能力很重要。目前擬依靠閒魚社群的豐富互動場景和內容來進行演算法的探索。

（3）在動態異質圖的頻域研究、可解釋性方面有更多探索落地。頻域研究的目的是在動態圖中學到更多的圖結構變化的細節。可解釋則幫助我們了解演算法是否真正學到了本質的特徵，一方面幫助我們完善演算法，另一方面也可以更好的提供給業務同學進行應用落地。

圖演算法在阿里風控系統中的實踐

以上探索方向我們也在尋求學術合作，特別是圖推理方向。同時，我們現在也在招募圖演算法的同學，有興趣的同學可以聯絡我。

七、Reference

1. Spam Review Detection with Graph Convolutional Networks. CIKM2019 Best Applied Research Paper.

2. Dynamic Heterogeneous Graph Attention Neural Architecture Search. AAAI2023.

#3. Dynamic Graph Neural Networks Under Spatio-Temporal Distribution Shift. NeurIPS2022.

八、問答環節

Q1：風控場景的圖表徵有什麼特殊的挑戰，比較其他領域的圖表徵？

A1：三個最主要的挑戰：首先圖結構比較差，同質率較低；其次是圖的穩健性問題，在我們的場景裡面特別是動態圖，它的分佈漂移還是很嚴重的，還有另外一個問題黑樣本的風險濃度很低，並不是說1:10 或1:20 之類的，在我們的圖算法裡面有些風險的濃度是1:1w 以上的，所以我們的樣本是極度極度不均衡的，這也是我們需要去解決的。

Q2：圖聯邦學習目前演算法模型如何，產業是否有比較成熟的解決方案？你們對圖聯邦學習有沒有一些應用和一些考慮？

A2：我們現在主要還是用在我們電商場景裡面，當然我們還有一些非電商業務，不過這些數據都是我們自己的數據我們還是可以直接使用進行風控的，所以現在還沒有用到聯邦學習，但是圖聯邦學習後面還是有必要用的，因為現在為了資訊安全都在做資料切割和隔離，不同域的資料是不能打通來使用的，所以後面圖聯邦學習後面應該會成為我們一個探索應用方向。

以上是圖演算法在阿里風控系統中的實踐的詳細內容。更多資訊請關注PHP中文網其他相關文章！