賈強槐：螞蟻大規模知識圖譜建構及其應用-人工智慧-PHP中文網

賈強槐：螞蟻大規模知識圖譜建構及其應用

一、圖譜概論

首先介紹知識圖譜的一些基礎概念。

1、什麼是知識圖譜

賈強槐：螞蟻大規模知識圖譜建構及其應用

#知識圖譜旨在利用圖結構建模、辨識與推論事物之間的複雜關聯關係與沉澱領域知識，是實現認知智慧的重要基石，已廣泛應用於搜尋引擎、智慧問答、語言語意理解、大數據決策分析等眾多領域。

知識圖譜同時建模了資料之間的語意關係和結構關係，結合深度學習技術可以把這兩者關係更好得融合和表徵。

2、為什麼要建知識圖譜

賈強槐：螞蟻大規模知識圖譜建構及其應用

#我們要建立知識圖譜主要從如下兩點出發考慮：一方面是螞蟻本身的資料來源背景特點，另一方面是知識圖譜能帶來的好處。

[1] 資料來源本身是多元且異質的，缺乏一套統一的知識理解系統。

[2] 知識圖譜能帶來多個好處，包括：

##語意標準化：利用圖譜構建技術提升實體、關係、概念等的標準化和歸一化程度。
領域知識沉澱：基於語意、圖結構實作知識表示和互聯，從而累積豐富的領域知識。
知識重複使用：建立高品質的螞蟻知識圖譜，透過融合、連結等服務多下游，為業務降本提效。
知識推理發現：基於圖譜推理技術發現更多長尾知識，服務風控、信貸、理賠、商家營運、行銷推薦等場景。

3、如何建構知識圖譜的概觀

賈強槐：螞蟻大規模知識圖譜建構及其應用

#在建構各類業務知識圖譜的過程中，我們沉澱出了一套螞蟻知識圖譜的通用建構範式，主要分為如下五個部分：

從業務資料出發，作為圖譜冷啟動的重要數據來源。
他域的知識圖譜同現有圖譜進行融合，透過實體對齊的技術來實現。
業務領域結構化的知識庫同現有的知識圖譜的進行融合，也是透過實體對齊的技術實現。
非結構和半結構化的數據，例如文字會對其進行資訊抽取，透過實體鏈指技術實現對現有圖譜進行更新。
領域概念體系與專家規則的融入，將相關概念、規則與現有知識圖譜連結。

賈強槐：螞蟻大規模知識圖譜建構及其應用

有了通用的建構範式後，就需要進行體系化的建構。從兩個視角來看螞蟻知識圖譜的體系化建構。首先是從演算法角度來看，有各種演算法能力，例如知識推理、知識匹配等等。從落地視角來看，自下而上，最下面的基礎依賴包括圖計算引擎和認知底座計算；其上是圖譜底座，包括NLP&多模平台以及圖譜平台；往上是各種圖譜構建技術，基於此我們就可以建立螞蟻知識圖譜；在知識圖譜的基礎上，我們可以做一些圖譜推理；再往上，我們提供一些通用的演算法能力；最上面是業務應用。

二、圖譜建構

接下來分享螞蟻集團建構知識圖譜的一些核心能力，包括圖譜建構、圖譜融合、圖譜認知三個面向。

1、圖譜建構

賈強槐：螞蟻大規模知識圖譜建構及其應用

圖譜建構的流程主要包括六個步驟：

數據源，獲取多元資料。
知識建模，將海量資料轉化成結構化的數據，從概念、實體和事件三個域來建模。
知識獲取，建構了知識加工研發平台。
知識存儲，包括Ha3存儲和圖存儲等。
知識運營，包括知識編輯、線上查詢、抽獎等。
持續學習，讓模型自動地進行迭代學習。

建構過程中的三個經驗與技巧

融合專家知識的實體分類

賈強槐：螞蟻大規模知識圖譜建構及其應用

#在建立知識圖譜中，需要對輸入的實體進行分類，在螞蟻場景下是一個大規模多標籤分類的任務。為了融合專家知識來進行實體分類，主要做如下三點最佳化：

語意資訊增強：引入label語意圖表示學習的Embedding。
比較學習：加入層次label監督的比較。
邏輯規則限制：融入專家先驗知識。

領域詞表注入的實體辨識

賈強槐：螞蟻大規模知識圖譜建構及其應用

#在實體辨識的基礎上，從字詞連邊的圖結構出發，讓模型學習到對連邊的合理賦權，對噪音詞連邊減少權重。提出了邊界對比學習和語意對比學習兩個模組：

#邊界對比學習，用來解決邊界衝突問題。在詞表注入之後，建構一個全連結圖，用GAT來學習每個token的表徵，邊界分類正確的部分建構一個正例的圖，錯誤的部分建構負例的圖，透過對比讓模型學到每個token的邊界資訊。
語意比較學習，用來解決語意衝突問題。借鑒了原型學習思想，把label的語意的表徵加進來，強化每個token與label語意之間的關聯關係。

邏輯規則限制的小樣本關係抽取

賈強槐：螞蟻大規模知識圖譜建構及其應用

#在領域問題上我們的標註樣本很少，會面臨few-shot或zero-shot的場景，在這種情況下進行關係抽取的核心思想就是引入外部知識庫，為了解決語義空間不同導致的性能下降問題，設計了基於邏輯規則的推理模組；為了解決實體類型匹配導致的死記硬背問題，設計了細微差異感知模組。

2、圖譜融合

圖譜融合是指不同業務領域下圖譜之間的資訊融合。

賈強槐：螞蟻大規模知識圖譜建構及其應用

圖譜融合的好處：

#跨業務的知識多用：基於圖譜本體模型，實現跨業務的知識連結。
減少無效資料拷貝：連線即可應用，標準化知識服務連結。
業務快速價值落地：減少業務找資料的成本，透過知識重複使用帶來更大業務價值，降本提效。

圖譜融合中的實體對準

賈強槐：螞蟻大規模知識圖譜建構及其應用

知識圖譜融合過程中一個核心技術點就是實體對齊，這裡我們採用了SOTA演算法BERT-INT，主要包含兩個模組，一個是表示模組，另一個是互動模組。

演算法的實作流程主要包括召回和排序：

#回想：在表示模組，利用標題文字的BERT向量相似度召回。

基於標題屬性鄰居的排序模型：ü 利用表示模組，完成對標題、屬性和鄰居的向量表示：

計算標題的cos相似度。
分別計算兩個實體的屬性和鄰居集合間的相似度矩陣，並擷取一維相似度特徵。
將三個特徵拼接為特徵向量計算Loss。

3、圖譜認知

賈強槐：螞蟻大規模知識圖譜建構及其應用

#這部分，主要介紹螞蟻內部的知識表示學習框架。

螞蟻提出了一個基於Encoder-Decoder框架的知識表示學習。其中Encoder是一些圖神經的學習方法，Decoder是一些知識表示的學習，例如連結預測。這套表示學習框架可以自監督產出通用的實體/關係Embedding，有幾個好處：1）Embedding Size遠小於原始特徵空間，降低了儲存成本；2）低維向量更稠密，有效緩解資料稀疏問題；3）同一向量空間學習，對多源異質資料的融合更自然；4）Embedding具有一定的普適性，方便下游業務使用。