當前位置:
首頁 > 最新 > 阿里知識圖譜首次曝光:每天千萬級攔截量,億級別全量智能審核

阿里知識圖譜首次曝光:每天千萬級攔截量,億級別全量智能審核

阿里妹導讀:藉助阿里知識圖譜的建設,阿里電商平台管控從過去的「巡檢」模式升級為發布端實時逐一檢查。在海量的商品發布量的挑戰下,最大可能地藉助大數據、人工智慧阻止壞人、問題商品進入阿里生態。同時面臨問題商家實時的對弈、變異和惡意攻擊等諸多挑戰,知識圖譜仍然保持著每天千萬級別的攔截量,億級別的全量智能審核次數,在濫發、侵權、合規、假貨、經營範圍等多個場景全面與問題賣家正面交鋒,實時對弈。為了最大限度地保護知識產權,保護消費者權益,我們對知識圖譜推理引擎技術提出了智能化、自學習、毫秒級響應、可解釋等更高地技術要求,實現良好的社會效益。

阿里知識圖譜運用

阿里巴巴生態里積累了海量的商品數據,這些寶貴的商品數據來自於淘寶、天貓、1688、AliExpress等多個市場,同時品牌商、行業運營、治理運營、消費者、國家機構、物流商等多種角色參與其中,貢獻著校正著這樣一個龐大的商品庫。無論是知識產權保護,還是提升消費者購物體驗,實現商品數據的標準化(商品規範的統一和商品信息的確定性), 以及與內外部數據之間的深度互聯,意義都非常重大,阿里商品知識圖譜承載著商品標準化這一基礎性,根源性的工作。 基於此,我們才能知道哪些商品是同樣一件產品,我們才能確切地知道一個品牌是否被授權,品牌下的產品賣到了哪些市場。

阿里知識圖譜以商品、標準產品、 標準品牌、 標準條碼、標準分類為核心, 利用實體識別、實體鏈指和語義分析技術,整合關聯了例如輿情、百科、國家行業標準等9大類一級本體,包含了百億級別的三元組,形成了巨大的知識網。

阿里知識圖譜綜合利用前沿的NLP、語義推理和深度學習等技術,打造全網商品智能服務體系,服務阿里生態中的各個角色。商品知識圖譜廣泛地應用於搜索、前端導購、平台治理、智能問答、品牌商運營等核心、創新業務。能夠幫助品牌商透視全局數據,幫助平台治理運營發現問題商品,幫助行業基於確定的信息選品,做人貨場匹配提高消費者購物體驗等等。為新零售、國際化提供可靠的智能引擎。

引入機器學習演算法搭建推理引擎

我們設計了一套框架來實現知識表示和推理。此外:知識圖譜實體、關係、詞林(同義詞、上下位詞)、垂直知識圖譜(例如地理位置圖譜、材質圖譜)、機器學習演算法模型等都納入進來做統一的描述。

按照不同場景,我們把推理分為:上下位和等價推理;不一致性推理;知識發現推理;本體概念推理等。例如

1.上下位和等價推理檢索父類時,通過上下位推理把子類的對象召回,同時利用等價推理(實體的同義詞、變異詞、同款模型等),擴大召回。 例如,為保護消費者我們需要攔截 「產地為某核污染區域的食品」,推理引擎翻譯為 「找到產地為該區域,且屬性項與「產地」同義,屬性值是該區域下位實體的食品,以及與命中的食品是同款的食品」。

2.不一致推理。在與問題賣家對弈過程中,我們需要對商品標題、屬性、圖片、商品資質、賣家資質中的品牌、材質、成分等基礎信息,做一致性校驗。比如說標題中的品牌是Nike而屬性或者吊牌中品牌是Nake,如下圖所示,左邊描述了商品標題、屬性、吊牌上的品牌信息是一致的,推理為一致。右邊為吊牌和商品品牌不一致的商品,被推理引擎判斷為有問題的商品。

3.知識發現推理。一致性推理的目的是確保信息的確定性,例如通過一致性推理我們能確保數據覆蓋到的食品配料表正確。但消費者購物時很少看配料表那些繁雜的數字。消費者真正關心的是無糖、無鹽等強感知的知識點。為了提高消費者購物體驗,知識發現推理通過底層配料表數據和國家行業標準例如:

無糖:碳水化合物≤ 0.5 g /100 g(固體)或100 mL(液體)

無鹽:鈉≤5mg /100 g 或100 mL

我們可以把配料表數據轉化為「無糖」「無鹽」等知識點。從而真正地把數據變成了知識。通過AB test驗證,類似知識點在前端導購中極大地改善了消費者購物體驗。

推理引擎背後技術框架

首先,推理引擎把自然語言通過語義解析(semantic parsing)轉換為邏輯表達式(logical form)。語義解析採用了結合神經網路和符號邏輯執行的方式:自然語言經過句法、語法分析、 NER、 Entity Linking, 被編碼為分散式表示(distributed representation),句子的分散式表示被進一步轉義為邏輯表達式。

在分散式表示轉換為邏輯表達式的過程中,我們首先面臨表示和謂詞邏輯(predicate)操作之間映射的問題。我們把謂詞當做動作,通過訓練執行symbolicoperation,類似neural programmer中利用attention機制選擇合適的操作,即選擇最有可能的謂詞操作,最後根據分析的句法等把謂詞操作拼接為可能的邏輯表達式,再把邏輯表達式轉換為查詢等。過程示意如下圖所示。

其次,邏輯表達式會觸發後續的邏輯推理和圖推理。邏輯表達式在設計過程中遵循以下幾個原則:邏輯表達式接近人的自然語言,同時便於機器和人的理解。表達能力滿足知識圖譜數據、知識表示的要求。應該易於擴展,能夠非常方便的增加新的類、實體和關係,能夠支持多種邏輯語言和體系,如Datalog、OWL等,即這些語言及其背後的演算法模塊是可插拔的,通過可插拔的功能,推理引擎有能力描述不同的邏輯體系。

以上下位和等價推理為例:「產地為中國的食品」,」

用邏輯表達式描述為:

?x: 食物(x)?(?y: 同義詞(y,產地)) (x, (?z: 包括下位實體(中國, z)))

隨後找同款:

?t, x: ($c:屬於產品(x, c)?屬於產品(t, c))

此外,推理引擎還用於知識庫自動補全。我們基於embedding做知識庫補全。主要思路是把知識庫中的結構信息等加入embedding,考慮了Trans系列的特徵,還包括邊、相鄰點、路徑、實體的文本描述 (如詳情)、圖片等特徵,用於新關係的預測和補全。

阿里知識圖譜經過我們三年的建設,已經形成了巨大的知識圖譜和海量的標準數據,同時與浙江大學陳華鈞教授團隊成立聯合項目組,引入了前沿的自然語言處理、知識表示和邏輯推理技術,在阿里巴巴新零售、國際化戰略下發揮著越來越重要的作用。

有關知識圖譜技術交流,或有意加入我們,歡迎聯繫張偉 (覽圖):

lantu.zw@alibaba-inc.com

張偉 (花名:覽圖)博士, 阿里巴巴知識圖譜團隊負責人。博士畢業於新加坡國立大學,本科畢業於哈爾濱工業大學。曾任職新加坡資訊通信研究院自然語言處理應用實驗室主任。

你可能還喜歡


點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 阿里技術 的精彩文章:

阿里巴巴創新研究計劃發布 面向全球招募前沿技術合作者
未來已來,新零售技術沙龍報名啟動!

TAG:阿里技術 |

您可能感興趣

榮威RX5 7月19日啟動全量推送 過去13個月斑馬智行已更新10餘次
3·15 秒針全量廣告監測數據:2017 年異常流量佔比 30.5%
抖音將全量上線「熱搜」功能?;Twitte股價暴跌20%創4年最大跌幅;迪士尼713億美元收購21世紀福克斯獲股東批准
小米9全量程DC調光開發完成,或將於下周推送
抖音將全量上線「熱搜」功能
拼多多表示:全量下架散裝紙尿褲 將「雙打」堅持到底
買家信息「裸奔」將成歷史!餓了么將全量上線「匿名購買」
高血壓病人,每天喝啤酒的安全量是多少?
仿照微博做榜單?抖音將全量上線「熱搜」功能
華為與芒果TV達成深度合作 全量內容將注入華為視頻
安全量子的存儲破紀錄效率
王卡寬頻這支空頭支票,為何不全量兌現
互金協會更新2家銀行數據披露:桔子理財等已上線全量存管
全量上線「熱搜榜」,抖音變得越來越像微博?
小程序廣告組件全量開放,開發者秒變流量主享收益
小程序廣告組件全量開放,開發者可以坐等收錢了
華為視頻宣布接入芒果 TV全量內容
馬蜂窩宣布黃軒為品牌代言人 將開啟全量用戶時代
MongoDB複製集全量同步改進
黃金錢包網貸業務合規升級 主動向監管報送全量運營數據