明略知識工程實驗室主任張杰:知識圖譜夠火,但底層技術環(huán)節(jié)還差點火候

來源:        發(fā)布時間:2020-04-17
【導讀】不要直接使用自動化機器學習的方式,純粹“用算力代替智力”的方式,效果不好且浪費計算資源。

—— 張杰,明略科技科學院知識工程實驗室主任

近年來,知識圖譜概念大火。從本質上來說,這就是一種大型的語義網(wǎng)絡,用來描述客觀世界的概念實體事件及其之間的關系。以實體概念為節(jié)點,以關系為邊,提供一種從關系的視角來看世界的方式。

現(xiàn)有大型知識圖譜,諸如 Wikidata、Yago、DBpedia,就是把海量的世界知識,以結構化形式存儲下來。

以下圖為例做更直觀的解釋,這張圖表以可視化的方式,直觀明了地呈現(xiàn)人們錯綜復雜的社交關系,是不是比一堆語句或段落容易理解的多?



自 2012 年谷歌將 Google Graph 引入搜索引擎,知識圖譜才引起了學界和業(yè)界的巨大關注,并逐漸把這些結構化的知識成果廣泛應用于搜索引擎、問答系統(tǒng)、金融等領域,國外內一大批做知識圖譜相關研究和應用開發(fā)的企業(yè)也如雨后春筍般冒尖,國外有 Palantir、kensho、GRAKN.AI 等,國內有 BAT,以及達觀數(shù)據(jù)、海致星圖、PlantData、智言科技等創(chuàng)業(yè)企業(yè),以及我們今天的主角——明略科技。

當然,有的知識圖譜企業(yè)做得風生水起,也有的企業(yè)因為缺乏核心技術等各種原因生存艱難,而明略數(shù)據(jù)在眾多同類企業(yè)中如魚得水,2019 年 3 月獲得 20 億元 D 輪融資之后,明略數(shù)據(jù)升級為明略科技集團。

這家企業(yè)在知識圖譜行業(yè)中保持鮮活的奧秘是什么?今天,我們就通過明略科技集團科學院知識工程實驗室主任張杰,詳細了解一下明略知識圖譜構建的核心技術,以及當前知識圖譜技術與產(chǎn)業(yè)的現(xiàn)狀與未來發(fā)展趨勢。


“三隊鼎立”,造就核心知識圖譜

博士畢業(yè)后,張杰加入了華為中央研究院,做了 6 年研究工作,隨著華為在通信行業(yè)的縱深發(fā)展逐漸走入“無人區(qū)”,參與了 ICT 行業(yè)中的推薦與私人助理場景。

2014 年,他認識到金融行業(yè)將會是大數(shù)據(jù)和人工智能技術應用的下一個熱點,風控和獲客這兩個最重要的環(huán)節(jié)均會帶來顯著的增量價值,因此選擇加入了一個金融科技初創(chuàng)團隊。他回憶,那段時間既要拜訪客戶了解市場需求,又要做技術攻關,鍛煉了他在帶領團隊在研發(fā)投入和商業(yè)價值之間尋求最佳平衡點的能力。

2019 年,張杰深信未來人工智能技術會深刻改造多個傳統(tǒng)行業(yè),而明略在 To B 賽道上既有技術和人才積累,又在多個行業(yè)有實踐經(jīng)驗積累,所以他選擇加入明略。來到這里后,張杰專注于知識工程技術領域,在知識圖譜自動化構建、知識圖譜輔助決策這兩個環(huán)節(jié)做行業(yè)前瞻性研究。

據(jù)張杰介紹,明略知識圖譜的技術力量由三部分組成:科學院、技術中臺和產(chǎn)品中臺。技術能力全集團范圍內共享打通,科學院的關鍵技術成果會輸出到技術中臺,技術中臺形成公司級的可復用組件交付給產(chǎn)品中臺,產(chǎn)品中臺凝練出知識圖譜的基線版本,并針對各個行業(yè)做適配優(yōu)化,對交付質量和客戶滿意度負責。研發(fā)團隊核心技術骨干來自于清華、北大、卡內基梅隆大學等國內外知名院校,許多成員擁有在 IBM、NEC、Oracle、Schlumberger 等 500 強企業(yè)的實戰(zhàn)經(jīng)驗。

這樣,明略知識圖譜技術背后的三支隊伍呈“鼎立”之勢,共同支撐起明略知識圖譜技術和產(chǎn)品構建的任務。


知識圖譜技術和應用現(xiàn)狀

明略成立于 2014 年,2017 年便完成 10 億元融資,躋身大數(shù)據(jù)領域獨角獸,在知識圖譜領域更是涉獵已久,對于技術和行業(yè)的發(fā)展有著深刻的了解。

從張杰的專業(yè)角度來看,知識圖譜近幾年非?;?,但說白了,學術界主要集中在兩個方向:一是基于深度學習的知識表示,二是知識圖譜+(如:知識圖譜+檢索,知識圖譜+推薦,知識圖譜+預訓練語言模型)。

工業(yè)界主要集中在圖譜自動構建,例如:如何自動化地從結構化數(shù)據(jù)庫映射為知識圖譜并做知識融合,如何從非結構化文本中做篇章級的事件抽取和多事件關聯(lián),如何通過小樣本學習和領域知識遷移的技術減少人工標注成本,以及基于深度學習的知識表示在各個環(huán)節(jié)的應用等等。

這就是知識圖譜技術和應用的基本情況。


明略做了什么?

在這樣的環(huán)境下,做知識圖譜的企業(yè)數(shù)不勝數(shù),但實際上很多企業(yè)都在做著同質化的產(chǎn)品和功能,那明略做了什么特別的事?擁有哪些核心技術才能在多如牛毛的大數(shù)據(jù)公司中保持活力呢?

核心產(chǎn)品
據(jù)悉,明略在 2018 年推出了人、機器、組織三位一體的“HAO 智能”技術架構,其中:H 代表 Human Intelligence(人類智能)、A 代表 Artificial Intelligence(人工智能)、O 代表 Organization Intelligence(組織智能)。HAO 智能的目標是將人和機器通過該理論體系打造成統(tǒng)一的組織,人類智能與機器智能協(xié)同互補,最終實現(xiàn)組織智能。

目前,明略科技集團開發(fā)了多款知識圖譜產(chǎn)品,覆蓋從原始數(shù)據(jù)獲取到應用展現(xiàn)的所有環(huán)節(jié)。其中:

CONA(Connect All the data),即“關聯(lián)所有數(shù)據(jù)”,是結構化數(shù)據(jù)通用治理平臺,能夠大規(guī)模自動化的采集、清洗、歸類、關聯(lián)所有結構化數(shù)據(jù),形成統(tǒng)一數(shù)據(jù)視圖。另外,通過設置數(shù)據(jù)轉換規(guī)則,結合數(shù)據(jù)多值溯源和融合策略,可以自動完成標準化對標,實現(xiàn)數(shù)據(jù)治理自動化,大大提高行業(yè)知識圖譜構建效率。以公共安全領域實際數(shù)據(jù)治理為例,業(yè)務系統(tǒng)中近千張表,傳統(tǒng)方法和工具做圖譜構建可能需要半年以上的時間,而 CONA 能夠縮短到 2 周。

NEST 是明略自研的一款知識圖譜數(shù)據(jù)庫,運用混合型數(shù)據(jù)存儲技術,可支持數(shù)億實體和數(shù)十億條邊的秒級響應。

SCOPA 是可視化數(shù)據(jù)分析平臺,構建在 NEST 之上,根據(jù)業(yè)務場景和數(shù)據(jù)圖譜特點,提供關系網(wǎng)絡分析、時空軌跡碰撞、實時多維檢索、信息比對碰撞、智能協(xié)作系統(tǒng)、實時數(shù)據(jù)接入等強大功能,使知識圖譜行業(yè)解決方案快速落地變成了可能。目前已應用到公共安全、金融、稅務、工業(yè)等多個行業(yè)幾百個項目中。

與其他企業(yè)相比,明略在知識圖譜構建的底層技術上有哪些獨特之處?具體的實現(xiàn)細節(jié)是怎樣的?

張杰解釋道,在自動化構建知識圖譜的過程中,明略科技在如下幾個環(huán)節(jié)積累了一些核心技術:

針對結構化和半結構化數(shù)據(jù),提出了 HAO profiling 技術:對來自不同數(shù)據(jù)源的結構化/半結構化數(shù)據(jù)時,對數(shù)據(jù)進行匯聚、組織,試圖理解數(shù)據(jù),解決數(shù)據(jù)冗余、沖突等問題,對數(shù)據(jù)進行標準化、連接,形成數(shù)據(jù)的知識圖譜,進行可視化展示,并以統(tǒng)一視圖服務查詢、計算等應用需要。

針對非結構化數(shù)據(jù),設計、開發(fā)了一套算法工具包:HAO 圖譜。HAO 圖譜包括關系抽取、事件抽取、實體對齊、網(wǎng)絡結構嵌入式表示、時空序列數(shù)據(jù)表示、圖譜摘要、基于圖譜的短文本生成等算法,專注于服務企業(yè)級知識圖譜系統(tǒng)的開發(fā)。它既可以獨立運行,也可以交付企業(yè)技術團隊在其之上進行二次開發(fā)。

據(jù)張杰介紹,明略的知識圖譜核心產(chǎn)品經(jīng)過了 6 年時間的反復打磨和優(yōu)化,才最終應用于廣告、營銷、公共安全、工業(yè)、金融、數(shù)字城市、供應鏈、餐飲等行業(yè)。在技術研發(fā)迭代期間,張杰將明略在技術迭代期間最寶貴的經(jīng)驗分享給我們。

一句話概括,他的經(jīng)驗就是如何處理“專用、復用、通用”。為了提高實施項目中的人效比,明略一方面在組織流程上保證項目中的經(jīng)驗能夠“回流”到技術中臺,另一方面加強機器學習技術在產(chǎn)品“內化”中的作用,比如前文提到的 HAO profiling 技術和 CONA 平臺。雖然面對很多行業(yè)客戶,但相同行業(yè)中不同企業(yè)內部的業(yè)務系統(tǒng)在功能、數(shù)據(jù)結構、業(yè)務邏輯上是趨同的。

明略成功的秘密之一,在于其非常重視行業(yè)經(jīng)驗復用和技術工具復用。在行業(yè)經(jīng)驗復用方面,明略成立了行業(yè)咨詢團隊,形成了面向行業(yè)的最佳實踐和成功案例,并且投入到國家標準、行業(yè)標準、聯(lián)盟標準的制定中,比如,2018 年明略科技與公安部第一研究所聯(lián)合發(fā)布業(yè)內首個《公安知識圖譜標準化白皮書》。技術工具復用方面,技術能力在全集團范圍內共享打通,算法攻關、公共技術組件、產(chǎn)品迭代、項目交付,各有分工又相互協(xié)作。

技術研發(fā)固然重要,但是將已有的成果效用最大化,是一條事半功倍的捷徑。

自動化機器學習建模用于知識圖譜
明略的另一個創(chuàng)新,是將近年來大火的 AutoML 技術應用到知識圖譜構建中。

張杰解釋,在確定、趨同、數(shù)據(jù)量足夠的場景中,為了降低人工訓練模型的重復勞動,明略采用自動化機器學習的方式,面向機器學習建模人員搭建了模型訓練平臺 MatrixAI,可以自動給出多個維度的數(shù)據(jù)探查報告,并據(jù)此在歷史數(shù)據(jù)集和模型集上找到相似任務,根據(jù)相似任務的最佳實踐給出算法選擇建議、超參建議,再自動評價模型性能自動調參。

這是一種在相似任務的最優(yōu)解附近尋找最優(yōu)解的思路。但是,面對新領域新任務時,張杰不建議直接使用自動化機器學習的方式,純粹“用算力代替智力”的方式,效果不好且浪費計算資源。


知識圖譜熱點研究方向與底層技術現(xiàn)狀

知識圖譜查詢
知識圖譜查詢推理是知識圖譜的重要研究點,同時也是一個有待攻破的難點。這個問題難在哪?明略對此做了哪些嘗試?

張杰答道,目前,明略科技基于知識圖譜的推理主要在兩個問題上:多跳關系預測和反事實預測。這兩個問題的挑戰(zhàn)點在于,專家規(guī)則方式預測準確性不夠,數(shù)據(jù)驅動方式數(shù)據(jù)量不夠,明略做的是 ToB 業(yè)務應用場景,對于最終結果的準確性要求較高,并且需要具備可解釋性。因此,明略嘗試了人機協(xié)同、人機交互的方式,首先在專家給出的初步因果關系圖的基礎上,通過數(shù)據(jù)驅動的方式進一步補充事件間的因果關系,形成行業(yè)因果圖譜,然后再將專家經(jīng)驗和面向特定場景特定任務的模型都封裝為算子,經(jīng)過多輪人機交互之后由專家給出最終答案。

他預測,這一方向會在復雜度較高的行業(yè)中嘗試應用,減少應用場景對行業(yè)專家的依賴。

常識知識庫
另一方面,構建常識知識庫是讓知識圖譜“變聰明”的一種重要途徑,在構建常識知識庫上,明略已經(jīng)做了一些嘗試。

張杰說道,常識知識庫的構建還需要借助研究機構和開源的力量,而明略科技未來規(guī)劃的重點,則在于構建多個垂直領域知識庫,將領域事實、領域規(guī)律分別固化下來,在實施項目中使其得以不斷的積累和修正。

當前,知識圖譜底層技術生態(tài)是否完善?周圍的工具支持是否全面呢?

在張杰看來,目前知識圖譜底層技術的各個環(huán)節(jié)仍不夠完善,很多環(huán)節(jié)需要一定程度的人工參與,比如:圖譜 schema 的定義、數(shù)據(jù)映射規(guī)則的開發(fā)、常識或領域知識庫的開發(fā)、訓練數(shù)據(jù)集的標注、知識融合階段的人工校驗等。要想達到可商用的程度,自動化程度至少要到 95%,有些場景甚至要求更高。

而且,目前業(yè)界在知識圖譜領域并沒有一套功能全面的、面向企業(yè)級應用的工具集。針對這種情況,明略開發(fā)了上文提到的一套圖譜構建的算法工具包——HAO 圖譜。然而,像 HAO 圖譜這種功能全面的工具集在知識圖譜行業(yè)并不多見,但也正表明了這是知識圖譜底層技術生態(tài)待挖掘的一個缺口,也是機會所在。

張杰認為,未來,知識圖譜底層技術還有很多需要完善的地方,除了技術方式之外,張杰認為還可以考慮促進行業(yè)聯(lián)盟數(shù)據(jù)標準化的方式,改造已有 IT 系統(tǒng),將標注工作從為了標注而標注變成眾包的方式等。


未來技術發(fā)展趨勢展望

綜上,我們可以得出知識圖譜領域的技術和應用發(fā)展仍然是一片有待開發(fā)的“藍海”,不成熟的地方孕育著機會和潛力。未來,知識圖譜技術的發(fā)展方向有哪些呢?張杰指出了其中一部分有待完善的點:

他說道,知識圖譜相關的大多數(shù)技術都仍是開放的,比如:

在信息抽取層面,可以做篇章級甚至跨篇章的事件抽??;

在知識表示層面,需要較為通用的方式對節(jié)點和邊中蘊含的語義信息、網(wǎng)絡結構信息、時序信息做知識表示;

在應用層面,亟待突破的就是數(shù)據(jù)驅動的方式做因果關系發(fā)現(xiàn)和因果推斷。

知識圖譜將世界上各種知識相互關聯(lián)起來,形成類人腦的有邏輯、結構化的知識庫,從而在人類實踐活動中執(zhí)行統(tǒng)一的標準,并提供個性化的服務,提高工作效率。但知識圖譜距離成為一把無堅不摧的鋼刀還有些差距,為了利用它達到人類的終極目標——方便,還需要開發(fā)者們繼續(xù)努力!

采訪嘉賓

張杰博士,明略科技集團科學院知識工程實驗室主任,研究方向為機器學習、自然語言處理、知識圖譜,曾就職于華為諾亞方舟實驗室,后做為聯(lián)合創(chuàng)始人創(chuàng)辦金融科技公司并任 CTO,曾主持搭建百科知識問答、對話機器人、推薦引擎、決策引擎、大數(shù)據(jù)風控等系統(tǒng),發(fā)表學術論文十余篇,發(fā)明專利八十余項。
————————————————
版權聲明:本文為CSDN博主「AI技術生態(tài)論」的原創(chuàng)文章,遵循 CC 4.0 BY-NC-SA 版權協(xié)議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/weixin_45152865/java/article/details/105506780