在實(shí)踐應(yīng)用中極具潛力的圖神經(jīng)網(wǎng)絡(luò)(GNNs)

來(lái)源:        發(fā)布時(shí)間:2020-04-07
深度學(xué)習(xí)已經(jīng)改變了我們處理數(shù)據(jù)的方式,通過(guò)使用日益增長(zhǎng)的計(jì)算“廉價(jià)”資源(摩爾定律)來(lái)解決現(xiàn)實(shí)世界問(wèn)題,并且能夠完成一些人腦幾乎毫不費(fèi)力就能完成的認(rèn)知任務(wù),例如圖像分類(lèi),自然語(yǔ)言處理,視頻處理等等。

但這些任務(wù)具有的大多數(shù)數(shù)據(jù)和結(jié)構(gòu)通常是在歐幾里得空間中表示的。然而,我們目睹了越來(lái)越多的問(wèn)題,這些問(wèn)題生成的數(shù)據(jù)來(lái)自非歐幾里得域,它們更適合被表示為具有復(fù)雜關(guān)系和對(duì)象之間相互依賴(lài)關(guān)系的圖。圖數(shù)據(jù)的復(fù)雜性給經(jīng)典ML算法和現(xiàn)代DL算法帶來(lái)了重大挑戰(zhàn)。近來(lái)出現(xiàn)了許多擴(kuò)展DL方法使之用于圖數(shù)據(jù)的研究。


花點(diǎn)時(shí)間想像一下,如果我們收集了所有“獲批”藥物或一般藥物的結(jié)構(gòu),并訓(xùn)練一個(gè)GNN來(lái)學(xué)習(xí)藥物的分子模式/結(jié)構(gòu),它會(huì)學(xué)會(huì)識(shí)別在此處或太空中發(fā)現(xiàn)的分子是不是藥物。我相信結(jié)果可能相當(dāng)令人驚訝,并且能幫助我們發(fā)現(xiàn)或重新發(fā)現(xiàn)可以治愈如今被認(rèn)為無(wú)法治愈的疾病的藥物。如果考慮大多數(shù)疾病甚至死亡本身都可以看作是技術(shù)問(wèn)題。那么為什么有些生物可以活幾百年而有些只能活幾十年?我們可以無(wú)限延長(zhǎng)壽命嗎?

GNNs與對(duì)應(yīng)的DL算法具有相似的屬性,它能夠進(jìn)行回歸,分類(lèi),為空節(jié)點(diǎn)和邊生成數(shù)據(jù),以及許多尚待發(fā)現(xiàn)的功能。該領(lǐng)域仍處于起步階段,誰(shuí)也不知道幾年內(nèi)我們能做些什么,以及用從現(xiàn)在開(kāi)始的幾千篇論文做些什么。對(duì)我來(lái)說(shuō),最有趣的是推薦以及醫(yī)療領(lǐng)域的應(yīng)用,其中醫(yī)療領(lǐng)域?yàn)閚o.1。

在實(shí)踐應(yīng)用中極具潛力的圖神經(jīng)網(wǎng)絡(luò)(GNNs)

如今,圖可能是不規(guī)則的,一張圖可能具有可變數(shù)目的無(wú)序節(jié)點(diǎn),并且圖中節(jié)點(diǎn)可能具有不同數(shù)量的鄰居,從而導(dǎo)致一些在圖像領(lǐng)域中易于計(jì)算的重要的操作(例如卷積),很難應(yīng)用于圖域。此外,現(xiàn)有機(jī)器學(xué)習(xí)算法的核心假設(shè)是實(shí)體相互獨(dú)立。該假設(shè)不再適用于圖數(shù)據(jù),因?yàn)槊總€(gè)實(shí)體(節(jié)點(diǎn))通過(guò)各種類(lèi)別的鏈接(例如引文,好友和交互)與其他實(shí)體(節(jié)點(diǎn))相關(guān)聯(lián)。但這不是障礙,因?yàn)樽罱覀兛吹饺藗儗?duì)擴(kuò)展或者應(yīng)該說(shuō)是移植深度學(xué)習(xí)算法到圖領(lǐng)域(尤其是設(shè)計(jì)來(lái)用于圖數(shù)據(jù))的興趣日益濃厚。

卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)不在本文討論范圍之內(nèi)。循環(huán)圖神經(jīng)網(wǎng)絡(luò)(RecGNNs)大多是圖神經(jīng)網(wǎng)絡(luò)的開(kāi)創(chuàng)性作品。RecGNN旨在學(xué)習(xí)具有循環(huán)神經(jīng)架構(gòu)的節(jié)點(diǎn)表示。它們假設(shè)圖中的節(jié)點(diǎn)不斷與其鄰居交換信息/消息,直到達(dá)到穩(wěn)定的平衡。RecGNNs在理論上很重要,它啟發(fā)了后來(lái)對(duì)卷積圖神經(jīng)網(wǎng)絡(luò)的研究。特別地,消息傳遞的思想被基于空間的卷積圖神經(jīng)網(wǎng)絡(luò)所繼承。

卷積圖神經(jīng)網(wǎng)絡(luò)(ConvGNNs)將卷積運(yùn)算從網(wǎng)格數(shù)據(jù)推廣到了圖形數(shù)據(jù)。主要思想是通過(guò)聚合節(jié)點(diǎn)自身的特征和鄰居的特征來(lái)生成節(jié)點(diǎn)的表示,其中。與RecGNNs不同,ConvGNNs堆疊多個(gè)圖卷積層以提取高級(jí)節(jié)點(diǎn)表示。ConvGNNs在建立許多其它的復(fù)雜GNN模型中起著核心作用。圖2a展示了用于節(jié)點(diǎn)分類(lèi)的ConvGNN。圖2b展示了用于圖分類(lèi)的ConvGNN。

圖自動(dòng)編碼器(GAEs)是無(wú)監(jiān)督的學(xué)習(xí)框架,可將節(jié)點(diǎn)/圖編碼到潛在的矢量空間中,并通過(guò)編碼后的信息重建圖數(shù)據(jù)。GAEs用于學(xué)習(xí)網(wǎng)絡(luò)嵌入和圖生成分布。對(duì)于網(wǎng)絡(luò)嵌入,GAEs通過(guò)重建圖結(jié)構(gòu)信息(例如圖鄰接矩陣)來(lái)學(xué)習(xí)潛在節(jié)點(diǎn)表示。對(duì)于圖生成,某些方法逐步生成圖的節(jié)點(diǎn)和邊,而其他方法則一次全部輸出圖形。圖2c展示了一個(gè)用于網(wǎng)絡(luò)嵌入的GAE。

時(shí)空?qǐng)D神經(jīng)網(wǎng)絡(luò)(STGNNs)旨在從時(shí)空?qǐng)D中學(xué)習(xí)隱藏的模式,這種模式在各種應(yīng)用中變得越來(lái)越重要,例如交通速度預(yù)測(cè),駕駛員操縱預(yù)期和人類(lèi)動(dòng)作識(shí)別。STGNNs的關(guān)鍵思想是同時(shí)考慮空間依賴(lài)性和時(shí)間依賴(lài)性。許多當(dāng)前的方法將用來(lái)捕獲空間依賴(lài)性的圖卷積和用來(lái)對(duì)時(shí)間依賴(lài)性進(jìn)行建模的RNNs或CN

圖分類(lèi)旨在預(yù)測(cè)整個(gè)圖的類(lèi)標(biāo)簽??梢酝ㄟ^(guò)圖卷積層,圖池層和/或讀出層的組合來(lái)實(shí)現(xiàn)此任務(wù)的端到端學(xué)習(xí)。圖卷積層負(fù)責(zé)精確的高級(jí)節(jié)點(diǎn)表示,而圖池化層則充當(dāng)下采樣的角色,從而每次將每個(gè)圖都粗化為子結(jié)構(gòu)。讀出層將每個(gè)圖的節(jié)點(diǎn)表示折疊為圖表示。通過(guò)將多層感知器和softmax層應(yīng)用于圖表示,我們可以構(gòu)建用于圖分類(lèi)的端到端框架。在圖2b中給出了一個(gè)例子。

當(dāng)圖中沒(méi)有可用的類(lèi)標(biāo)簽時(shí),可以在端到端框架中以完全無(wú)監(jiān)督的方式學(xué)習(xí)圖嵌入。這些算法以?xún)煞N方式利用邊級(jí)信息。一種簡(jiǎn)單的方法是采用自動(dòng)編碼器框架,其編碼器使用圖卷積層將圖嵌入到潛在表示中,在其上使用解碼器來(lái)重構(gòu)圖結(jié)構(gòu)。另一種流行的方法是利用負(fù)采樣方法,該方法將一部分節(jié)點(diǎn)對(duì)采樣為負(fù)對(duì),而圖中具有鏈接的現(xiàn)有節(jié)點(diǎn)對(duì)為正對(duì)。然后應(yīng)用邏輯回歸層來(lái)區(qū)分正對(duì)和負(fù)對(duì)。