ai已經進入了個體智慧階段,但是它的應用場景還是更復雜的一個階段

AI誕生之初,很長一段時間都停留在個體智慧階段,即面向“識別出影象中的內容”、“聽懂一段語音”、“預測蛋白質的3D結構”這類目標單一的任務。

但隨著技術發展,AI開始逐漸與其他智慧群體產生互動,走向更加複雜的應用場景。

比如在2019年,DeepMind訓練的遊戲類AI就在星際爭霸中超越了99。8%的活躍玩家,達到了最高的 Grandmaster段位。

ai已經進入了個體智慧階段,但是它的應用場景還是更復雜的一個階段

這是一種以博弈論為機器學習模型的思路。沿著這種思路,DeepMind的幾位研究者提出了一種名為EigenGame的理論,重新定義了PCA(主成分分析,Principal Component Analysis)方法。

ai已經進入了個體智慧階段,但是它的應用場景還是更復雜的一個階段

△已獲深度學習頂會ICLR 2021傑出論文獎

“Eigen”與“Game”

“Eigen”意為特徵。也是論文題目中所提到的PCA方法的核心概念。

ai已經進入了個體智慧階段,但是它的應用場景還是更復雜的一個階段

PCA是ML領域裡用於資料降維的經典方法。目的是在儘可能不丟失原資料資訊的前提下,將高維資料對映(壓縮)到低維空間,得到剔除了原有特徵冗餘資訊的新特徵。

ai已經進入了個體智慧階段,但是它的應用場景還是更復雜的一個階段

在目標資料集的資料屬性過多,資料量過大的時候,模型訓練和計算的效能可能受到很大影響。這時,就需要用到PCA進行資料降維。

而“Game”則意為博弈論*(Game Theory)*,是一種研究理性決策者之間的衝突與合作的數學模型。

納什均衡(Nash equilibrium)作為博弈論的一個重要概念,指每個參與人在獲取資訊不完全的情況下,做出了針對其他參與人策略的最優反應,比如經典的囚徒困境。

ai已經進入了個體智慧階段,但是它的應用場景還是更復雜的一個階段

那麼,到底如何才能將博弈論與PCA結合起來呢?

如何將PCA過程重建為一場“博弈”

我們知道,PCA的最優解,是由可以組成方差值最大的投影矩陣,且互相正交的特徵向量組成的。

那麼,在EigenGame模型中,我們將每一個特徵向量假設為一個參與者。

ai已經進入了個體智慧階段,但是它的應用場景還是更復雜的一個階段

每一個參與者(紅點向量,指投影得到的降維資料),都會盡可能地使自己與最大方差方向一致(在同一條直線上),且與高維參與者(藍點向量,指原資料)保持垂直。

所有參與者構成一個層級結構,其中設定一個只關注最大方差值的1號參與者。其他參與者可以透過計算方差值而受到獎勵,也會在與其他參與者距離過近時被懲罰。

ai已經進入了個體智慧階段,但是它的應用場景還是更復雜的一個階段

這裡的參與者並不是主動地去推理最優解的整體性質,而只是對其他參與者策略的最佳響應。

ai已經進入了個體智慧階段,但是它的應用場景還是更復雜的一個階段

如果所有向量都都使用梯度上升來同步且獨立地最大化它們的效能(即每個參與者都發揮最佳狀態),它們將實現這場博弈的納什均衡。

ai已經進入了個體智慧階段,但是它的應用場景還是更復雜的一個階段

△EigenGame會引導每個參與者沿單位球從空圈平行地走向箭頭

我們也就得到了最佳的PCA解決方案。

“博弈”的意義

在機器學習問題的連續方法(continuum approach)上,研究人員通常有兩種思路。

一種是使用凸或非凸最佳化理論,推理解的整體性質。

另一種則受神經科學啟發,使用純粹的連線主義方法和更新規則。但此時往往需要研究複雜的動力學系統,從而使對系統的分析愈發困難。

而EigenGame則是一種介於兩者之間的理論。

ai已經進入了個體智慧階段,但是它的應用場景還是更復雜的一個階段

參與者(特徵向量)的最佳化和更新不限於功能梯度,而僅僅是對其他參與者當前策略的最佳響應。

這樣,就能更加自由地設計功能或進行各種屬性的最佳化更新——比如,可以在指定無偏或加速最佳化的同時,仍然確保Nash屬性作用於整體系統之上。

而在博弈過程中,向量與向量之間展現了同步上升的獨立特性。這種複雜的多人並行參與模式可以以更快的速度,處理更大規模的資料。

比如允許EigenGame計算分佈在數十個TPU上,並在幾小時內找到包含數百萬個特徵,或數十億行的數百兆位元組資料集的主要成分(Component)。

ai已經進入了個體智慧階段,但是它的應用場景還是更復雜的一個階段

所以,在解決機器學習問題上,這種大型的多智慧體系統(multi-agent system)超越了GAN雙人參與的零和博弈(two-player, zero-sum),進入了更加複雜豐富的場景應用。

並且,當從多主體角度考慮時,EigenGame中每個發揮最大效能的參與者,都會產生並更新其效能。

神經科學領域的赫布理論(Hebbian Theory),就有類似的更新規則(突觸可塑性)。

ai已經進入了個體智慧階段,但是它的應用場景還是更復雜的一個階段

△突觸前神經元向突觸後神經元的持續重複的刺激,可導致突觸傳遞效能的增加。

以前,PCA可以作為赫布更新(Hebbian updates)的解決方案,但又不能透過效用函式的梯度來匯出。引入博弈論後,赫布學習就有了新的研究視角。

當博弈論遇上機器學習

其實,博弈論的思想一直存在於很多機器學習的探索過程中,不管是經典的 SVM,還是大火的 GAN,這些模型的背後都有博弈論的影子。

最初提出“博弈機器學習”這一概念的劉鐵巖博士曾這樣說過:

什麼才是人工智慧?想要解決這個問題,首先需要為「智慧」提出一個定義。如果說過去對於個體智慧的研究為計算機賦予了智商(IQ)的話,那麼社會智慧則對應著人工智慧的情商(EQ)。

博弈論的引入讓AI在過去只與環境互動的基礎上,又學會了如何與其他智慧體打交道。而當EigenGame這種與多智慧群體互動的演算法出現時,其意義就不僅是更多更快的資料運算。

按照既非隨機,也非理性和對立的人類的行為規律去訓練建模,那麼AI就有了更多解決問題的新角度,也能在廣告競價、社交媒體、眾包管理、交通疏導等多個領域中得到更廣泛的應用。

或許,博弈論會是連線機器學習走向人和社會的一個橋樑。

TAG: 參與者博弈論PCaEigenGameAI