AI誕生之初,很長一段時間都停留在個體智慧階段,即面向“識別出影象中的內容”、“聽懂一段語音”、“預測蛋白質的3D結構”這類目標單一的任務。
但隨著技術發展,AI開始逐漸與其他智慧群體產生互動,走向更加複雜的應用場景。
比如在2019年,DeepMind訓練的遊戲類AI就在星際爭霸中超越了99。8%的活躍玩家,達到了最高的 Grandmaster段位。
這是一種以博弈論為機器學習模型的思路。沿著這種思路,DeepMind的幾位研究者提出了一種名為EigenGame的理論,重新定義了PCA(主成分分析,Principal Component Analysis)方法。
△已獲深度學習頂會ICLR 2021傑出論文獎
“Eigen”與“Game”
“Eigen”意為特徵。也是論文題目中所提到的PCA方法的核心概念。
PCA是ML領域裡用於資料降維的經典方法。目的是在儘可能不丟失原資料資訊的前提下,將高維資料對映(壓縮)到低維空間,得到剔除了原有特徵冗餘資訊的新特徵。
在目標資料集的資料屬性過多,資料量過大的時候,模型訓練和計算的效能可能受到很大影響。這時,就需要用到PCA進行資料降維。
而“Game”則意為博弈論*(Game Theory)*,是一種研究理性決策者之間的衝突與合作的數學模型。
納什均衡(Nash equilibrium)作為博弈論的一個重要概念,指每個參與人在獲取資訊不完全的情況下,做出了針對其他參與人策略的最優反應,比如經典的囚徒困境。
那麼,到底如何才能將博弈論與PCA結合起來呢?
如何將PCA過程重建為一場“博弈”
我們知道,PCA的最優解,是由可以組成方差值最大的投影矩陣,且互相正交的特徵向量組成的。
那麼,在EigenGame模型中,我們將每一個特徵向量假設為一個參與者。
每一個參與者(紅點向量,指投影得到的降維資料),都會盡可能地使自己與最大方差方向一致(在同一條直線上),且與高維參與者(藍點向量,指原資料)保持垂直。
所有參與者構成一個層級結構,其中設定一個只關注最大方差值的1號參與者。其他參與者可以透過計算方差值而受到獎勵,也會在與其他參與者距離過近時被懲罰。
這裡的參與者並不是主動地去推理最優解的整體性質,而只是對其他參與者策略的最佳響應。
如果所有向量都都使用梯度上升來同步且獨立地最大化它們的效能(即每個參與者都發揮最佳狀態),它們將實現這場博弈的納什均衡。
△EigenGame會引導每個參與者沿單位球從空圈平行地走向箭頭
我們也就得到了最佳的PCA解決方案。
“博弈”的意義
在機器學習問題的連續方法(continuum approach)上,研究人員通常有兩種思路。
一種是使用凸或非凸最佳化理論,推理解的整體性質。
另一種則受神經科學啟發,使用純粹的連線主義方法和更新規則。但此時往往需要研究複雜的動力學系統,從而使對系統的分析愈發困難。
而EigenGame則是一種介於兩者之間的理論。
參與者(特徵向量)的最佳化和更新不限於功能梯度,而僅僅是對其他參與者當前策略的最佳響應。
這樣,就能更加自由地設計功能或進行各種屬性的最佳化更新——比如,可以在指定無偏或加速最佳化的同時,仍然確保Nash屬性作用於整體系統之上。
而在博弈過程中,向量與向量之間展現了同步上升的獨立特性。這種複雜的多人並行參與模式可以以更快的速度,處理更大規模的資料。
比如允許EigenGame計算分佈在數十個TPU上,並在幾小時內找到包含數百萬個特徵,或數十億行的數百兆位元組資料集的主要成分(Component)。
所以,在解決機器學習問題上,這種大型的多智慧體系統(multi-agent system)超越了GAN雙人參與的零和博弈(two-player, zero-sum),進入了更加複雜豐富的場景應用。
並且,當從多主體角度考慮時,EigenGame中每個發揮最大效能的參與者,都會產生並更新其效能。
神經科學領域的赫布理論(Hebbian Theory),就有類似的更新規則(突觸可塑性)。
△突觸前神經元向突觸後神經元的持續重複的刺激,可導致突觸傳遞效能的增加。
以前,PCA可以作為赫布更新(Hebbian updates)的解決方案,但又不能透過效用函式的梯度來匯出。引入博弈論後,赫布學習就有了新的研究視角。
當博弈論遇上機器學習
其實,博弈論的思想一直存在於很多機器學習的探索過程中,不管是經典的 SVM,還是大火的 GAN,這些模型的背後都有博弈論的影子。
最初提出“博弈機器學習”這一概念的劉鐵巖博士曾這樣說過:
什麼才是人工智慧?想要解決這個問題,首先需要為「智慧」提出一個定義。如果說過去對於個體智慧的研究為計算機賦予了智商(IQ)的話,那麼社會智慧則對應著人工智慧的情商(EQ)。
博弈論的引入讓AI在過去只與環境互動的基礎上,又學會了如何與其他智慧體打交道。而當EigenGame這種與多智慧群體互動的演算法出現時,其意義就不僅是更多更快的資料運算。
按照既非隨機,也非理性和對立的人類的行為規律去訓練建模,那麼AI就有了更多解決問題的新角度,也能在廣告競價、社交媒體、眾包管理、交通疏導等多個領域中得到更廣泛的應用。
或許,博弈論會是連線機器學習走向人和社會的一個橋樑。