3個例項:“基於動力學的資料科學”在生命科學中的應用 | NSR

海歸學者發起的公益學術平臺

分享資訊,整合資源

交流學術,偶爾風月

3個例項:“基於動力學的資料科學”在生命科學中的應用 | NSR

Pixabay/geralt

21世紀以來,生物大資料在量(多資料種類,海量樣本數,多時間點取樣等)、質(高時空精度,單細胞測序等)兩方面快速發展,大大推動了生命科學的進步,也為生物醫學問題的模型建立、資料分析,以及預測和控制,帶來了巨大的機遇和挑戰。

傳統的生物學資料研究方法大多基於資料的靜態統計資訊,即

基於統計學的資料科學”(statistics-based data science)

,其缺點是,在很多場景下不能準確地解釋和預測系統的複雜動態行為。資料分類、資料降維、變數聚類、變數相關性分析等方法都是如此。

然而,即使是靜態的資料,往往也蘊含著系統的動力學特徵。我們需要透過

基於動力學的資料科學”

(dynamics-based data science)

,充分建立和利用動力系統的普遍性質(如,穩定平衡點的臨界性質、中心流型的低維性、單變數的吸引子的重構性等),對蘊含在資料中的動力學資訊進行挖掘和分析。

“基於動力學的資料科學”將動力系統理論、統計學理論,和資料的實際背景結合在一起,為處理和解釋動態生物大資料提供了一種基礎堅實、計算高效的理論和方法。

在最近發表於《國家科學評論》(National Science Review,NSR)的觀點文章中,中科院生化細胞所的陳洛南研究員(通訊作者)、東京大學的史際帆博士(第一作者)和Aihara教授透過3個具體例項,揭示瞭如何利用動力系統的普遍性質,由觀測的資料對生物學現象進行動力學分析,並解決生命科學的實際問題。

1。   利用微分方程的分岔理論,由測量的高維資料,進行健康臨界預警和疾病預測。DNB理論利用了系統在臨界點附近,複雜網路將表現出有別於非臨界點的網路特性,量化臨界狀態並發現疾病的關鍵因子,實現疾病預警“防病於未然”。

2。   利用偏微分方程和diffusion map理論,量化細胞的多潛能性或距離幹細胞的遠近。LDD方法是,透過建立隨機生滅過程的偏微分方程模型,對細胞的分化過程進行了多潛能性量化。利用單細胞測序資料和相關數學方法,可以對每類細胞多潛能性進行估計和分化程度排序,實現量化細胞的多潛能性,並構建多潛能性勢能景觀。

3個例項:“基於動力學的資料科學”在生命科學中的應用 | NSR

3。   利用神經網路工具,對基因表達量等的時間序列進行預測。ARNN方法是,利用最新的reservior神經網路工具,透過“空間-時間資訊變換方程”STI,即變換高維資料的資訊為時間的動態資訊,對短序列高維度資料(如基因表達資料)進行學習,可實現複雜系統的短時間序列或動態演化的預測。

3個例項:“基於動力學的資料科學”在生命科學中的應用 | NSR

“基於動力學的資料科學”是一個全新交叉領域,相比傳統靜態的“基於統計學的資料科學”方法,具有“可解釋性”、“可量化性”和“可拓展性”,在今後的生物醫學等領域的研究舞臺,將扮演不可或缺的重要角色。

TAG: 資料動力學潛能利用基於