這一屆科研計算人趕DDL紅寶書

2021-11-29由 AMiner學術發表于健康

問：實驗室的硬體條件好壞對你的科研有多大影響？

答：啥條件都行，沒有影響。

我們堅信以下三點：

1、科學家就是專門負責搞科研的；

2、不依賴別人，你的研究效率和節奏必須掌握在你自己手裡；

3、不管是嘗試有風險的新穎專案，還是運用深度學習手段，科研多試錯才能出好東西。

有老師跟我們吐槽說，一天天地忙著維護環境，整得跟運維工程師一樣了，太耽誤事兒。想找學生幫忙吧，他們很多也不懂啊~

老師們的碩博後們也苦不堪言，本專業要學的東西已經多到爆炸，又要理論還要搞實驗，還要學大量計算機專業知識……

你這邊資料剛拿到手，別人文章都發了……救救孩子吧。

守著大把機器的，不見得有恃無恐；

得不到的，永遠在騷動，甚至還會掉頭髮。。。

《學生篇》

一、你們具體怎麼幫我們搞科研的？展開說說

二、在雲上和在本地跑任務有什麼區別？

三、我自己也會上雲，為啥要選你們？

四、你們跟超算比怎麼樣，有區別嗎？

《老師篇》

五、我是一個老師，你們對我的科研工作/團隊管理有什麼幫助？

六、我是藥物/生物/化學專業方向的，你們能做到什麼程度？

七、我是積體電路/微電子專業方向的，你們能做到什麼程度？

八、我是力學/熱能/機械工程專業方向的，你們能做到什麼程度？

你想問的，這裡都有答案。

你想要的，我們能提供更多。

以下是學生篇精華摘要

你們面向的是哪些科研方向的人？

四大類：

積體電路/微電子專業方向

，包括物理電子學/電路與系統/微電子學與固體電子學等專業；

藥物/生物/化學專業方向

，包括生物化學與分子生物學/化學工程/生物化學/生物工程/藥物化學/分析化學/高分子化學與物理等專業；

力學/熱能/機械工程專業方向

，包括流體力學/工程力學/機械製造及其自動化/車輛工程/工程熱物理/熱能工程/動力機械及工程/流體機械及工程/航空宇航製造工程等專業；

以及高校或科研機構的AI訓練平臺、虛擬模擬實驗室

等等。

你們是怎麼幫助我們這些搞科研的人的？

兩點結論：

1、讓大家更專心做科研，提升高校及科研機構師生的整體科研效率，讓IT能力跟上科研能力。

2、避免大家因為資源不夠而不得不選擇短平快的研究，不敢嘗試。

具體分成以下四個維度：

一整套針對應用最佳化的自動化科研環境，即開即用；

海量資源加智慧決策輔助，大幅提升計算效率同時降低成本；

有針對老師需求的獨特場景（這一點後續單獨展開）；

讓IT能力跟上科研能力，視覺化操作，輕鬆上手。

有時候為了搶幾臺機器都要跟實驗室的師兄弟姐妹鬥智鬥勇，你們的資源真有那麼多？

雲上資源非常多，我們曾經根據IDC報告推測國內雲廠商的伺服器總量超過116萬臺，2020年中國公有云服務市場的全球佔比為6。5%，可大致估算出全球公有云廠商的伺服器總量超過千萬臺。

重點是，這些機器都是可用資源。

之前上過雲，發現有些型別的資源比較少（如部分型號的GPU），需要分別從幾個不同雲廠商調資源，你們支援嗎？

我們支援多雲。

多雲指使用來自多個雲廠商的多種服務，可以最大限度利用不同雲廠商的不同優勢，就像你說的從幾個不同雲廠商調資源。而在產品價格、地域選擇，多雲也更有優勢。

多機並行跑任務真的特別快嗎？

雲端的一大特點，就是你用相同的錢，可以讓1臺機器跑100小時，也可以讓100臺機器跑1小時，後者就是多機並行，能夠大大節省跑任務的時間。

我們實驗室裡才幾臺機器，天天維護頭就很大了，雲上這麼多機器還不得把自己搞禿了？

雲上的執行環境都是自動化配置的，不需要人工干預，使用者還可以透過平臺進行統一管理和監控，方便易操作。

舉個例子，我們的Auto-Scale功能可以自動監控使用者提交的任務數量和資源的需求，動態按需地開啟和關閉所需算力資源，在不夠的時候，還能根據不同的使用者策略，自動化排程本區域及其他區域的目標型別或相似型別例項資源。

所有操作都是自動化完成，無需使用者干預。

下圖就是開啟Auto-Scale功能後，使用者某專案一週之內所呼叫雲端計算資源的動態情況。

其中橙色曲線為OD例項的使用狀況，紅色曲線為SPOT的使用狀況。

可以看到整個階段算力波峰為約3500核，而波谷只有650核左右。Auto-Scale功能可以根據任務運算情況動態開啟雲端資源，並在波峰過去後自動關閉，讓資源的使用隨著使用者的需求自動擴張及縮小，最大程度匹配任務需求。

任務跑得怎麼樣可以在平臺上監控嗎？

提交任務後，可以在監控介面中檢視任務和叢集執行情況。

我們也可以在介面上檢視任務執行的日誌。

我們還支援實時檢視任務本身的狀態，比如Fluent的殘差曲線，監控計算的收斂情況。

老師想搞深度學習，需要很多GPU，但有時候雲上連幾塊GPU都很難搶到，怎麼辦？

一般來說單家雲廠商的GPU可用資源是比較有限的，我們曾經在一個任務中成功地呼叫了155塊NVIDIA Tesla V100，單個公有云廠商單區域資源未必能夠隨時滿足這種需求。這裡面就還涉及到跨雲排程。

具體可以看《

生信雲實證Vol.6：155個GPU！多雲場景下的Amber自由能計算

》

我試過自己搶雲廠商的SPOT，雖然確實很便宜，但非常難用，隨時會斷掉，你們對SPOT支援到什麼程度？

由於SPOT一定會被搶走，我們的建議是用SPOT去算那些單個任務小總數卻很多的東西。

比如生物/化學計算裡的分子對接。常規分子對接任務幾分鐘即可算完，特別適合SPOT這種分分鐘可能被搶走的狀態。而且我們平臺

具備自動重試功能，一個任務被中斷可以自動重新提交，任務之間互相不影響，重新提交單個任務影響很小

。

不太懂IT，看到Linux就束手無策，我還能用你們這個雲平臺嗎？

可以的，我們支援Windows系統。

另外，由於分散式計算場景大部分基於Linux系統，我們可為使用者提供圖形化介面，基本不改變操作習慣，透過簡單的滑鼠操作就可以跑任務，上手非常快。

我們學校的超算中心總是在用好多年前的舊機器，非常慢，實驗室的情況稍微好一點，你們雲上有新硬體嗎？

你在雲上隨時可以用到最新的硬體。

舉個例子，2019年4月3日上午，Intel在太平洋兩岸近乎同步釋出了代號Cascade Lake的第二代至強可擴充套件處理器。當天中午12點，國內某雲廠商便宣佈其基於Cascade Lake的全新一代通用計算增強型雲伺服器C6正式轉為商用。

超算就要慢得多了，超算中心從規劃設計到正式上線需要經歷若干年的時間，能夠在上線時配置當年上市的硬體已經是其規劃能力的最佳體現，其最新硬體更新週期至少要以年為單位。

超算資源有時候跑著跑著就被強制回收了，你們也會有這種情況嗎？

我們提供的是獨佔資源，不會被搶走。

我們之前用超算都是共享資源，不能改，也不能自己裝一些元件，你們可以嗎？

我們提供的是獨佔資源，使用者擁有管理員許可權，安裝什麼、如何使用均由使用者自己做主。

你們支援哪些應用？

藥物/生物/化學方向的有Autodock Vina、NetMHC、Qvina、Amber、MaterialsStudio、GATK、VASP、Rosetta、Schrödinger、BCFtools、Gromacs、FastQC、DeltaVina、Gaussian等；

積體電路/微電子方向的有Innovus、Spectre、Genus、Dracula、Virtuoso、Ncsim、PowerSI、Xcelium、PT、DC、VCS、VC、FM、Verdi、OPC Proteus、Tmax2、HSPICE、Spyglass、Starrc、Calibre、Tessent、nmLVS、nmDRC、xACT、xL、xRC等；

力學/熱能/機械工程方向的有Abaqus、Autodesk、Bladed、CFX、COMSOL、Fluent、HyperWorks、LS-DYNA、Matlab、Mechanical、MSC Adams、MSC Nastran、StarCCM、SOLIDWORKS、VASP、WRF等；

人工智慧方向的有Pytorch、Mxnet、Tensorflow、Caffe2、Miniconda、Scikit Learn/OpenCV、Pylearn2、Keras等。

你們和這些軟體/工具，有什麼區別呢？

一句話概括，我們是EDA/CAE/CFD/生物/化學/AI計算雲平臺，透過我們可以在短時間內調集海量資源，為上述軟體/工具加速，從而搶在各種科研deadline之前跑完任務，拿到結果。

關於我們的其他優勢與技術能力，可以通過後面的問題了解。

……