這一屆科研計算人趕DDL紅寶書

問:實驗室的硬體條件好壞對你的科研有多大影響?

答:啥條件都行,沒有影響。

我們堅信以下三點:

1、科學家就是專門負責搞科研的;

2、不依賴別人,你的研究效率和節奏必須掌握在你自己手裡;

3、不管是嘗試有風險的新穎專案,還是運用深度學習手段,科研多試錯才能出好東西。

有老師跟我們吐槽說,一天天地忙著維護環境,整得跟運維工程師一樣了,太耽誤事兒。想找學生幫忙吧,他們很多也不懂啊~

老師們的碩博後們也苦不堪言,本專業要學的東西已經多到爆炸,又要理論還要搞實驗,還要學大量計算機專業知識……

你這邊資料剛拿到手,別人文章都發了……救救孩子吧。

守著大把機器的,不見得有恃無恐;

得不到的,永遠在騷動,甚至還會掉頭髮。。。

《學生篇》

一、你們具體怎麼幫我們搞科研的?展開說說

二、在雲上和在本地跑任務有什麼區別?

三、我自己也會上雲,為啥要選你們?

四、你們跟超算比怎麼樣,有區別嗎?

《老師篇》

五、我是一個老師,你們對我的科研工作/團隊管理有什麼幫助?

六、我是藥物/生物/化學專業方向的,你們能做到什麼程度?

七、我是積體電路/微電子專業方向的,你們能做到什麼程度?

八、我是力學/熱能/機械工程專業方向的,你們能做到什麼程度?

你想問的,這裡都有答案。

你想要的,我們能提供更多。

以下是學生篇精華摘要

你們面向的是哪些科研方向的人?

四大類:

積體電路/微電子專業方向

,包括物理電子學/電路與系統/微電子學與固體電子學等專業;

藥物/生物/化學專業方向

,包括生物化學與分子生物學/化學工程/生物化學/生物工程/藥物化學/分析化學/高分子化學與物理等專業;

力學/熱能/機械工程專業方向

,包括流體力學/工程力學/機械製造及其自動化/車輛工程/工程熱物理/熱能工程/動力機械及工程/流體機械及工程/航空宇航製造工程等專業;

以及高校或科研機構的AI訓練平臺、虛擬模擬實驗室

等等。

你們是怎麼幫助我們這些搞科研的人的?

兩點結論:

1、讓大家更專心做科研,提升高校及科研機構師生的整體科研效率,讓IT能力跟上科研能力。

2、避免大家因為資源不夠而不得不選擇短平快的研究,不敢嘗試。

這一屆科研計算人趕DDL紅寶書

具體分成以下四個維度:

一整套針對應用最佳化的自動化科研環境,即開即用;

海量資源加智慧決策輔助,大幅提升計算效率同時降低成本;

有針對老師需求的獨特場景(這一點後續單獨展開);

讓IT能力跟上科研能力,視覺化操作,輕鬆上手。

有時候為了搶幾臺機器都要跟實驗室的師兄弟姐妹鬥智鬥勇,你們的資源真有那麼多?

雲上資源非常多,我們曾經根據IDC報告推測國內雲廠商的伺服器總量超過116萬臺,2020年中國公有云服務市場的全球佔比為6。5%,可大致估算出全球公有云廠商的伺服器總量超過千萬臺。

重點是,這些機器都是可用資源。

之前上過雲,發現有些型別的資源比較少(如部分型號的GPU),需要分別從幾個不同雲廠商調資源,你們支援嗎?

我們支援多雲。

多雲指使用來自多個雲廠商的多種服務,可以最大限度利用不同雲廠商的不同優勢,就像你說的從幾個不同雲廠商調資源。而在產品價格、地域選擇,多雲也更有優勢。

多機並行跑任務真的特別快嗎?

雲端的一大特點,就是你用相同的錢,可以讓1臺機器跑100小時,也可以讓100臺機器跑1小時,後者就是多機並行,能夠大大節省跑任務的時間。

我們實驗室裡才幾臺機器,天天維護頭就很大了,雲上這麼多機器還不得把自己搞禿了?

雲上的執行環境都是自動化配置的,不需要人工干預,使用者還可以透過平臺進行統一管理和監控,方便易操作。

舉個例子,我們的Auto-Scale功能可以自動監控使用者提交的任務數量和資源的需求,動態按需地開啟和關閉所需算力資源,在不夠的時候,還能根據不同的使用者策略,自動化排程本區域及其他區域的目標型別或相似型別例項資源。

所有操作都是自動化完成,無需使用者干預。

下圖就是開啟Auto-Scale功能後,使用者某專案一週之內所呼叫雲端計算資源的動態情況。

其中橙色曲線為OD例項的使用狀況,紅色曲線為SPOT的使用狀況。

可以看到整個階段算力波峰為約3500核,而波谷只有650核左右。Auto-Scale功能可以根據任務運算情況動態開啟雲端資源,並在波峰過去後自動關閉,讓資源的使用隨著使用者的需求自動擴張及縮小,最大程度匹配任務需求。

任務跑得怎麼樣可以在平臺上監控嗎?

提交任務後,可以在監控介面中檢視任務和叢集執行情況。

我們也可以在介面上檢視任務執行的日誌。

這一屆科研計算人趕DDL紅寶書

我們還支援實時檢視任務本身的狀態,比如Fluent的殘差曲線,監控計算的收斂情況。

這一屆科研計算人趕DDL紅寶書

老師想搞深度學習,需要很多GPU,但有時候雲上連幾塊GPU都很難搶到,怎麼辦?

一般來說單家雲廠商的GPU可用資源是比較有限的,我們曾經在一個任務中成功地呼叫了155塊NVIDIA Tesla V100,單個公有云廠商單區域資源未必能夠隨時滿足這種需求。這裡面就還涉及到跨雲排程。

具體可以看《

生信雲實證Vol.6:155個GPU!多雲場景下的Amber自由能計算

我試過自己搶雲廠商的SPOT,雖然確實很便宜,但非常難用,隨時會斷掉,你們對SPOT支援到什麼程度?

由於SPOT一定會被搶走,我們的建議是用SPOT去算那些單個任務小總數卻很多的東西。

比如生物/化學計算裡的分子對接。常規分子對接任務幾分鐘即可算完,特別適合SPOT這種分分鐘可能被搶走的狀態。而且我們平臺

具備自動重試功能,一個任務被中斷可以自動重新提交,任務之間互相不影響,重新提交單個任務影響很小

不太懂IT,看到Linux就束手無策,我還能用你們這個雲平臺嗎?

可以的,我們支援Windows系統。

另外,由於分散式計算場景大部分基於Linux系統,我們可為使用者提供圖形化介面,基本不改變操作習慣,透過簡單的滑鼠操作就可以跑任務,上手非常快。

我們學校的超算中心總是在用好多年前的舊機器,非常慢,實驗室的情況稍微好一點,你們雲上有新硬體嗎?

你在雲上隨時可以用到最新的硬體。

舉個例子,2019年4月3日上午,Intel在太平洋兩岸近乎同步釋出了代號Cascade Lake的第二代至強可擴充套件處理器。當天中午12點,國內某雲廠商便宣佈其基於Cascade Lake的全新一代通用計算增強型雲伺服器C6正式轉為商用。

這一屆科研計算人趕DDL紅寶書

超算就要慢得多了,超算中心從規劃設計到正式上線需要經歷若干年的時間,能夠在上線時配置當年上市的硬體已經是其規劃能力的最佳體現,其最新硬體更新週期至少要以年為單位。

超算資源有時候跑著跑著就被強制回收了,你們也會有這種情況嗎?

我們提供的是獨佔資源,不會被搶走。

我們之前用超算都是共享資源,不能改,也不能自己裝一些元件,你們可以嗎?

我們提供的是獨佔資源,使用者擁有管理員許可權,安裝什麼、如何使用均由使用者自己做主。

你們支援哪些應用?

藥物/生物/化學方向的有Autodock Vina、NetMHC、Qvina、Amber、MaterialsStudio、GATK、VASP、Rosetta、Schrödinger、BCFtools、Gromacs、FastQC、DeltaVina、Gaussian等;

積體電路/微電子方向的有Innovus、Spectre、Genus、Dracula、Virtuoso、Ncsim、PowerSI、Xcelium、PT、DC、VCS、VC、FM、Verdi、OPC Proteus、Tmax2、HSPICE、Spyglass、Starrc、Calibre、Tessent、nmLVS、nmDRC、xACT、xL、xRC等;

力學/熱能/機械工程方向的有Abaqus、Autodesk、Bladed、CFX、COMSOL、Fluent、HyperWorks、LS-DYNA、Matlab、Mechanical、MSC Adams、MSC Nastran、StarCCM、SOLIDWORKS、VASP、WRF等;

人工智慧方向的有Pytorch、Mxnet、Tensorflow、Caffe2、Miniconda、Scikit Learn/OpenCV、Pylearn2、Keras等。

你們和這些軟體/工具,有什麼區別呢?

一句話概括,我們是EDA/CAE/CFD/生物/化學/AI計算雲平臺,透過我們可以在短時間內調集海量資源,為上述軟體/工具加速,從而搶在各種科研deadline之前跑完任務,拿到結果。

關於我們的其他優勢與技術能力,可以通過後面的問題了解。

……

這一屆科研計算人趕DDL紅寶書

這一屆科研計算人趕DDL紅寶書

這一屆科研計算人趕DDL紅寶書

這一屆科研計算人趕DDL紅寶書

- END -

我們有個

科研計算雲平臺

整合多種科研應用,大量任務多節點並行

應對短時間爆發性需求,連網即用

跑任務快,原來幾個月甚至幾年,現在只需幾小時

5分鐘快速上手,拖拉點選視覺化介面,無需程式碼

支援高階使用者直接在雲端建立叢集

掃碼免費試用,送300元體驗金,入股不虧~

更多電子書

TAG: 任務科研資源你們我們