燃爆資料價值,資料存力為資料一體化建設提速

在7月31日濟南舉行的首屆中國算力大會上,華為攜手國家超級計算濟南中心上線了“東數西算”資料儲存集群系統暨山東省超算資料一體化示範工程,這是資料存力在超算應用中的最直接體現。

燃爆資料價值,資料存力為資料一體化建設提速

以往,大家主要注重算力應用,但濟南超算的實踐證明,要推進東數西算髮展,更要做好資料存力在國家基礎設施中的建設。資料存力不僅以儲存容量為核心,還包含效能表現、安全可靠、綠色低碳在內的綜合能力,資料存力成為算力價值的前提和基礎,發揮算力價值之前要先構建資料存力。

濟南超算推動山東省資料一體化建設實踐

據相關專家透露——如今濟南和青島兩個副省級城市的算力在去年就實現了科學打通佈局,而今年的重點任務則是把山東省16個市進行互聯互通,實現真正的“資料一體化”,這個目標甚至在今年8月就有望實現。如此一來,山東省也就率先在國內實現了全境資料一體化覆蓋,而為濟南超算提供這項技術支撐的,正是基於華為OceanStor Pacific分散式儲存的資料儲存集群系統。

燃爆資料價值,資料存力為資料一體化建設提速

就在本屆算力大會上,華為超算首席架構師趙順存也進行了《構建存力網路 促進智數融合》主題演講。正如傳統的電網承載“電荷”流動一樣,而未來的算網將承載“資料”互聯。由此看來,資料將成為未來應用的寶貴資源,而如何儲存並利用好這些資料,也是資料一體化存在的最大價值和應用的最大意義。

但是建設資料一體化也並非只是簡單的連線而已,建設者們面臨的首要問題就是如何打破傳統資料孤島,實現資料和裝置的統一管理。我們知道,超算是一種高階算力的專業裝置,因此從最早的設計到後來的部署,往往會採用差異化的架構模式,這樣就容易造成資料孤島。從這個角度來說,如何體現資料存力,實現全域性統一資料管理就是打造資料一體化的第一步。

第二個問題就是如何實現數網協同。作為專業應用,超算應用的規模一般都很大,涉及的資料量動輒都是上百GB甚至TB級別,因此對於資料的儲存與傳輸要求極高。但在實際應用中,使用者往往最頭疼的就是資料傳輸的問題。伴隨著算力的提升,如今超算的效能越來越強,億億次計算也已經是屢見不鮮,但是在計算之前如何將資料進行有效的傳輸和分析卻成為了超算效率提升的關鍵問題。

燃爆資料價值,資料存力為資料一體化建設提速

以當下熱門的冷凍電鏡應用為例,這項應用主要是用於掃描電鏡的超低溫冷凍制樣及傳輸技術(Cryo-SEM),實現直接觀察液體、半液體及對電子束敏感的樣品,如生物、高分子材料等。也正因為觀察的精密性,實際研究中產生的資料量巨大,而傳統超算中心的網路往往難以滿足海量傳輸的需求——或許產生資料只要幾天,計算資料幾天,但是中間傳輸這些資料就需要十幾天甚至幾十天的漫長等待。類似的應用還有影視行業的動漫渲染等等,無論是在網際網路、教育網還是區域網下,傳輸難題都是難以解決的。

最重要的則是資料安全。超算是一項關乎國計民生的應用,其中很多都是跟科研相關的,不少資訊都涉及行業甚至國家機密,因此對於資料安全的問題尤為重視。以往,每家超算中心都有內部的資料安全管理機制,也的確發揮了不錯的作用。但是面對資料流動,如何保障資料在不同超算中心之間傳輸時的安全性,如何規避資料風險、避免資料流傳過程中的洩露和篡改,這都是擺在管理者面前的問題。

綜上所述,雖然看來資料一體化只是將不同城市的超算中心連線在一起,只是實現了資料之間的互聯互通,但要想真正解決資料的高效傳輸、有效利用和安全防護等需求,就必須從底層架構上實現全新的設計,尤其是在網路架構中保障資料傳輸的實時監控和管理,在加速流動的同時保障安全,這顯然不是傳統超算應用所能夠解決的問題,而是從資料本身出發,提供了一個全新的思路。

資料存力先行,華為資料儲存集群系統解讀

“不同超算中心能力各異,管理複雜,導致資料容易形成孤島,流通並不容易。”華為超算首席架構師趙順存表示,要想打造資料一體化,必須打破現有資料孤島,以資料為先,實現資料的視覺化、透明化,同時還要打破記憶體牆、協議牆的雙重限制,將多樣算力直接按需載入到儲存系統,透過資料一體化方案實現全新的應用模式。這其中,資料存力先行是首先要秉承的目標,也是面向未來數字化社會的必要準備。

燃爆資料價值,資料存力為資料一體化建設提速

所謂資料存力,就是資料儲存的能力,是根據不同的應用環境需求,有效儲存資料的綜合能力。資料存力是以儲存容量為核心,包含效能表現、可靠程度、綠色效能在內的綜合體現。據業內著名管理諮詢公司羅蘭貝格的測算髮現,每1元儲存投資可支撐5元直接價值、8元間接價值和30-40元衍生價值,由此可見資料存力已經成為未來數字化時代的基石。相對於資料算力來說,資料存力更具備前置性,只有把資料妥善的儲存起來,才有資格談後面的算力分析和業務應用。因此,對於資料一體化建設來說,強調資料存力的首要地位,強調資料應用的價值,也是打造整個解決方案的指導思想之一。

也正是秉承著這樣的理念,華為在資料一體化架構中也融入了資料全域性可見、智慧流動、分析加速和安全防護四大特徵,實現了全生命週期的管理,也讓資料的傳輸更快捷、分析更高效、使用更安全。其中基於華為OceanStor Pacific分散式儲存打造的資料儲存集群系統以多樣性的資料支撐、可靠的線上業務承載和更具價效比的資料儲存方案為特色,也是資料一體化解決方案中使用的核心產品。藉助於硬體高密設計與高效演算法結合,OceanStor Pacific分散式儲存一套就能夠支撐高效能計算、大資料分析、AI計算的混合負載,並實現了跨站點多活容災、故障倒換等多種功能,更好的應對超算海量資料的挑戰。

燃爆資料價值,資料存力為資料一體化建設提速

資料全域性可見就是將多超算中心構成一個邏輯統一的儲存檔案系統,這樣無論原本資料使用的是哪種檔案格式都可以接入到系統中來,實現所有資料的透明化、視覺化,這樣在上層應用無感知的情況下解決看不見的問題,讓管理者實現更好的監控和管理。這裡,華為從資料流動匯流排、元資料兩個方面入手,透過基於HTTPS的靈活互聯能力實現了資料的快速共享與流通,同時藉助於表化、流化的統一元資料遮蔽裝置差異,實現跨裝置、跨異構互聯互通。這樣分佈在山東省內各地的超算資料都可以彙總到平臺上來,管理員也對資料一目瞭然,可以實現更好的排程。

資料智慧流動比較好理解,但是難點在於資料的熱度不同,即熱溫冷資料原本在資料中心有不同的儲存介質差異,而要想實現自由流動,就同樣需要保障他們對應的層級劃分,這樣在不影響系統整體儲存效能的前提下就解決流動難、取數難的問題,也讓資料的處理更加高效。這裡在排程層面實現了算力排程加數網調動的融合,既可以實現多地域的算力調控,又可以對於資料實現跨地域、裝置、網路、冷熱的管理,最大限度提升了靈活度,優化了效率。

燃爆資料價值,資料存力為資料一體化建設提速

第三個解決的問題是資料加速,這也是資料應用中最核心的問題。在保障了資料的視覺化和自由流動之後,管理者自然希望最大限度的發揮資料價值,這就需要系統能夠實現原生多協議互通,讓多種協議共享一份資料,最大限度降低資料訪問延遲,同時還要實現0遷移高效訪問,保障訪問效率。這樣在同一個超算中心內,資料無需搬遷就能實現處理,既避免了重複複製帶來的等待,又能有效節省空間開銷,一舉兩得。

最後,面對眾多的訪問需求,如何實現安全風險的層級管理,防止使用者任意越權操作,停止服務甚至銷燬資料,都是系統設計之初就要考慮的問題。同時對於超算資料還要防止資料外流,避免資料洩露。這其中的安全包括了設施安全、資料安全和管理安全三個層面,從環境、資產、合規三個方面保障了資料的整體安全,也實現了從底層架構到上層應用的全面覆蓋,讓使用者無後顧之憂。

如今,山東省已經透過資料一體化實現了對於全省超算節點的有效管理,也有包括濟南、青島、淄博、臨沂、濰坊等16個地市的系統納入網路當中,實現了跨中心的統一管理。據趙順存介紹,目前這套系統已經在國家級生態環境監測大資料超算雲中心、多尺度高解析度遙感大資料以及脈衝星研究等多個科研專案中提供支撐,實現了資料一張網,透過有效的資源排程加速科研專案的資料傳輸和計算速度,助力科研應用的發展。

未來,資料一體化更將實現從區域到全國的漸進式覆蓋,並有可能沿著一帶一路的指引,將中國的資料存力、數字經濟的產品和技術以及商業模式輸出,讓更多海內外使用者感受到數字化的強大魅力。

TAG: 資料超算存力算力實現