滴普科技:為什麼越來越多的企業會選擇“湖倉一體”?

資料庫行業正走向分水嶺。

過去幾年,全球資料庫行業發展迅猛。2020年,Gartner首次把資料庫領域的魔力象限重新定義為Cloud DBMS,把雲資料庫作為唯一的評價方向;2021年,Gartner魔力象限又發生了兩個關鍵的變化:1、Snowflake和Databricks兩個雲端資料倉庫進入領導者象限;2、放開了魔力象限的收入門檻限制,SingleStore、Exasol、MariaDB、Couchbase等資料庫新勢力首次進入榜單。

某種程度上,這種變化的背後,暗示著全球資料庫已經進入發展的黃金時代,也是一眾新興勢力的加速崛起之年。其中,最為典型的例子是Snowflake和Databricks經常隔空喊話,前者是雲端數倉的代表玩家,去年繼續保持了1倍以上的業務增長;後者因推出“湖倉一體”,估值一路飆升至360億美金,兩者之爭,其實是資料庫新舊架構之爭。

隨著企業數字化駛入深水區,對於資料使用場景也呈現多元化的趨勢,過去容易被企業忽略的資料,開始從幕後走到臺前,如何為眾多場景選擇一款合適的資料庫產品,已經成了很多CIO和管理者的一道必答題。但有一點可以確定的是,過去的資料庫已難以匹配眼下日益增長的資料複雜度需求,基於擴充套件性和可用性劃分,分散式架構突破單機、共享、叢集架構下的資料庫侷限,近些年發展態勢迅猛。為此,這篇文章我們將主要分析:

1、資料倉、資料湖、湖倉一體究竟是什麼?

2、架構演進,為什麼說湖倉一體代表了未來?

3、現在是佈局湖倉一體的好時機嗎?

01:資料湖+資料倉≠湖倉一體

在湖倉一體出現之前,資料倉庫和資料湖是被人們討論最多的話題。

正式切入主題前,先跟大家科普一個概念,即大資料的工作流程是怎樣的?這裡就要涉及到兩個相對陌生的名詞:資料的結構化程度和資料的資訊密度。前者描述的是資料本身的規範性,後者描述的是單位儲存體積內、包含資訊量的大小。

一般來說,人們獲取到的原始資料大多是非結構化的,且資訊密度比較低,透過對資料進行清洗、分析、挖掘等操作,可以排除無用資料、找到資料中的關聯性,在這個過程中,資料的結構化程度、資訊密度也隨之提升,最後一步,就是把最佳化過後的資料加以利用,變成真正的生產資料。

簡而言之,大資料處理的過程其實是一個提升資料結構化程度和資訊密度的過程。在這個過程中,資料的特徵一直在發生變化,不同的資料,適合的儲存介質也有所不同,所以才有了一度火熱的資料倉庫和資料湖之爭。

我們先來聊聊資料倉庫,它誕生於1990年,是一個面向主題的、整合的、相對穩定的、反映歷史變化的資料集合,主要用於支援管理決策和資訊的全域性共享。簡單點說,資料倉庫就像是一個大型圖書館,裡面的資料需要按照規範放好,你可以按照類別找到想要的資訊。

就目前來說,對資料倉庫的主流定義是位於多個數據庫上的大容量儲存庫,它的作用在於儲存大量的結構化資料,為管理分析和業務決策提供統一的資料支援,雖然存取過程相對比較繁瑣,對於資料型別有一定限制,但在那個年代,資料倉庫的功能性已經夠用了,所以在2011年前後,市場還是資料倉庫的天下。

到了網際網路時代,資料量呈現“井噴式”爆發,資料型別也變得異構化。受資料規模和資料型別的限制,傳統資料倉庫無法支撐起網際網路時代的商業智慧,隨著Hadoop與物件儲存的技術成熟,資料湖的概念應用而生,在2011年由James Dixon提出。

相比於資料倉庫,資料湖是一種不斷演進中、可擴充套件的大資料儲存、處理、分析的基礎設施。它就像一個大型倉庫,可以儲存任何形式(包括結構化和非結構化)和任何格式(包括文字、音訊、影片和影象)的原始資料,資料湖通常更大,儲存成本也更為廉價。但它的問題也很明顯,資料湖缺乏結構性,一旦沒有被治理好,就會變成資料沼澤。

從產品形態上來說,資料倉庫一般是獨立標準化產品,資料湖更像是一種架構指導,需要配合著系列周邊工具,來實現業務需要。換句話說,資料湖的靈活性,對於前期開發和前期部署是友好的;資料倉庫的規範性,對於大資料後期執行和公司長期發展是友好的,那麼,有沒有那麼一種可能,有沒有一種新架構,能兼具資料倉庫和資料湖的優點呢?

於是,湖倉一體誕生了。依據DataBricks公司對Lakehouse 的定義,湖倉一體是一種結合了資料湖和資料倉庫優勢的新正規化,在用於資料湖的低成本儲存上,實現與資料倉庫中類似的資料結構和資料管理功能。湖倉一體是一種更開放的新型架構,有人把它做了一個比喻,就類似於在湖邊搭建了很多小房子,有的負責資料分析,有的運轉機器學習,有的來檢索音影片等,至於那些資料來源流,都可以從資料湖裡輕鬆獲取。

就湖倉一體發展軌跡來看,早期的湖倉一體,更多是一種處理思想,處理上將資料湖和資料倉庫互相打通,現在的湖倉一體,雖然仍處於發展的初期階段,但它已經不只是一個純粹的技術概念,而是被賦予了更多與廠商產品層面相關的含義和價值。

這裡需要注意的是,“湖倉一體”並不等同於“資料湖”+“資料倉”,這是一個極大的誤區,現在很多公司經常會同時搭建數倉、資料湖兩種儲存架構,一個大的數倉拖著多個小的資料湖,這並不意味著這家公司擁有了湖倉一體的能力,湖倉一體絕不等同於資料湖和資料倉簡單打通,反而資料在這兩種儲存中會有極大冗餘度。

02:為什麼說湖倉一體是未來?

迴歸開篇的核心問題:湖倉一體憑什麼能代表未來?

關於這個問題,我們其實可以換一個問法,即在資料智慧時代,湖倉一體會不會成為企業構建大資料棧的必選項?就技術維度和應用趨勢來看,這個問題的答案几乎是肯定的,對於高速增長的企業來說,選擇湖倉一體架構來替代傳統的獨立倉和獨立湖,已經成為不可逆轉的趨勢。

一個具有說服力的例證是,現階段,國內外各大雲廠商均陸續推出了自己的“湖倉一體”技術方案,比如亞馬遜雲科技的Redshift Spectrum、微軟的Azure Databricks、華為雲的Fusion Insight、滴普科技的FastData等,這些玩家有云計算的老牌龍頭,也有資料智慧領域的新勢力。

事實上,架構的演進是由業務直接驅動的,如果業務側提出了更高的效能要求,那麼在大資料架構建設的過程中,就需要資料庫架構建設上進行技術升級。以國內數字化企業服務領域成長最快的獨角獸滴普科技為例,依託新一代湖倉一體、流批一體的資料分析基礎平臺FastData,基於對先進製造、生物醫藥、消費流通等行業的深度洞察,滴普科技從實際場景切入,為客戶提供了一站式的數字化解決方案。

滴普方面認為,“在資料分析領域,湖倉一體是未來。它可以更好地應對AI時代資料分析的需求,在儲存形態、計算引擎、資料處理和分析、開放性以及面向AI的演進等方面,要領先於過去的分析型資料庫。”以AI應用層面為例,湖倉一體架構天然適合AI類的分析(包括音影片非結構化資料儲存,相容AI計算框架,具有模型開發和機器學習全生命週期的平臺化能力),也更適合大規模機器學習時代。

滴普科技:為什麼越來越多的企業會選擇“湖倉一體”?

這一點,和趨勢不謀而合。

就在前不久,Gartner釋出了湖倉一體的未來應用場景預測:湖倉一體架構需要支援三類實時場景,第一類是實時持續智慧;第二類是實時按需智慧;第三類是離線按需智慧,這三類場景將可以透過快照檢視、實時檢視以及實時批檢視提供給資料消費者,這同樣是未來湖倉一體架構需要持續演進的方向。

03:現在是佈局湖倉一體的好時機嗎?

從市場發展走向來看,“湖倉一體”架構是基於技術發展程序的必經之路。

但由於這個新型開放架構仍處於發展早期,國內外企業數字化水平和市場認知的不同,造成了解決方案也存在著較大的差異。在業內投資人看來,“雖然美國的企業服務市場比我們成熟的多,也有很多路徑可以參考,但中國市場卻有著很多中國特色。以對標Databricks的滴普科技為例,美國企業服務市場往往賣產品就可以了,但中國大客戶群體需要更與客戶資深場景深度融合的解決方案,解決方案需要兼顧通用性和定製化。”

在此前與滴普科技的合作中,百麗國際就已經完成了統一數倉的搭建,實現了多個業務線的資料採集和各個業務域的資料建設。在保證前端資料正常執行、“熱切換”底層應用的前提下,滴普科技和百麗國際緊密協作,在短短几個月時間裡將多個數倉整合為統一數倉,有效統一了業務口徑,大幅縮減了開發運維工作量,整個業務價值鏈也形成了閉環。

滴普科技:為什麼越來越多的企業會選擇“湖倉一體”?

這也是“湖倉一體”的能力價值所在:隨著資料結構的逐漸多樣性,3D圖紙、直播影片、會議影片、音訊等資料資料越來越多,為深度挖掘資料價值,依託於領先的湖倉一體技術架構,百麗國際可先將海量的多模資料儲存入湖,在未來算力允許時,及挖掘深度的業務分析場景後,從資料湖中抓取資料分析。

舉個簡單的例子,某個設計師想要設計一款鞋子,一般會從歷史資料中找有效資訊參考,設計師也許只需要一張貨品照片,就能像瀏覽電影般,瞭解到該商品多年來全生命週期的銷售業績、品牌故事、競品分析等資料,賦能生產及業務決策,實現資料價值的最大化。

一般來說,大體量的企業想要保持持續增長,往往需要依靠大量、有效的資料輸出,進而實現智慧決策。很多企業出於 IT 建設能力的限制,導致很多事情沒法做,但透過湖倉一體架構,讓之前被限制的資料價值得以充分發揮,如果企業能夠在注重資料價值的同時,並有意識地把它儲存下來,企業就完成了數字化轉型的重要命題之一。

我們也有理由相信,隨著企業數字化轉型加速,湖倉一體架構也會有更為廣闊的發展空間。

TAG: 湖倉資料一體資料倉庫架構