一體化可觀測性平臺,不只有監控而已

一體化可觀測性平臺,不只有監控而已

IT運維(ITOM)在國外是一個成熟的領域,過去曾成長出不少獨角獸公司,有大名鼎鼎千億美金市值的ServiceNow,也有後起之秀DataDog、Splunk。

相較之下,中國IT運維市場也在兩年進入到一個快速發展階段。據前瞻產業研究院資料顯示,2012-2019年,中國IT運維市場規模呈現波動趨勢。從增速來看,2014年達到近年來最高增速17。34%,達到了1121。2億元的市場規模。2019年,中國IT運維市場規模達到2324。3億元,同比增長15。73%,2020年我國中國IT運維市場規模達到2690億元左右。

中國的創業者也在用過去十多年的實踐對外傳遞這樣一個訊號:無論是主打應用效能監控(APM)、日誌分析、CMDB(運維管理平臺),還是構建智慧運維服務(AIOps),當下基於國內雲原生應用不斷增長的勢頭,IT運維領域的競爭焦點也開始轉變為:從單點同質化的產品,到面向傳統及政企行業,以使用者為中心,為使用者提供全生命週期的全棧IT產品。

這個格局中,既以有云智慧、擎創科技、聽云為代表的創新企業,也有阿里巴巴、騰訊、百度、平安科技等企業內部研發的產品線。

那麼,如何打造全棧IT運維的技術“範本”?實現這一解決方案的難點又會有哪些?

一次銀行投訴引發的反思

2018年,某銀行的VIP客戶在使用其系統時處理一筆資金轉賬業務操作時,出現了異常崩潰,無法登陸的問題,這次略有不快的經歷,讓該VIP直接將投訴遞給了當時銀行裡的高層。但經過內部的調查結果反饋是,IT部門在監控過程中並未發現任何異常。

實際上,由於使用者手機型號、系統版本帶來的相容性問題,使用者入網問題、記憶體問題等等,都有可能是導致應用崩潰的罪魁禍首。

但這種對引發應用崩潰諸多可能性“茫然不知所措”的感觸讓IT部門當即決定,一定要確立個KPI:將應用崩潰率降到千分之五。

後來,該銀行客戶透過第三方服務商給出的解決方案,構建出具備使用者視角的監控平臺,以SDK嵌入的方式,進行真實使用者完整會話的全量採集和分析,如會話開始時間、裝置機型、OS、地區、城市、IP地址、裝置ID等維度,定位問題根因。最終,App崩潰率從2018年合作之初的8%,降低到一年後的0。4‰,再到如今下降到萬分之3。

對於金融行業來講,它們本身已經具備十分成熟的數字化實踐體系,不乏對自身業務理解和適用性更強的IT運維管理系統。但從程式碼到使用者構建以終端使用者為視角的應用監控平臺,類似的場景和應用實踐在此之前卻並不成熟。

首先是孤島式監控。

企業數字化推進的過程中,在不同階段構建了各種型別的監控平臺,由於又沒有體系化的規劃,導致一系列工具無法形成有機的結合,這往往導致,系統一旦出現問題,就很難第一時間發現問題的原因。

其次是IT建設與業務目標脫節。

企業業務的發展往往是以業務、使用者價值為導向,但IT建設初期卻往往以資源、伺服器的可用性層面進行構建的。這導致,IT運維在後臺做了很多使用者體驗最佳化,卻沒有直觀的資料和指標進行衡量。

三是AIOps的不成熟,

目前來看很多企業做了很多承諾,但是真正落地時卻發現效果非常差。一類是互動演算法廠商,卻並不掌握資料採集以及資料關聯的能力;二是工具式的監控廠商,只能在區域性落地,對實際業務的效果產生是比較少的。

四是對新技術監控的可見性不足。

以雲原生微服務技術為例,該技術對底層技術設施進行封裝,導致系統運維所關注的資訊不可見,此時業務只能往上層走,以使用者視角作為運維體系。

五是敏捷性不足。

不同於產品研發需求的迭代速度,運維是追求系統穩定、儘量少變更的,這導致IT監控系統與DevOps的敏捷理念產生了極大衝突。

實際上,當前工具式的監控體系已經無法滿足企業的運維需求。

一體化運維已在進行時

博睿資料成立於2008年,2020年8月在上交所科創板上市,作為一家企業監測應用效能(APM)服務商,已經服務了騰訊、阿里巴巴、招商銀行、華為、中國移動、平安等公司等諸多客戶。

目前博睿資料與阿里雲、騰訊雲也保持著一定的合作背景,但問題在於,包括金融行業也是雲廠商滲透的主要領域,客戶業務都在雲上,直接使用雲廠商的運維監控服務或許更為絲滑,或者會成為雲廠商銷售時的一個配套服務。此外,也會有客戶擔心供應商鎖定的問題,不太希望自身的技術棧與某個供應商鎖定。

博睿資料產品部高階總監孫麗告訴鈦媒體App,“雲廠商本身的監控方案目前並不完善與成熟,基本上還是以底層的metric為主,且相關的監控能力還是以多產品組合拼湊為主,體系性較差。除非客戶全部基於某一家的雲自上而下的搭建自己的服務體系,才能使用雲的監控產品。一旦涉及到混合雲、多雲管理,監控的孤立性會進一步增加。”

不久前,博睿資料推出了一體化智慧可觀測平臺ONE,是基於去年資料鏈DNA+的再度升級,也是博睿資料自2020年企業上市後最大的一次戰略釋出。

據瞭解,ONE平臺從ITOM統一監控、AIOps智慧運維、BizOps業務運營、DevOps效能提升四個應用場景出發,透過程式碼到客戶的全資料鏈DNA採集能力,結合大資料及AI能力,實現傳統的產品工具到平臺+架構的轉型,構建以使用者為中心的新運維體系。

在孫麗看來,“ONE平臺的跨平臺、雲無關的屬性恰恰是我們的優勢。一旦客戶要做雲的遷移需要重建運維監控體系,成本和代價巨大,甚至會影響業務穩定性。基於中立的產品可以做到一次部署隨處執行,不受底層環境的限制。”

目前,博睿資料主要聚焦於網際網路、金融、政企等大B客戶,主要以定製化、能力共建的方式提供服務,而針對中小企業客戶,基於其IT成熟度及實際業務體量,博睿資料則更希望ONE平臺能夠推進到中小企業客戶對一體化工具的訴求。

雲原生時代的可觀測性機遇

不同於以往所講的監控技術,雲原生時代基於微服務、容器化應用部署方式的改變,對底層技術設施進行封裝,儘量不讓客戶感知底層的資源環境,只關注向上的業務發展,導致系統運維所關注的資訊不可見。這也給監控技術有了一個新名詞:可觀測性技術。

企業對於可觀測的視野不再侷限於應用程式,而是需要從全域性的角度洞察混合IT基礎設施、資料來源、網路、雲和邊緣端的應用狀況,更加主動化、自動化和智慧化地提升企業運維的效率。

作為一項新興技術理念,可觀測性技術難免存在其落地應用的諸多困難,但不可否認的是,它已經成為各大創業廠商乃至雲計算大廠重點關注的方向,如阿里雲的ARMS、騰訊雲的TAPM、位元組火山的APMPlus等。

Gartner 預測,到2024年,將有30%的企業會透過可觀測技術來提升數字化業務的執行效能,相比2020年的10%提升了3倍。

在這場技術押注的背後,都在暗自努力搶灘下一階段雲原生時代紅利。

(本文首發鈦媒體APP 作者|楊麗,編輯|蓋虹達)

TAG: 運維監控使用者客戶博睿