十年死磕,從一線工程師到CEO

十年死磕,從一線工程師到CEO

· 「名人堂」快貓星雲 來煒 ·

問題 1:

您好,來煒!很榮幸有機會採訪到您,先簡單介紹一下您自己?

大家好,我是來煒,是快貓星雲的創始人&CEO。

我本科就讀於中國科學技術大學,得益於中科大的自由和開放,我在學校實驗室兼職網路和系統管理員,畢業之後,就順勢加入到了百度運維部門工作,參與當時百度最核心的業務——競價排名服務的技術保障。但由於業務太過於“核心”,所以技術保障的壓力很大,在百度度過了緊張、激烈、快速成長的三年時間,從內心深處覺得這不是我想要的“生活”。於是在2011年加入到了“以慢著稱”的豆瓣技術團隊,參與豆瓣社群、豆瓣開放平臺的產品研發工作,在豆瓣收穫了一群有才華、有追求的同事和朋友,成為一生的寶貴財富。

從大學畢業剛剛步入社會,這兩段截然不同的節奏,讓我得以切身體會,快與慢,只是表象,當目光放長遠,真正瞭解自己的興趣,瞭解自己擅長什麼,瞭解自己想成為什麼樣的人,就找到了一切的動力,找到了屬於自己的節奏。

後來,受到移動網際網路浪潮的影響,先後加入了小米和滴滴,在小米,見證了中國智造如何加速中國移動網際網路的普及,在滴滴,親身踐行著移動網際網路讓出行更美好的使命。瞭解開源的朋友,可能會對我發起的兩個開源專案比較熟悉,open-falcon和夜鶯監控。

十年死磕,從一線工程師到CEO

open-falcon 是我在小米工作期間,為了應對公司網際網路業務的快速增長,而 Zabbix 在擴充套件性和使用靈活度方面疲於應付的情況,帶領團隊開發並開源的一款網際網路企業級監控系統。open-falcon 從寫下第一行程式碼,是在 2012 年的冬天,開源於 2014 年。open-falcon 在設計之初,沉澱的主要是網際網路公司在運維大規模物理機時代的優秀方法論,在簡單易用、擴充套件性、效能方面傾注了較多的心思,憑藉於此,開源之後迅速成為國內開源監控系統的首選,服務了上千家企業使用者,並影響了國內網際網路運維圈子一個階段對於監控系統系統的設計思路。

滴滴在 2016 年初,開始往雲原生架構轉型,重度採用 K8s 和容器化技術棧,同時在架構轉型的過程中,傳統的物理機架構和雲原生架構,會持續的並存和交織。 截止當前,公司基本實現了全部核心業務的容器化以及K8s編排排程。在這個“漫長”過程中,對新一代的企業級監控提出了更高的要求,即如何以一套監控產品,來保障大規模異構環境的可觀測性,並提供良好的使用者體驗,減少業務在架構轉型過程中的風險和摩擦。

於是,我們當時從公司自身的雲原生架構轉型需求出發,結合 Prometheus 構建的標準化能力,以及在公司大規模場景的實踐經驗,採用 All-In-One 的設計原則,提供企業級的功能特性,開箱即用的產品體驗,打造了“新一代雲原生監控分析系統” —— 夜鶯監控,並於 2020年3月份在 Github 上以 Apache License V2 許可證開源。

開源之後,憑藉其優秀的產品設計和靈活性架構,夜鶯監控快速發展為國內最活躍的企業級雲原生監控方案。迄今為止,在Github上已經迭代釋出了60多個版本,獲得了4800顆Star,70多位程式碼貢獻者。快速的迭代,也讓夜鶯監控的使用者群越來越大,涉及各行各業,Prometheus + AlertManager + Grafana組合方案被越來越多的社群使用者選擇將其升級為使用夜鶯監控。夜鶯監控專案,於5 月 11 日,成功捐贈給了中國計算機學會開源發展委員會,成為CCF 接受捐贈的第一個開源專案。

問題 2:

您在2021年創立了快貓星雲,是什麼契機促使您做了這個決定呢?

首先,雲計算和雲原生這個大的浪潮,對整個 IT 行業產生著深遠的影響,尤其是推動著infra層面劇烈變革,我們身處其中,深深的感受到,如果不去抓住這個時代賦予我們的機會,會是無法彌補的遺憾。另一方面,雲計算正在逐步吞噬“我們”,一時間發現我們能幹的雲計算乾的更好,我們不能幹的雲計算能幹,這意味著不去主動求變,最終也可能會被滾滾洪流狠狠的甩下車。

第二,過去十年所從事的開源工作,不管是open-falcon、還是夜鶯,服務了數千家終端使用者,創造了一定的社會價值。結合雲計算,我看到了創造更大社會價值的無限潛力以及商業上成功的可能性。

而這些設想和遠景,是我一直待在一家公司支撐內部業務,永遠不可能實現的,走出去,是唯一的路徑。

問題 3:

您之前在滴滴主要負責的工作是?現在主營的業務是什麼?與之前的技術方向一致嗎?

我在滴滴工作6年時間,大致上可以分為三個階段。

第一階段:解決可用性的問題,保障大家穩穩的打到車

不管是早期每天百萬訂單,還是之後的每天大幾千萬訂單,“保障全平臺業務穩定、高效的執行”,一直都是我們部門的使命願景;“全平臺不可用時長”,是我最重要甚至唯一的KPI,可用性是我們技術團隊承諾給業務的最核心的價值,也是最核心的使用者體驗之一。

第二階段:推動滴滴往雲原生架構轉型

在 2016 年初,我們已經看到了雲原生架構所帶來的效率提升方面的潛力和趨勢。當時面臨兩個決策,一是K8s和mesos的選型之爭,二是開著飛機換引擎,節奏、風險如何把握。

事後來看,當時和團隊一起,做出了正確的決策,我們從2016年初,開始往雲原生架構轉型,重度採用 K8s 和容器化技術棧,同時在架構轉型的過程中,傳統的物理機架構和雲原生架構,持續的並存和交織,我們將穩定性保障、業務改造升級、彈性雲計算平臺建設三者做到了順利的融合。

當前公司基本實現了全部核心業務的容器化以及K8s編排排程,支撐業務每週數千次的快速迭代,實現了資源使用效率的數倍提升。

十年死磕,從一線工程師到CEO

獲得當年的 CNCF 終端使用者最高獎>

第三階段:對外商業化

大的網際網路企業,隨著內部業務增速的逐步企穩和內部基礎平臺的逐步完善,技術團隊,特別是infra團隊,一般會面臨能力溢位、資源溢位、以及團隊長期健康發展的問題。解法無外乎兩種:

1、技術團隊主動求變,用技術變現,讓技術本身變成一個“業務”,成為公司的第n條曲線。infra層面最大的商業模式和機會就是雲計算,但是商場如戰場,需要面對激烈的市場競爭,抓住合適的時間視窗,考驗團隊認知轉型升級的速度,以及經營意識和能力。

2、技術團隊控制規模和投入,從內部效率上要收益,但是內部效率挖掘的天花板是相對有限的,最終會導致團隊的長期發展呈現螺旋狀坍縮。

這兩個抉擇和轉型都面臨著巨大的困難,對我個人而言,體會更是深刻。2019年,我逐步將精力過渡到公司的雲計算業務上,從私有云平臺、監控、大資料幾個方向切入,從支援內部業務切換到更多服務於外部企業客戶,再到2021年,擔任雲計算事業部總經理,全身心投入到雲計算業務。這段經歷,比我過往職業生涯任何一個階段面臨的轉型都更猛烈、更具不確定性,甚至於從結果上看業務發展和我的預期是有差距的。

慶幸的是,這次不那麼成功的轉型經歷,為我打開了一扇窗,埋下了創業的種子,2021年10月份,快貓星雲科技有限公司正式成立了。

快貓星雲,作為一家雲原生智慧運維科技公司,秉承著讓監控分析變簡單的初心和使命,致力於打造先進的雲原生監控分析平臺,結合人工智慧技術,透過產品技術和方法論的創新,提升雲原生時代數字化服務的穩定性保障能力。

問題 4:

您對未來智慧運維的市場前景是否看好?有哪些建議?

運維是一個剛需領域,市場空間足夠大,穩定性保障,是涉及到數字化、資訊化的所有行業、企業面臨的難題,也是所有技術工作的基本盤、技術架構演進的重要落腳點,是技術團隊承諾給使用者的最重要的使用者體驗和最核心的使用者價值。如果穩定性這個基本盤沒有做好,其他技術工作的成績都要打折扣,甚至歸零。所以任何一位合格CTO或者技術主管,他的工作清單裡,無一例外,穩定性保障永遠是他需要通盤考慮的首要問題,且不能有一絲一毫的放鬆。

但這個事情,剛需之外,他又很難:

1、系統越來越複雜,以至於無法清晰的定義什麼是真的故障,無法定義,那就更談不上準確、及時的發現故障了,穩定性保障工作,直接輸在了起跑線;

2、資料量越來越大,資訊過載的問題變得格外突出,技術團隊在有限的時間裡,無法有效、準確的提取關鍵資訊,導致貽誤戰機,造成巨大的業務損失;

3、穩定性保障,在整個行業範圍,缺乏有效的方法論沉澱和產品化抽象,導致故障處理的各個環節,高度依賴工程師個體的經驗,不具備複製性,難以持續改進,俗話講,缺乏套路,門檻太高;

十年死磕,從一線工程師到CEO

首先,快貓星雲的核心是方法論的認知優勢,結合國內頂級網際網路公司的成功經驗,譬如滴滴、阿里等等。這些實踐和經驗,經過抽象、提煉、產品化,有機會成為行業通用的、行之有效的解決方案。

其次,我們深度融合了AIOps和可觀測兩個前沿技術領域。這就好比快貓星雲是一架飛機,AI是飛機引擎,可觀測平臺和資料就是原油,“方法論”是飛控系統,只有三者的有機結合,才能讓快貓星雲這架飛機,飛的又快又穩。

問題 5:

監控預警方面與現有市面上的相比有哪些優劣勢?是否有做過相關的測試對比

我們所打造的雲原生監控分析平臺Flashcat平臺,為技術團隊,提供了一站式的監控分析,故障定位的解決方案,包括資料視覺化、監控告警、資料分析、故障定位等等,特別的,有以下三個特點:

1、 資料一體化&功能一體化:從資料採集源頭開始,對包括指標、日誌、鏈路追蹤、事件等各類監控資料打通,保障資料的質量,即保證資料的標準化、豐富度、關聯關係。 在一站式的環境下,“想工程師之所想,急工程師之所急”,對指標、日誌、鏈路追蹤、事件等監控資料,進行綜合的分析和推薦,做到足不出戶的快速繼續追查問題。

2、高質量的資料集結合場景化的應用人工智慧技術,透過異常檢測,關聯分析、自動推薦等能力,降低資訊過載造成的負擔。

3、透過抽象北極星,我們扭轉了看待系統穩定性的視角,任意複雜的系統,都可以從使用者的視角,抽象為有限的,關健的幾個指標,結合智慧異常檢測技術,徹底解決故障無法被準確定義、故障發現不及時的問題。透過抽象滅火圖,多維分析、事件中心,對關鍵特徵和關鍵事件進行分析,快速圈定故障根因。

更重要的是,透過Flashcat平臺,使得故障處理變成了一種可重複執行的“固定套路”,這大大降低了故障處理的門檻,減少了對人的依賴因素。同時可重複執行,使得系統具備了自我迭代改進的能力。

問題 6:

最後,您對技術人員未來職業路線選擇是否有一些好的意見和建議?

兩個體會分享給大家:

1、職業規劃要趁早,普通人要成功,捷徑越來越少,靠的就是儘早認準一個領域,持續積累,最終才能厚積薄發。

2、技術要以創造使用者價值為導向,工程師也要儘早找到屬於你的使用者,把自己的工作當做一個產品去經營。

目前來看,雲計算和雲原生,推動著全世界的資訊化、數字化的進一步的普及。IaaS 層面,格局已然非常清晰,成為水電煤一般的基礎設施,雲計算的紅利正在加速釋放,“雲上應用”百花齊放,在各領域沉澱的最佳實踐,有機會在雲上獲得使用者價值和商業價值的雙重成功,正所謂三百六十行,行行出狀元。在國內,最不缺的就是場景和規模,我們有巨大的技術從業人員,在網際網路、雲計算、人工智慧技術等領域,做出了領先的產品和解決方案。

期待有更多的技術人員,從“大廠跳出來”,去找到自己的使用者,攜過往所學,投身到這個精耕細作的雲計算新時代。

推薦閱讀

七年時間,從技術小白成為跨端專家

十年死磕,從一線工程師到CEO

TAG: 監控原生架構技術開源