作者|真梓

*

兩年前,當時任Pivotal(中國)的創始人兼總經理馮雷決定創業時,不少數據庫創投圈人士頗爲關注。

一是因爲,Pivotal這家美國公司,旗下有着Spring框架、數據倉庫Greenplum等知名產品。而Greenplum,這款在二十年前就問世的全球數倉代表,是馮雷及他的團隊過去十餘年的業務重心。二是,作爲Greenplum在中國的核心團隊,馮雷的一些同事早前已經創業,並打造了聲名在外的數據庫產品。再加上,在馮雷決定創業的2021年,正值國內基礎軟件走入主流投資視野。這些都意味着,這位前Pivotal(中國)的創始人兼總經理的新職業旅程,勢必不會默默無聞。

一個有意思的插曲是,在新公司剛成立的2021年,曾有基礎軟件領域的投資人告訴36氪,自己想去見馮雷卻喫了閉門羹——據稱,那時這位行業大咖正在"閉關",專心思考新的創業落點。

而2023年春天,當36氪見到已是「拓數派」創始人的馮雷時,他首先對外界的圍觀不置可否,認爲自己引起關注是因爲"數據庫圈子太小了"。

至於創業落點,早前拓數派已經宣佈要沿着數據計算不停探索新產品,前階段的主要產品是雲原生eMPP數據庫PieCloudDB企業版與社區版。這一次,藉着新產品發佈會,馮雷又發佈了"基於新一代雲原生數倉虛擬化技術打造的全新PieCloudDB「雲上雲」版"。

據他介紹,PieCloudDB「雲上雲」的核心價值體現在,降低數倉硬件和管理成本、提升數據計算資源利用效益。

首先在降本方面,這款產品可以讓多個數倉歸併至雲虛擬數倉,打破傳統數倉場景下數據孤島,解決數據多副本問題,幫助企業降低數倉管理複雜度。

至於增效,PieCloudDB「雲上雲」的目標是讓數據計算資源按需擴縮容,實現計算資源配置最優化,提升數倉的敏捷性和彈性,打開無限數據計算空間。

單看雲原生的理念,或許不算最新穎的idea。畢竟,和雲概念相輔相成的"存算分離",早被視爲降本增效的代表。而且,早在雲原生數據倉庫公司Snowflake2020年上市時,資本市場已爲此買單。

但在馮雷看來,雖然國內"雲原生"熱度也很高,但真正的落地程度還有待商榷。依舊以數據庫爲例,即使過去不少企業號稱"雲原生",但在使用中,很可能只是簡單把傳統架構的數據庫"搬上雲"。在實操中,客戶還是需要以租用虛機資源的方式使用,並不能達到真正的、只在計算時按計算用量計費。

馮雷表示,要做到真正的雲原生數據庫,修修補補是不行的,一定需要把傳統架構打散、重構——這也是PieCloudDB「雲上雲」的研發過程。馮雷介紹,這一版本的研發經過近百萬行代碼推倒重寫過程,“我們基本上都是重頭再寫,不僅實現了PostgreSQL的存算分離,而且調度引擎都換掉了,實現了多虛擬數倉併發計算。”

摒棄固有熟悉的產品架構,某種程度上看出馮雷這次"破壞式創新"的決心。但產品創新只是一面,落地纔算數。尤其,對於數據庫、數據倉庫這種古老產品,要創新、替代,並不容易。

對此馮雷也坦誠,目前在推廣自家產品時,會遇到客戶依舊認爲獨立數倉更靈活的情況。尤其是私有云客戶,或許更難"破局"。但他同樣堅持,這件事是大勢所趨。

"時代的信號很明顯。比如國家成立大數據局,肯定會推動數據交換。又比如亞馬遜的數據藍圖裏也有很多的數據治理,數據交換等價值。"馮雷說,"如果一個人有惰性,是抓不到時代的信號的。"

以下是對話部分(經36氪編輯):

36氪:爲什麼選擇在2021年創業?行業裏也一直關心你的下一步計劃。

馮雷:首先數據庫是個小圈子,大家確實也比較熟悉。

說到創業,主要有幾個契機。首先我們團隊原來在中國負責Greenplum產品已經十幾年了, Greenplum的研發也基本在中國。我們知道技術要上雲、要雲化、要虛擬化。VMware是虛擬化技術的提出者,但可能做一個跨雲的數倉產品不是它的核心戰略。而我們的邏輯是跨雲,不太能在原來的企業裏實現。再加上,這件事其實是一個破壞式創新,等於要把Greenplum推倒重寫。破壞式的創新,按照《創新者的窘境》,一般要在一個新機構去做。再加上,中國對這個技術的需求更強。

36氪:怎麼理解中國客戶有着更高的需求?

馮雷:數據倉庫的雲原生虛擬化,是說我們把這個數倉做成一個虛擬數倉。你不用的時候,它是不佔資源的,用的時候才啓動資源。

在中國, 我和客戶交流下來,發現他們經常被困在傳統數倉中。也就是說,傳統數倉中數據割裂得太厲害了。各種各樣的數據孤島,大的企業可能有100多個數倉。客戶給我們反饋,說如果有這種統一平臺,能夠把物理數倉變成虛擬數倉。把它們底下的數據放在一起,通過權限可以讓數據互訪,會很有需求,更何況還能降低硬件成本和維護成本。

同樣的需求,美國奔着公有云的趨勢走,中國在私有云停留的時間會比美國長很多。這種情況下,中國客戶怎麼辦?畢竟美國的Snowflake等公司也不提供私有云的場景,服務國內客戶也不現實。

36氪:所以你覺得這是一個空出來的機會。

馮雷:對,我們覺得這是一個重大的稀缺市場。而且,我們團隊是虛擬化的提出者,也是雲原生的提出者, 本身也是搞數據庫的,所以大家會希望我們去做。再加上,我們團隊剛好也面臨創新者的窘境,整個可以說是水到渠成。

要突破性創新,要做到雲原生、提供虛擬化數倉的能力,又要服務中國公有云、私有云及行業雲客戶,市場上看下來就是我們這支力量。

當然,拓數派現在也和阿里雲正式宣佈了合作,我們是一個公有云、私有云同時發力的企業。美國的資本市場不看好大家在私有云發力,估值和市值會很低。在美國一個做私有云生意的企業,PS是5左右,但公有云的PS能達到50倍以上。所以,在美國企業做私有云沒有市場。而中國的資本市場能夠包容對私有云的支持,做到對公有云和私有云的兼顧。所以,兩邊的環境還是挺不一樣的。

36氪:看到拓數派的投資人有挺重的人民幣色彩。

馮雷:對,我們拿的都是人民幣。你看我們,其實是一個世界級團隊,國際化程度非常高,但我們反而覺得要全人民幣投資,兼顧公有云和私有云。前段時間國內數據庫也出現了Global的趨勢,但我們決定要優先把這邊的事情做好。國內數據量的優勢意味着,在這裏錘鍊這款產品可能也會獨一無二。

36氪:拓數派產品的一個突出特點是"數倉虛擬化"。也就是把零散的元數據和用戶數據分別抽出來,統一放在一起計算。這確實降低了重複造輪子的可能,但實際落地時,各個業務線會不會還會有一些傳統思維?

馮雷:現在來看,只要是“苦過”的客戶,就會歡迎這件事。譬如我見到的一些大的金融機構,可能有上百個數倉,它們彼此之間要互通就很痛苦。我們以前在Greenplum會提供一個拷貝工具,讓客戶各種拷。但拷貝帶來一些資源浪費, 和存儲介質\ 數據不一致的問題。所以,這些痛苦過的客戶會有動力突破數據授權。

36氪:那沒“苦過”的呢?

馮雷:沒苦過的,day one就用這樣的一個設施也很好。以後,數據都放在底下共享存儲的介質裏面,然後通過權限可以互訪。但他們沒苦過,可能確實現在還不認爲這是個問題,或許也有各個部門、業務各自獨立的情況。

再拆解,我覺得有很多物理數倉的企業會加感興趣。就類似服務器虛擬化,一個小企業買10臺服務器就好了,要服務器虛擬化做什麼呢?但是大的、有上千臺服務器的企業,明白維護這麼多硬件、淘汰硬件、軟件遷移都很累,會對這個事情感興趣。服務器虛擬化也是一樣的道理。

爲什麼美國玩家不提虛擬化這個事情?因爲公有云說的就是降本增效,就像你去阿里雲上申請一臺服務器,你申請的是臺虛擬服務器,公有云用戶其實第一天就享受到了低成本的好處。

我們的產品,數據已經存儲在虛擬數倉,客戶不計算的時候不佔資源。底下的存儲,比如2個T數據,一年的價格和百度雲盤差不多,幾千塊錢。用戶要計算的時候,虛擬數倉再分配資源,最後再統計產生的計算費用。

用非虛擬數倉,也就是用實體數倉,軟硬綁定,即使虛擬機也綁定在存儲資源在裏面,一年下來怎麼也有20來萬塊,是兩個數量級的成本差別。

36氪:但實際落地,可能還會有某個業務線自己很強勢,要獨立。

馮雷:時代的信號是很明顯的。比如國家成立大數據局,肯定會推動數據交換。又比如亞馬遜的數據藍圖裏也有很多的數據治理,數據交換等等價值。如果一個人有惰性,是抓不到時代的信號的。

例子也很多。有些人不喜歡上公有云,因爲上公有云運維的工作就沒了,可能會想在自己機房搭數倉。很多老闆也頭很大,自己機房搭一個10來臺服務器的小數倉,而且和行業裏的數據格式還不一樣,和生態割裂。老闆也很痛苦,很想上公有云,不想被這類工程師"綁架"。

36氪:也就是說,你覺得這件事即使有困難,也是大勢所趨。

馮雷:對,大勢所趨。無論是看美國的經驗,還是看國家大數據局,再看我接觸過的那些痛過的機構,大家都下定決心要幹。但是真的從執行角度,還是需要很高層次的人拍板。也就是要總經理、董事長級別的人,推動公司層面的數據治理。從各個數倉的層面去推數據統一,肯定是有阻力的。

36氪:現在拓數派的項目是對接CEO還是CIO更多?

馮雷:看什麼樣的項目,平時上單個數倉,CIO拍板就行。董事長一般不會關心到具體哪家IT供應商這種級別的事情的。但董事長會關心,爲什麼我的數據沒有打通,我的數據爲什麼有這麼多孤島。這時候他就會推動CIO解決這些問題,找到我們這種方案。

36氪:拓數派一直在強調大數據的願景,這件事能再詳細拆解一下嗎?

馮雷:Hadoop比較火的時候,有很多著作講big data的好處。比如把數據全部整合到一起,用更大的數據去訓練一個模型,能訓練出更好的結果,

用戶也buy in了,所以就說數據不刪了,都放在裏面。但是,數據孤島也可能因爲各種原因存在着。

應該把數據統一,模型會測出更好的結果,但是如果用戶使用的軟件不具有資源共享能力一些金融機構部署100多個數倉也挺多的,數據之間互訪怎麼辦?一家頂級的券商說最頭大的問題就是多副本,源頭改了以後副本要拷貝,浪費資源也就是一定的。

而且,硬件的資源利用率也很低。一般場景下,計算資源1/3都不到,大家要擴容都不是因爲計算資源不夠,而是說存儲資源不夠。這也是因爲多部門、多副本導致的,所以事實上我們有信心把硬件成本降低一個數量值。

再加上,客戶如果存儲不夠,那就不要擴計算。就像客戶本來只想買個移動硬盤,供應商一定要給一臺電腦。現在就有這些痛點。

我們現在就是通過雲結構,真正實現了大數據圖景。存儲不夠也可以擴存儲,沒需求的時候計算也不開。這兩個事情單獨擴容,用戶的成本會降低,計算空間就會大很多。

從這個角度上,我們真正交付了大數據的promise。

36氪:之前大家也提雲原生,整體差別在於?

馮雷:什麼叫雲原生,第一天生在雲裏就叫雲原生。數據庫出生得比雲早,所以如果說你要定義一個數據庫是雲原生的,就必須把原來數據庫拆了,再按照雲上的這種結構重寫。

如果有一家公司成立在雲計算都沒產生的時候,它寫的數據庫也說是雲原生,就很奇怪。是不是在雲裏面?還是默認硬盤在本地?它不僅不雲原生,還逆雲原生。因爲它是原來老的數據庫裝在雲裏面,默認硬盤在本地硬盤,其實硬盤也不在本地,也沒有利用雲上的彈性資源。

我見過美國的一家企業去AWS上申請5臺服務器,搭了一個傳統數據倉庫的集羣,不用的時候服務器也開在那裏。

不像我們的虛擬數倉,你不用的時候我是真的幫你把資源拿走。數倉是虛擬的, 所有的計算節點都是虛擬的,你不用的時候它是不啓動的。只有做到拆解,在雲裏面把結構逐漸拆開來,纔有這個計價優勢,要不打不出這個賬單,

我相信中國的數據庫企業最終會按照雲上去重寫、拆解,真正做到雲原生。

36氪:拓數派閉門研發了一年。你感覺做這個產品,技術上的難點在於?

馮雷:就好像,服務器操作系統,和服務器虛擬化是兩個不同的技術。VMware做的服務器虛擬化是把這些操作系統打包成一些文件,然後用hypervisor來分割底下的硬件資源,這是操作系統底下的資源管理系統。它在下面管內存、網絡、CPU資源,並進行切割。這個技術是很難的,難到什麼程度,甚至英特爾的芯片也要爲它們進行一些支持,

你想,我們也把各種數倉一起管理。比如10個虛擬數倉的裏面還好,結構和原來的數倉差別沒有那麼大。如果10個節點訪問同1條記錄,就用數據庫的事務屬性各方面進行保證。但是這10個數倉之間,我怎麼分割資源,保證它們之間的協同性,等於是寫了一個數倉的數據庫來協調這些數倉。

比如,當兩個虛擬數倉同時訪問一個表的行,一個數倉完全不知道,另外一個數倉也在幹這個事。所以我們在上面其實又加了一層基礎軟件層來切分這些資源的協調性、併發性。這就好像兩個虛擬機同時訪問網絡的時候,下面的hypervisor會對它進行分割,都是具備難度的。

我們今天把這一層叫元數據管理。其實整體是一個數據庫的數據庫,也就是又在外面又放了一個數據庫,來協調各個虛擬數據庫訪問一個物理數據庫的數據。等於又嵌套了一層數據庫在裏面,這是比較難的點。

另外一個是雲調度。hypervisor本身不是雲計算,還要加一個雲的調度引擎。比如硬件壞了,我可以把虛擬機遷移到另外一個硬件上面,這也是雲管理系統做的事情。我們虛擬數倉在資源不用的情況下,可以把一個虛擬數倉的資源拿走,給到另一個繁忙的虛擬數倉,這就是管理。所以難點在於兩件事情,一個是虛擬數倉的底層資源協調,另外一個虛擬數倉佔用資源的動態優化和配置。

36氪:看到有評價說,拓數派的產品是最有可能實現彎道超車的本土創新熱點。怎麼看待這個評價?

馮雷:當然非常感謝大家這麼說。我們這個團隊受Greenplum開源技術影響比較大,其實在2019年,Greenplum是世界領先的分析型數據庫,在Gartner的排名都在Snowflake上面。我們也知道,Greenplum的結構需要變成一個雲原生的能夠提供虛擬數倉能力的一個系統。我們最終決定重新做,中間耽擱了大概一兩年時間。而2020年、2021年,正好是美國那幾家企業發展很快的時候。也就是說全球範圍內,這件事本身就是這幾支力量在競爭。當然,這次我們着眼全球,但先立足國內。

36氪:也就是說,這件事對你來說不是"彎道超車"。

馮雷:不是。就團隊而言,我們本來就在國際範圍內角逐。我們一直是賽道里面的前三駕馬車。

相關文章