臨近2021,北京字節跳動在某招聘網站上掛出了一個新職位——生物信息工程師。月薪20-40K,每年15薪,這樣的薪資水平即使在北京也具有競爭力。

在職位描述部分,該職位主要的工作,是NGS數據流程的搭建,腫瘤NGS檢測產品的設計、推廣、性能驗證,和挖掘數據中潛在的產品化價值和研究方向。說得簡單點,字節跳動準備進軍NGS,並且最終的目的,很可能是想從數據中淘金。

華爲在2019年底同樣掛出了兩個與生物醫藥相關的崗位,其中之一也是基因組研發算法工程師,崗位核心職責較字節跳動更加聚焦,也直接指向用於基因組數據分析的深度學習算法開發;另一崗位則是藥物研發算法工程師,瞄準計算機輔助藥物設計(CADD)方法的小分子藥物設計工作。

到了2021年伊始,百度創始人李彥宏牽頭髮起的百圖生科也提出了自己的人才計劃——“百萬領軍計劃” 及 “百萬青年領軍” 計劃,將分別用 100 萬美元年薪及 100 萬人民幣年薪以及其他技術平臺支持,吸引生物技術 + AI 技術跨界融合人才。

至此,字節跳動、華爲、百度悉數入場,如果再考慮到已經在雲平臺和生物醫藥領域有深度佈局的阿里和騰訊以及中科院計算所高性能中心,互聯網巨頭批量湧入生物醫藥領域,已經成爲了一股大勢。但這些科技企業,究竟將如何賦能生物醫藥這個年邁保守的產業?

謀局:高性能計算(HPC)—將計算注入醫藥研發

生物醫藥領域近兩年的火熱有目共睹,覬覦醫療許久的互聯網大廠們自然不會放過這個絕佳的機會。但是以生物技術驅動的生物醫藥產業,痛點有增無減。從效果來看,研發三高 (資金大,時間長,失敗率高),產品三同(試驗數據同,適應症同,療效同)的問題並未因生物技術研發而解決,反之,生物技術指向的領域極爲有限,導致行業競爭愈發激烈,需要向信息領域求解,人工智能技術似乎正是醫藥領域苦尋多年的答案。人工智能在新藥研發上的應用已經從概念驗證階段,正式進入了大面積應用層面,賦能藥品全生命週期管理。從底層的醫藥數據庫,到數據應用層面的真實世界研究;從最早期的化合物篩選,到臨牀試驗階段的患者招募,都能看到人工智能技術的身影。

HPC切入生物醫藥領域的契機,主要是在於生物醫藥行業多年來積累的大量數據。2020年黨的十九屆四中全會,將數據作爲一種新型生產要素,寫入了《中共中央國務院關於構建更加完善的要素市場化配置體制機制的意見》中,從國家層面上認可了數據的價值。並且,《意見》中還明確提出,要“推進政府數據開放和共享”,“提升社會數據資源價值”和“加強數據資源整合和安全保護”。因此圍繞着數據的整理和挖掘,將會成爲未來一段時間內,泛行業領域的主旋律。

醫療健康行業,由於其診療應用的特殊性,積累了大量的用戶/患者數據。如果能將這些數據結構化,再通過深度學習算法進行挖掘,有機會爲醫療健康行業產生大量有價值的洞見。這也是爲什麼近幾年醫療大數據行業持續火熱的原因。

因此,近兩年AI輔助新藥研發企業的產出逐漸增多,“HPC+AI+醫療大數據”的價值開始得以體現,應用場景也從化合物發現向其他領域擴展。新藥研發的流程上,要經過分子發現、臨牀前研究、臨牀研究、上市後研究等多個階段。而AI新藥研發的企業,就逐漸從早期分子發現的切入點向下遊擴張。

目前,已經有多家AI輔助藥物研發公司在各個階段發力,在這些AI新藥研發的細分場景中,應用到HPC的環節並不在少數,其中超過95%的公司在臨牀前研究的化合物發現的環節中,這類應用AI應用也最爲行業熟知:以往的化合物發現要依靠研發人員一個個的畫分子模型,效率低下且成本高。而在人工智能新藥研發的場景下,依託CADD技術,通過對藥物分子數據庫的深度學習,人工智能算法能從海量的分子中經過分子機制和成藥可能性層層篩選,將傳統方法1-2年才能完成的早期分子篩選工作,縮短到一個月左右的時間。

臨牀前研究的AI化合物發現作爲一個已經相對成熟的賽道,國內諸如晶泰科技、深度智耀、冰洲石生物科技等企業都切入這一環節,並且已經有能力向全球級別的跨國藥企提供服務。比如晶泰科技早在2018年就與輝瑞宣佈了戰略合作;深度智耀在2019年與中國醫藥簽署了全面戰略合作協議。

實際上,HPC在非藥物研發的醫療健康領域已經找到了廣泛的應用場景,對醫療機構、藥械、保險等不同醫療健康產業角色提供全方位的算力支持。例如2020年大批上市的人工智能影像產品,HPC與AI算法結合,已經陸續有產品產出。其在產品的研發階段,就需要利用HPC和深度學習算法,對影像數據集進行深度學習。

但在藥物研發領域,仍然只有AI化合物發現發展相對成熟。

最近,利用AI計算蛋白質摺疊有了新的突破。枚舉每一種蛋白質可能存在的結構,花費的時間甚至比宇宙的年齡還要長。在強大的算法與算力的支持下,DeepMind將運算時間從數月縮短至了數小時。AI爲生物學帶來了極致的效率革命,這對於人類攻克癌症等疑難雜症有着劃時代的意義,使得行業看到了新技術帶來產業革命的機會,這將大大加速藥物發現品類和速度。

要在數據洪流的時代實現重大的科學突破、分析基因組數據,應用於藥物研發、疾病檢測、個性化治療,要依靠於更快、更便捷的對大型數據集進行分析處理的新型技術。過去十年間,我們使用的分析計算技術不夠強大,無法分析這些關鍵數據。蛋白質破解的事件是一個標誌,在生命科學領域取得突破性進展需要領先的HPC系統,分析和計算複雜的、散點化、非結構化的生物醫學大數據。

“大數據不是數據大。大數據是基礎,同時還要有挖掘數據的能力,才能最終產出洞見。”圖靈-達爾文實驗室副主任、哲源科技COO趙宇告訴動脈網。在數據挖掘的過程中,人工智能技術(算法)提供了數據解讀的工具,但是算法效率提升的需求愈發嚴重,因此也牽出了另一關鍵要素“算力”。HPC就是算力的主要來源之一。

HPC作爲一種算力基礎設施,在於雲計算和超算中心的廣泛應用。在具體的應用上,雲計算更適應於海量任務併發,但單個計算並不特別複雜的場景;而超算中心則在單一複雜問題的解決上,表現更佳。

在我國超級計算機事業發展這些年居於世界前列,世界第一的超算的地位與美國不斷輪換佔據,超算事業逐步從研究階段進入全面應用層。比如中科院計算技術研究所,在二十年前就將“生物醫學大數據識別”作爲基礎戰略研究方向,依託於計算所世界級超算技術推動醫療產業變革。

全球面向醫藥研發的服務平臺型公司已經嶄露頭角

當各家都集中於臨牀前研究時,突破舒適區並不容易,但是現在已經有頭部企業開始做出這方面的嘗試。比如全球範圍內的知名企業Insilico medicine,如今就已經不再侷限在化合物發現這一細分領域上,而是向外拓展到更復雜的藥物研發全流程。

2016年Insilico Medicine在Molecular Pharmaceutics上發表論文,展示了自己對深層神經網絡的研究與應用,提出可以利用轉錄反應數據對分子治療的類別進行預測,也讓自己一時間名聲大噪。隨後在2016-2019年,Insilico Medicine一直保持着自己研究成果的產出,在一級市場的融資也一直順風順水。2018年,藥明康德領投了Insilico Medicine的戰略融資,並與其就靶點鑑定、藥物發現、抗衰老研究等方面達成合作。

(圖片來自Insilico Medicine官網)

Insilico Medicine如今的業務已經從化合物發現外延到了新藥研發全流程。其業務構成分爲三大板塊,分別是早期靶點發現,藥物分子發現和臨牀試驗預測。可以說像Insilico這樣已經走到業界第一梯隊的企業,已經有能力爲醫藥產業提供全方位的AI新藥研發服務。也正是這樣的原因,德國巨頭默克集團選擇了Incilico作爲自己的合作伙伴,將Insilico的平臺整合到自己的藥物發現項目中。

國內IT巨頭親自入局,商業化路徑各有策略

傳統的新藥研發模式正在變得越來越困難。以往積累的大量的研究數據難以被人工全面覆蓋;藥物靶點研發和適應症選擇被有限的人類經驗和知識鎖死;先導化合物的潛在效應和副作用難以被人工預測;多中心臨牀試驗的人力成本越來越高。

以人類經驗主導的新藥研發邏輯正在精準化、高效化的研發需求下逐漸瓦解。尤其在創新藥領域競爭逐漸激化的當下,這些問題促使新藥研發企業必須尋找新的技術突破口,研發人員羣體有從生物技術向IT部門轉移的趨勢,並期望藉助社會上IT力量解決自身行業困局。

而IT巨頭在切入生物醫藥行業的細分領域時,其巨頭的平臺基因自然湧現,主要是通過HPC支撐研發服務平臺,進而賦能新藥研發,或是基因組數據挖掘。尤其是人工智能新藥研發領域的臨牀前研究,目前的發展已經比較成熟,正是對算力需求旺盛的階段。

幾家積極佈局的互聯網巨頭中,除了字節跳動還沒有涉及這一部分的業務,百度、華爲、騰訊、阿里,計算所,都基於自己的雲計算的建設服務平臺,提供服務。切入的場景覆蓋了藥物分子發現、藥物靶點篩選、分子動力學模擬、新抗原預測、基因組解讀等多個方面。

在這一點上,百度的策略更加聚焦。醫療健康行業的產業角色之間,需求交叉點很少,因而應對於需求的解決方案也因爲針對不同的產業角色而互相孤立。百度的選擇是,將針對不同產業角色的提供的服務拆分,從而使自己的賦能能力更加集中。因此百度在2020年下半年推出了百圖生科,從生物計算切入,賦能生物醫藥領域。

百圖生科不是百度在推出的第一款重度垂直醫療行業產品,此前的靈醫智惠已經在醫院場景中找到了自己的定位,尤其在眼底篩查和基層醫療方面核心突破。2020年下半年發佈的百圖生科,則將自己的目光聚焦到了醫藥產業,定位於生物計算技術驅動的生命科學平臺公司,致力於用高性能生物計算和多組學數據技術加速創新藥物和早篩早診等精準生命科學產品的研發,力圖讓更多疾病可預警、可控制、可治癒,實現人類百歲健康夢想。

由於AI新藥研發發展的成熟度,幾大科技巨頭都通過自己的雲平臺爲AI新藥研發提供支撐。這些雲平臺一方面向AI新藥研發企業開放自己的算力,幫助AI新藥研發企業更快的實現自己的研發目標。另一方面,部分科技巨頭逐漸不再滿足於通過自己的合作伙伴對外輸出,走上了自建平臺,直接向醫藥企業提供服務的道路。

騰訊在2020年7月正式發佈了自己的首個AI驅動的藥物發現平臺“雲深智藥”。脫胎於騰訊AI Lab機器學習中心,雲深智藥在平臺服務的基礎上,還爲藥企提供定製化的服務,滿足藥企針對特定靶點或數據體系的個性化需求。

有別於其他的AI新藥研發平臺,雲深智藥在小分子藥物發現的基礎上還增加了蛋白質結構預測的服務。2020年穀歌旗下Deepmind的Alpha系統在第14屆國際蛋白質結構預測競賽(CASP)上大放異彩,預測精度幾乎接近實驗方法。實際上在這一領域中,騰訊AI Lab也已經進行了多年的研究,其聯合研究成果還在2020年11月登上了 Nature 子刊《Nature Communications》。騰訊AI Lab將自己的蛋白質結構預測工具定名爲tFold,雲深智藥對外開放的,正是這一工具的公測版本。

華爲EIHealth並非只面向新藥研發,其覆蓋的三個主要方向,基因組分析、藥物研發和臨牀研究都是當下HPC切入的核心場景。這三大應用場景已經發展多年,並且也發展的比較成熟。藥物研發自不待言;基因檢測方面,Illumina和華大基因都在2018年在國內推出了自己的基因雲平臺BaseSpace和BGI Online;臨牀研究方面,影像雲早已是各大雲平臺的標準配置,生物標誌物發現也是近兩年基因檢測行業發展的熱點之一。

在幾大科技巨頭組建的人工智能平臺中,最年輕的百圖生科卻釋放出了最宏大的願景。百圖生科將自己的發展設定爲兩個階段,第一階段利用前沿AI技術構建完整的生物計算平臺,並與提供新的數據軸和新的數據分析、藥物設計工具的初創企業與研究機構攜手,構建生物計算生態,爲生命科學企業和科研用戶提供豐富的工具能力和完整的解決方案,做好服務。第二階段,還將深度參與或主導發起新型精準藥物和精準診斷產品的研發,攜手合作夥伴,爲社會貢獻極具創新性的精準生命科學產品。

乍看起來百圖生科的目標似乎與其他雲平臺切入生物醫藥的方式並無兩樣。但是“多組學數據技術”將百圖生科與其他互聯網巨頭區分開來,這其中涉及到數據挖掘中對算力的需求情況。多維度的數據分析,對算力的需求會呈指數型增長,當數據範圍最終覆蓋到患者診療階段中的全方位數據時,僅使用多CPU並行的HPC可能已經無法滿足數據挖掘的需要,要藉助“超算”才能實現醫學數據的全面挖掘。

中科院計算所佈局最早,平臺已經初具規模。早在上世紀末,中科院計算所就開始面向生命科學佈局,計算所從參與百分之一人類基因組計劃開始,持續積累,以國家科研課題(NSFC、863,973,中科院重大課題,重點研發計劃)爲契機,將信息科學與生物醫學深度交叉融合,作出了很多核心技術。在計算所高性能中心主任、中科院計算所西部高等技術研究院院長譚光明教授帶領下,以國家隊身份首倡“計算醫學”,提出以系統論爲指導思想 ,採用密集數據驅動爲科研範式,以人工智能爲方法,以高性能計算爲支撐,通過知識模型+數據模型的雙輪驅動,爲生物醫藥領域全鏈條產業貢獻全新洞見與解決方案。

靶點、臨牀、上市後研究——計算所的服務平臺進入藥物研發人跡罕至領域

哲源科技是由中科院計算所孵化的面向生物醫藥領域的人工智能企業。其研發的計算醫學平臺目標是建立藥物研發數字試驗場。雖然全流程技術均有儲備,目前在三個方面展現了價值:1、發現全新的藥物靶點;2、基於全新機制性標誌物,爲臨牀研究建立入排條件,設計藥物聯用方案以及挽救失敗的臨牀三期;3、爲上市後藥物拓展新適應症。

哲源所提到的服務也正是Insilico未能觸及的全新藥物標誌物開發,哲源正在深入醫學領域,發現疾病機理機制,研究藥物與真實人體的匹配。大多數行業中的企業都還在嘗試藉助生物計算,直接從特定細分領域的大數據中挖掘洞見。而哲源通過自建的計算醫學平臺將單個基因或蛋白功能的解釋轉向從系統生物學、尤其是細胞功能和信號通路的解釋,並從中挖掘Pattern級新型機制性標誌物。

實現了從生物計算到計算醫學的突破,極大提高了從數據中產生新洞見的能力。“經過這些年的基礎工作,我們團隊已經產出了400多個細胞內確定性事件基礎模型,可以組合出無數種不同的腫瘤進化情況,足以爲每個疾病構造獨特的數字生命方程。”趙宇說。

機制性標誌物,顧名思義,不僅是標誌物,還反映出機制。以FOLFOX的肝動脈灌注方案爲例,該方案在部分肝癌患者中可以顯著延長OS,然而臨牀有效患者只佔30%。哲源在該案例中開發出機制性標誌物,精確區分人羣,明確了耐藥機制,進而根據機制提出全新的聯合用藥方案(爲藥物提供了新適應症),最終結果將受益人羣提高到60-80%。

在免疫治療方面,哲源也同樣展示出計算醫學平臺多項能力,爲藥物研發提供了新的思路。例如,如何使EGFR突變陽性的非小細胞肺癌患者也能從使用Pd-1/Pd-L1單抗藥物上顯著獲益?這是當前相關領域的聖盃問題。在理解機制的基礎上,哲源提出了Pd-1/Pd-L1單抗聯用不同藥物,都可以幫助患者獲益。這種基於機制理解設計藥物聯用方案的能力,爲扎堆研發免疫藥物的藥廠提供解決方案。在計算醫學平臺引導下,不同藥廠可以面向不同適應症進行更專注的臨牀試驗,不僅提高臨牀試驗的成功率,也能找到專屬自己的適應症,更容易招募患者,更能加速完成申報。

總結

面對需求和行業痛點,巨頭紛紛通過重投入的基礎設施建設自己的服務平臺,總結來看,真正可以獲得行業突破的服務平臺需要符合以下特徵:

(1) 深刻洞察醫療健康行業發展的方向,瞭解痛點的意義;

(2) 有能力瞭解並數字刻畫疾病的本質,以及藥物機制,解鎖人類經驗和知識的限制;

(3) 有能力建立全流程AI算法平臺,爲藥物研發提供從藥物靶點、化合物設計、 標誌物開發、以及最優適應症篩選的所有工具;

(4) 擁有HPC搭建的能力,將計算構架、平臺、應用直接對接到醫療實踐中;

知識圖譜的擴張是基礎。只切入分子發現時,企業的知識圖譜,只要覆蓋與潛在藥物分子相關的研究數據,就足夠完成分子發現工作。但當其覆蓋面逐步向臨牀研究擴張時,知識圖譜就需要相應的從藥學知識圖譜,擴大到覆蓋面更廣的醫學知識圖譜。

算力的擴張及掌控是必要條件。知識圖譜擴大到醫學範圍後,需要分析的數據量顯著上升。因此在數據挖掘的過程中,自然也需要更高的算力支撐以及超算並行優化技術才能實現。

算法的迭代更新是方法。在有了知識圖譜和算力的基礎之後,企業才能開始從大數據中尋找洞見,並在不斷研究的過程中,持續迭代算法。

當下各巨頭憑藉超高投入的雲計算和超算中心,已經爲人工智能技術的應用搭建好了算力基礎設施。並致力於在基礎設施上搭建雲服務平臺,隨着醫療大數據的進一步擴張,藥企認知進一步提升,以及對各種在精細場景下應用的需求升級,對於算力的需求也將會幾何倍數擴大,對於服務平臺的工具屬性要求進一步提升,相應的,也需要雲計算/超算中心持續提升自己的性能。總之,無論是科技巨頭,抑或是哲源科技這樣的“國家隊”企業,都將成爲在計算醫學不同方面探索和發揮的生力軍,掘金生物醫藥產業萬億級的市場。

相關文章