單芯片每秒1000萬億次運算：谷歌TPU原班團隊全新AI架構，晶體管性能提升6倍

2016 年底，谷歌 TPU 團隊的十位核心開發者中的八位悄悄離職，創辦了一家名爲Groq的機器學習系統公司。在此後的三年裏，這家公司一直很低調。但最近，他們帶着一款名爲 TSP 的芯片架構出現在公衆視野裏。

TSP 的全稱是 Tensor Streaming Processor，專爲機器學習等 AI 相關需求打造。該架構在單塊芯片上可以實現每秒 1000 萬億（10 的 15 次方）次運算，是全球首個實現該級別性能的架構，其浮點運算性能可達每秒 250 萬億次（TFLOPS）。在摩爾定律走向消亡的背景下，這一架構的問世標誌着芯片之爭從晶體管轉向架構。

250 TFLOPS 浮點運算性能是什麼概念？目前的世界第一超級計算機 Summit，其峯值算力爲 200,794.9 TFLOPS，它的背後是 28,000 塊英偉達 Volta GPU。如果 TSP 達到了類似的效率，僅需 803 塊就可以實現同樣的性能。

Groq在一份白皮書中介紹了這項全新的架構設計。此外，他們還將在於美國丹佛舉辦的第 23 屆國際超算高峯論壇上展示這一成果。

白皮書地址：https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf

「我們爲這一行業和我們的客戶感到興奮，」Groq的聯合創始人和 CEO Jonathan Ross 表示。「頂級 GPU 公司都在宣稱他們有望在未來幾年向用戶交付一款每秒百萬億次運算性能的產品，但Groq現在就做到了，而且建立了一個新的性能標準。就低延遲和推理速度而言，Groq的架構比其他任何用於推理的架構都要快許多倍。我們與用戶的互動證明了這一點。」

Groq的 TSP 架構是專爲計算機視覺、機器學習和其他 AI 相關工作負載的性能要求設計的。「對於一大批需要深度學習推理運算的應用來說，Groq的解決方案是非常理想的選擇，」Groq的首席架構師 Dennis Abts 表示，「但除此之外，Groq的架構還能用於廣泛的工作負載。它的性能和簡潔性使其成爲所有高性能即數據和計算密集型工作複雜的理想平臺。」

一款「簡單」的 AI 芯片架構

Groq的這款架構受到「軟件優先」（software first）理念的啓發。它在Groq開發的 TSP 中實現，爲實現計算靈活性和大規模並行計算提供了一種新的範式，但沒有傳統 GPU 和 CPU 架構的限制和溝通開銷。

「軟件優先」的硬件設計理念

在Groq的架構中，Groq編譯器負責編碼所有內容：數據流入芯片，並在正確的時間和正確的地點插入，以確保計算實時進行，沒有停頓。執行規劃由軟件負責，這樣就可以釋放出原本要用於動態指令執行的寶貴硬件資源。

這使得Groq的芯片性能具有確定性。編譯器動態地重新配置硬件來執行每個計算，因此編譯器和芯片之間沒有抽象（abstraction）。由於編譯器瞭解硬件和每條指令的速度，所以它可以準確地告訴硬件做什麼，什麼時候做。

在傳統的體系架構中，將數據從 DRAM 移動到處理器需要大量的算力和時間，而且相同工作負載上的處理性能也是可變的。在典型的工作流中，開發人員通過反覆運行工作負載或程序來對其進行配置和測試，以驗證和度量其平均處理性能。由於處理器接收和發送數據的方式不同，這種處理可能會得到略有差別的結果，而開發人員的工作就是手動調整程序以達到預定的可靠性級別。

但有了Groq的硬件和軟件，編譯器就可以準確地知道芯片的工作方式以及執行每個計算所需的時間。編譯器在正確的時間將數據和指令移動到正確的位置，這樣就不會有延遲。到達硬件的指令流是完全編排好的，使得處理速度更快，而且可預測。

開發人員可以在Groq芯片上運行相同的模型 100 次，每次得到的結果都完全相同。對於安全和準確性要求都非常高的應用來說（如自動駕駛汽車），這種計算上的準確性至關重要。

另外，使用Groq硬件設計的系統不會受到長尾延遲的影響，AI 系統可以在特定的功率或延遲預算內進行調整。

這種軟件優先的設計（即編譯器決定硬件架構）理念幫助Groq設計出了一款簡單、高性能的架構，可以加速推理流程。

該架構既支持傳統的機器學習模型，也支持新的計算學習模型，目前在 x86 和非 x86 系統的客戶站點上運行。

更簡單的架構設計

爲了滿足深度學習等計算密集型任務的需求，芯片的設計似乎正在變得越來越複雜。但Groq認爲，這種趨勢從根本上就是錯誤的。他們在白皮書中指出，當前處理器架構的複雜性已經成爲阻礙開發者生產和 AI 應用部署的主要障礙。當前處理器的複雜性降低了開發者工作效率，再加上摩爾定律逐漸變慢，實現更高的計算性能變得越來越困難。

Groq的芯片設計降低了傳統硬件開發的複雜度，因此開發者可以更加專注於算法（或解決其他問題），而不是爲了硬件調整自己的解決方案。有了這種更加簡單的硬件設計，開發者無需進行剖析研究（profiling），因此可以節省資源，更容易大規模部署 AI 應用。

與基於 CPU、GPU 和 FPGA 的傳統複雜架構相比，Groq的芯片還簡化了認證和部署，使客戶能夠簡單而快速地實現可擴展、單瓦高性能的系統。

讓每個晶體管實現更高的性能

Groq的張量流架構可以在任何需要的地方提供算力。與當前領先的 GPU、CPU 相比，Groq處理器的每個晶體管可以實現 3-6 倍的性能提升。這一改進意味着交付性能的提升、延遲的下降以及成本的降低。結果是，Groq的架構使用起來更加簡單，而且性能高於傳統計算平臺。

備受矚目的Groq

Groq總部位於加州山景城，針對計算密集型應用程序提供高效的軟件驅動解決方案，在性能、準確性和延遲度（亞毫秒級）等方面處於行業領先水準。

創立之初，Groq頗受關注的原因是它的團隊組成：創始團隊的 8 位研發成員均來自谷歌 TPU 核心團隊——在此之前，谷歌 TPU 核心團隊總共不過才 10 個人。谷歌在短短 14 個月內發佈 TPU，1 年後又完成第 2 代 TPU，所以外界對Groq抱有非常高的期待值。

儘管Groq只是一家成立三年的創業公司，但一舉一動都會受到外界的高度關注。今年 9 月，Groq在 AI Hardware Summit 2019 無故缺席，業內紛紛猜測Groq公司內部是否遇到了危機。

Groq現任 CEO Jonathan Ross 的身份是「前谷歌芯片高層人員」，他畢業於紐約大學，曾在谷歌度過了 5 年多的職業生涯，是 TPU 的主要設計者之一。與他相關的還有非常神祕的谷歌 X 實驗室，這個部門所從事的工作都是最前沿的領域，比如太空電梯、無人駕駛汽車、谷歌眼鏡等。一定意義上說，谷歌是在「利用這個實驗室來追蹤 100 個震撼世界的創意」。創立之初，Jonathan Ross 擔任Groq的 CTO，後來從 2018 年底開始接任 Doug Wightman 擔任 CEO 一職。

Douglas Wightman 也是谷歌 X 實驗室的前成員。Groq成立幾個月後，賽靈思全球銷售執行副總裁 Krishna Rangasayee 也加盟出任 COO。

就在前幾天，Groq官網宣佈 Stuart Pann 也將加入其董事會。Stuart Pann 目前是惠普的首席供應鏈官（Chief Supply Chain Officer），之前在英特爾工作了 33 年之久，負責英特爾微處理器和芯片組業務的定價，收入和預測等相關工作，在控制成本支出、提高營收方面有着非常深厚的經驗。

Groq目前大約有 70 名員工，從工程師數量上看還不及英特爾這種大型芯片製造商的四分之一。不過，Groq卻在用於人工智能行業的關鍵領域——新型芯片研發方面佔有相當的優勢。這個領域未來可能價值數百億美元，而 CEO Jonathan Ross 此前不久表示「Groq不希望被收購」。

原本Groq對外公佈要在 2018 年發佈第一代芯片，實際發佈時間卻是今年的 9 月。雖然來得晚了一些，但還是足夠驚豔。

參考鏈接：

https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf

https://www.prnewswire.com/news-releases/groq-announces-worlds-first-architecture-capable-of-1-000-000-000-000-000-operations-per-second-on-a-single-chip-300958743.html?tc=eml_cleartime&from=timeline&isappinstalled=0

https://www.bloomberg.com/news/articles/2019-10-24/former-google-chip-guru-takes-novel-approach-to-ai-at-groq

http://baijiahao.baidu.com/s?id=1649887565730511742&wfr=spider&for=pc