在數字時代下,每家企業都面臨着一場變革,這也使企業產生了比以往更多的數據。隨着數據規模的指數增長,存儲數據的載體,數據的處理技術,數據的使用的方式方法都在不斷地演進。企業用戶對數據價值的預期也不斷增加。因此企業用戶期望通過數據能快速帶來商業價值。

不過,隨着大量數據的湧入,企業應該如何應對?Cloudera相信數據驟增將讓企業有機會更快、更好地作出業務決策。

日前,Cloudera推出使用NVIDIA GPU加速Apache Spark 3.0軟件的Cloudera Data Platform(CDP)。最新版本的Cloudera Data Platform採用通過NVIDIA技術加速的Spark 3.0,能夠幫助操作團隊實現8倍性能提升,從而成功運行一項原本不可能完成的工作。

GPU加速如何賦能Cloudera

作爲業界首個企業數據雲,Cloudera Data Platform集成化數據平臺可以幫助企業在向雲遷移的過程中,更好地管理和保護數據。

Cloudera相信數據驟增將讓企業有機會更快、更好地作出業務決策。以NVIDIA GPU計算功能支撐的Cloudera Data Platform可以利用近乎無限數量和種類的數據,支持企業加快決策速度。

我們都知道,一直以來,CPU都無法通過有效擴展適應工作任務,繼續採用CPU進行工作負載,就要犧牲速度或增加成本才能完成處理的需求。

不過,GPU並行處理已成爲加速海量數據分析和ETL管道,進而驅動這些工作負載的關鍵。數據中心通過大規模橫向擴展這些功能支持複雜的數據分析項目。

通過與NVIDIA的合作幫助Cloudera能夠在集羣中駕馭GPU,當出現此類技術進步時,需要一段時間來認識它們的力量並開發可以使用它們的應用。

最終,結合Cloudera在大數據領域豐富的經驗,Cloudera Data Platform與NVIDIA RAPIDS和AI相結合,令使用Apache Spark的企業能夠以前所未有的速度獲得業務洞察。

如何應用

這是一個來自美國國稅局團隊的案例。

作爲一名數據科學家,Deborah Tylor的任務是整理美國國家稅務局超過300 TB的數據庫,尋找可能有助於識別身份盜竊和其他欺詐行爲的規律。但即使她讓一大批CPU服務器工作了一整夜,也無法完成這項數據整理工作。

Cloudera的解決方案工程師Nasheb Ismaily詢問Tikekar的團隊是否需要使用自帶GPU加速Apache Spark 3.0軟件的Cloudera Data Platform(CDP)。

對軟件進行快速測試後,在沒有修改任何代碼的情況下,Tylor在這項工作中的許多步驟就立即加快了5倍,但有幾個部分仍然滯後。

Ismaily召集了NVIDIA數據科學家團隊來檢查代碼的核心內容。他們很快就發現一些數據結構非常糟糕的任務仍在CPU上運行。於是他們編寫了代碼來處理這些工作並將其插入Spark的RAPIDS軟件接口中。RAPIDS是一個在GPU上運行數據分析的開放資源庫。

Tylor又進行了一次測試,結果發現一切都能在分佈式Spark集羣的GPU上順利運行,而且速度提升非常明顯。她在一個四節點的集羣上運行了整個程序。

美國國稅局研究和應用分析與統計部門技術主管Joe Ansaldi表示:“通過Cloudera和NVIDIA的這一技術整合,我們能夠利用以數據爲依據的洞察來推動關鍵任務用例。”

該團隊計劃把其成功經驗運用在數據準備,也就是數據分析中的提取/轉換/加載(ETL)方面的工作上。下一步重大計劃是加速各類AI推理工作。

Tikekar表示:“與Cloudera和NVIDIA的這一合作幫助我們能夠在集羣中駕馭GPU。當出現此類技術進步時,需要一段時間來認識它們的力量並開發可以使用它們的應用,所以Deborah Tylor確實爲我們制定了新的路線圖——她是整件事中的主角。”

具體而言,該團隊接下來致力於通過建立大型深度學習神經網絡來進行自然語言處理和分析。

Cloudera合作的案例表明,NVIDIA將通過GPU加速來推動更多在數據分析、AI等領域中計算需求。

寫在最後

由NVIDIA技術支撐的Cloudera Data Platform,可以讓企業在不更改任何代碼的情況下,無縫加速Spark 3.0等關鍵應用的數據分析。而這些突破將爲企業提供數據實時分析能力,爲需求不斷變化的客戶提供相應的智能化水平。

來源:天極網

相關文章