未來,人類將面臨着三大問題:
生物本身就是算法,生命是不斷處理數據的過程;
意識與智能的分離;
擁有大數據積累的外部環境將比我們自己更瞭解自己;

這是《未來簡史》中提出的三個革命性觀點。一本書短短百頁,讓我們看到了世界顛覆性的變化,從計算機,到互聯網,再到大數據、人工智能,所有的變化都在以一種肉眼可觀卻又無法捕捉的狀態悄然發生着,而推動變化發生的背後,則是數據價值的提升。

如果把數據比喻成”油田”,要想充分挖掘其價值,首先需要將數據進行“開採 / 儲存”即數據的收集儲存,其次進行“精煉”即數據的挖掘和分析,最終實現數據創造更多價值。以如今常見的電商爲例:電商企業通過收集用戶的相關數據,再利用數據分析技術,對用戶的偏好進行分析,而後進行相關商品推薦,從而提高用戶的購買效率;此外電商企業還可建立預測模型,針對特定人羣進行預測,在不同階段適時調整銷售方式,提高用戶對產品的滿意度,從而提高銷售額。

原先,企業通常依靠昂貴且私有的本地數據倉庫解決方案來存儲和分析數據,由於模型範式的要求,底層數據無法做到多樣變化,導致企業業務不能隨意變遷。同時隨着互聯網 / 移動互聯網的爆發,數據量從 TB 到 PB 到 EB 級,數據類型更是涵蓋結構化數據、非結構化數據、半結構化數據,並且用戶對地域性、及時性的要求愈發苛刻,使得傳統的數據倉庫方案需要更新。

如今,有了雲端,高彈性和可擴展的計算與存儲,使得數據的儲存與分析更容易解決,可以說雲端數據解決方案已經成爲大勢所趨。一方面,分佈式架構與開源體系,可以適應當下快速的數據變化。另一方面可集成更多新技術服務,比如與機器學習結合,實現更多預測性分析。而分佈式儲存、多種文件格式、多種引擎和元數據服務,這也逐漸形成了數據湖的基礎。

1AWS 數據湖的技術革新之路

數據湖的概念最早在 2006 年提出,其主要概念是將數據湖定義爲一箇中心數據存儲的容器。數據可以很輕鬆進入數據湖,它可以存儲結構化、非結構化和半結構化的數據,並支持數據量的快速縮放,靈活地適應上層數據應用的變化,最終實現海量數據的存儲和查詢分析。

而真正將數據湖概念推而廣之的便是 AWS(Amazon Web Services )。AWS 很早便開始推動有關數據湖的技術演進,2009 年 AWS 推出了 Amazon Elastic MapReduce(EMR)數據湖架構,以跨 EC2 實例集羣自動配置 HDFS;2012 年又繼續推出了雲端 MPP 架構的數據倉庫雲服務 Amazon Redshift;隨後 AWS 逐漸將數據湖核心轉向 Amazon S3。

隨着大數據技術的發展,計算能力成爲關鍵,實現計算和存儲的分離,所帶來的彈性擴展和成本優勢逐漸顯現。而 雲服務天生具有存儲和計算分離的特性,AWS 的雲優勢慢慢凸顯。最終 AWS 數據湖將大數據和雲計算結合在一起,形成了一個存儲和多個引擎 / 服務的經典數據湖搭配。這裏,我們將結合 AWS 整體的分析服務來向開發者們解釋,AWS 是如何幫助開發者 / 企業構建數據湖環境,進而高效使用數據的。

  • 快捷的數據查詢引擎

在 AWS 上,Amazon S3 對象存儲服務由於其高可用性、高持久性、可擴展性和數據格式兼容性等特點,成爲了建設數據湖的首選。而 AWS 還提供了交互式查詢方式可以直接查詢 S3 中的數據,Amazon Athena 便是一種交互式查詢服務。

它可以使用標準 SQL 分析 Amazon S3 中的數據,Athena 簡單易用,只需指向開發者存儲在 S3 中的數據,定義架構即可開始查詢,它無需執行復雜的 ETL 作業來爲數據分析做準備,開發者可以輕鬆實現分析大規模數據集。

  • 如何解決元數據格式多樣的問題?

由於數據湖可以按任何格式存儲,因此無需將其轉換爲預先定義的數據結構,使用數據湖的主要挑戰之一便是查找數據並瞭解數據結構和格式。AWS Glue 則可幫助開發者抽取、轉換和加載數據,並可在不同數據存儲之間可靠地移動數據。此外 Glue 作爲一項完全託管服務,它會像“爬蟲”一樣對數據湖裏的海量數據自動爬取,自動生成數據目錄,該數據目錄是所有數據資產的永久元數據存儲。存入目錄後,數據便可立即供 ETL 搜索、查詢和使用。

值得一提的是,Athena 可與 AWS Glue 數據目錄進行集成,實現開箱即用,幫助開發者能夠跨各種服務創建統一的元數據存儲庫、抓取數據源以發現架構,並使用新的和修改後的表與分區定義填充數據目錄,以及維護架構版本控制。

  • 如何快速構建數據湖?

不難看出,數據湖是一個高效、快速的數據存儲 / 分析理念,但同時它還具有相當高的複雜度。在設置和管理數據湖時,涉及大量極爲耗時的複雜手動任務,包括加載不同來源的數據、監控數據流、設置分區、打開加密和管理密鑰、定義轉換作業並監控其操作、將數據重新組織成列格式等。

面對解決此類難題,開發者可使用 AWS Lake Formation 服務,它簡化了數據湖的創建和管理工作,縮短了數據湖的構建時間,可在幾天內實現建立安全的數據湖。而且可喜的是,就在 2020 年 10 月 25 日,AWS Lake Formation 已在由光環新網運營的 AWS 中國(北京)區域正式推出。

Lake Formation 建立在 AWS Glue 中可用的功能之上。開發者只需手動定義數據源,制定要應用的數據訪問和安全策略。Lake Formation 會自動幫助開發者從數據庫和對象存儲中收集並按目錄分類數據,再將數據移動到新的 Amazon S3 數據湖。最終,用戶可通過選擇不同的分析和機器學習服務,利用這些數據集實現多樣化服務。

2湖倉新模式:數據湖 + 數據倉庫 =Lake House

綜上所述,大數據的時代,開源技術體系的設計確實讓雲端產品或開源組件構成大數據整體解決方案逐漸興起,比如數據湖,但並不代表着數據倉庫會被淘汰,雙方存在必要的聯繫。一方面,通過上雲的方式,持續增強數據倉庫的核心能力,將數據倉庫實現現代化。另一方面,數據倉庫和數據湖,是大數據架構的兩種設計方式,兩者功能可以相互補充,這意味着雙方需要實現交互和共享數據。

爲了實現湖倉的交互,在 2019 年 AWS re:Invent 大會上,AWS 提出了運行數據倉庫和數據湖業務正在形成一種新的模式,即“Lake House”。AWS Lake House 中遵循“ ELT”範式(提取,加載,轉換),當從本地數據倉庫遷移到 Redshift 時,開發者可使用已有的針對 ELT 優化的 SQL 工作負載,無需從頭開始將關係和複雜的 SQL 工作負載重寫爲新的計算框架。

Amazon Redshift 和 數據湖之間的無縫互操作性

AWS Lake House 模型中 Redshift 作爲首選的轉換引擎,實現了高效地加載、轉換和擴充數據。Amazon Redshift Spectrum 是 Amazon Redshift 的一項功能, 避免客戶到 console 裏面按服務名字搜索 spectrum。AWS 選擇開發者熟悉的 SQL 語言,也旨在幫助更多開發者輕鬆實現查詢數據。

不僅如此,新的 Redshift 還具有數據湖導出功能。該功能可將數據寫回到數據湖中,目前支持 Apache Parquet、ORC、JSON 和 CSV 格式,以 Parquet 格式爲例(一種用於分析的高效開放式列式存儲格式),與傳統文本格式相比,Parquet 格式的卸載速度最多快 2 倍,而在 S3 中佔用的存儲空間最多減少 6 倍。

此外,Redshift 的 RA3 實例類型允許開發者獨立擴展 Redshift 數據存儲和計算需求,幫助開發者以較低的價格來管理數據和工作負載的組合。並且 Redshift 可通過自動擴展額外的瞬態容量來處理併發查詢並保持一致的性能,從而完成處理工作量高峯。

當數據在數據湖和 Redshift 之間開始順暢移動,這種靈活性使開發者在存儲數據時可以在成本和性能之間選擇最佳的折中方案。當前已經有大量的企業和機構都開始採用 AWS 的數據湖和數據分析雲服務。其中 FOX Corporation(FOX 公司)作爲世界娛樂行業的巨頭之一,每天需要面對大規模的提取、優化、轉換和聚合多方來源的事務型事件,數據量達到十億量級。Amazon Redshift 支撐了其數據倉庫和數據湖中查詢實時數據,見證了數據 PB 級的快速增長。同時幫助 FOX 公司在保持成本不變的情況下,工作負載提升了 10 倍。

在中國區域內,欣和作爲一家大型食品生產企業,在多品牌、全方位的業務發展規劃下,對大規模數據分析和處理提出了更高要求。而原先傳統數據倉庫系統和人才短缺又限制了欣和的進一步發展,爲此欣和選擇使用 AWS 雲平臺來搭建數據湖。AWS 數據湖的高穩定性和安全性,實現了欣和數據倉庫的高可用和高可擴展,使欣和各業務系統間的底層數據相連通,並通過調用、分析,爲企業業務發展提供強有力的支撐,幫助欣和真正實現數字化。

總結來看,選用 AWS Lake House 可幫助開發者實現以下目標:

  • 高效、低成本的數據存儲

  • 獨立可擴展的計算能力,能夠進行大規模並行處理

  • 標準 SQL 轉換

  • 併發擴展靈活地執行 SQL 查詢

可見,隨着產品集、架構模式的繼續發展,數據湖與數據倉庫的協同運行將會更加頻繁,AWS 基於 Redshift Spectrum 提出的 Lake House 也將會在 AWS 數據湖架構中繼續發揮關鍵作用。同時隨着 Amazon Redshift 的更多服務在中國區域推出,AWS 更是希望吸引更多中國的大數據開發者,來了解 AWS 數據湖的解決方案,瞭解 AWS 。未來,AWS 堅信與傳統的數據倉庫和數據分析解決方案相比,湖倉新模式等雲端方案將會爲用戶釋放更大的數據價值。

點個在看少個 bug 👇

相關文章