據(jù) Gartner 2022 年最新趨勢分析,數(shù)據(jù)分析將成為創(chuàng)新起源與企業(yè)核心能力,數(shù)據(jù)越來越重要了。在更早前 IDC 和數(shù)據(jù)存儲公司希捷的報告表示,我國產(chǎn)生的數(shù)據(jù)量從 2019 年的約 9.4ZB 將猛增至 2025 年的 48.6ZB?,F(xiàn)在,數(shù)據(jù)工程師需要面對愈加繁雜和龐大的數(shù)據(jù)、離線場景/實時場景/流式場景等眾多不同的分析場景、多個數(shù)據(jù)庫技術棧并存和與之對應的存儲計算成本,很多公司的數(shù)據(jù)團隊往往會被這些海量數(shù)據(jù)與各類底層集群、基礎設施的要求所淹沒。
如何降本增效,打通數(shù)據(jù)分析與存儲,提高數(shù)據(jù)分析的靈活性,同時降低底層資源的運維成本,成為了令技術團隊頭疼的問題。
智能湖倉,數(shù)據(jù)分析的下一站已到來
這個時代,駕馭數(shù)據(jù)的能力是所有決策者“技能清單”里最重要的一項。歷史告訴我們,無論哪個行業(yè),率先在行業(yè)中掌握新工具“利器”是多么重要。
最早的傳統(tǒng)型、老式的純數(shù)據(jù)倉庫已經(jīng)不適宜半 / 非結構化數(shù)據(jù)的處理;而單純的數(shù)據(jù)湖雖然適合存儲數(shù)據(jù),但不支持事務處理,不保證數(shù)據(jù)質(zhì)量,并且缺乏一致性與隔離性。
站在數(shù)據(jù)價值出口的角度來看,只有各類數(shù)據(jù)價值平臺全面落地應用,大數(shù)據(jù)的潛能才會被進一步釋放。為了實現(xiàn)數(shù)據(jù)湖和數(shù)據(jù)倉庫之間的無縫流轉,打通數(shù)據(jù)存儲和計算的不同的層面,兼顧數(shù)據(jù)湖的靈活性和數(shù)據(jù)倉庫的成長性,促進企業(yè)更有效的工具應用,像亞馬遜云科技就提出了“智能湖倉”架構,幫助企業(yè)客戶加快大數(shù)據(jù)價值實現(xiàn)進程。
以創(chuàng)新技術廠商亞馬遜云科技為例,2020 年在亞馬遜云科技 re:Invent 大會上,亞馬遜云科技針對數(shù)據(jù)分析等相關服務推出了“智能湖倉”架構,不過早在 2017 年,亞馬遜就發(fā)布了 Amazon Redshift Spectrum,該功能使得 Amazon Redshift 在當時就具備了打通數(shù)據(jù)湖和數(shù)據(jù)倉庫的能力,實現(xiàn)跨數(shù)據(jù)湖、數(shù)據(jù)倉庫的數(shù)據(jù)查詢。此外,在 2021 年 re:Invent 大會上,亞馬遜云科技更進一步,在存算分離架構基礎上,推出更多數(shù)據(jù)分析服務的無服務器(Severless)版。
	
現(xiàn)在,無服務器架構(以 2014 年推出的 Amazon Lambda 為代表)已經(jīng)是云原生中最熱門的技術類別。無服務器應用程序是由事件驅(qū)動的,并通過與技術無關的 API 或消息收發(fā)進行松散耦合,可以讓開發(fā)者更關注于構建產(chǎn)品中的應用,而不需要管理和維護底層堆?!,F(xiàn)在,數(shù)據(jù)分析服務借助無服務器的能力,可以讓用戶更便捷地構建數(shù)據(jù)存儲、分析、智能應用解決方案,徹底實現(xiàn)無服務器的數(shù)據(jù)分析服務,完成底層龐雜數(shù)據(jù)的高效處理、流轉與共享。
能夠達到這樣的技術水平和高度,離不開時間的沉淀和技術的積累。想要深刻理解“智能湖倉”,就需要了解它的過去與現(xiàn)在。我們能看到,亞馬遜云科技所推出的無服務器數(shù)據(jù)分析服務,經(jīng)歷了幾個階段:
	
(1)2006 年,亞馬遜云科技正式推出 Amazon S3,其作為亞馬遜第一個云產(chǎn)品,提供了多種經(jīng)濟高效的存儲類和易于使用的管理功能,從而滿足特定的業(yè)務、組織和合規(guī)性要求。如今“智能湖倉”就是基于 Amazon S3 構建數(shù)據(jù)湖,繞湖集成數(shù)據(jù)倉庫、大數(shù)據(jù)處理、日志分析、機器學習等數(shù)據(jù)服務。Amazon S3 數(shù)據(jù)湖的可靠性和大容量的數(shù)據(jù)存儲能力,是確保整個“智能湖倉”架構有效應用的基礎。對于軟件開發(fā)人員來說,現(xiàn)在已經(jīng)是無服務器架構的 Amazon S3 可以很低的成本提供可擴展、可靠且延遲低的數(shù)據(jù)存儲基礎設施,讓開發(fā)人員利用云計算的規(guī)模優(yōu)勢,以極低的前期資源投入換取穩(wěn)定的數(shù)據(jù)基礎設施,非常適合進行快速技術創(chuàng)新。
	
(2)Amazon Athena 是一種無服務器的交互式查詢服務,用戶能夠輕松使用標準 SQL 分析 Amazon S3 中的數(shù)據(jù)。無需 ETL ,具備 SQL 技能的任何人都可以輕松快速地分析數(shù)據(jù)湖中的大規(guī)模數(shù)據(jù)集,這對技術人員的生產(chǎn)力是一種解放!當我們想使用 SQL 直接進行數(shù)據(jù)湖上的分析且不想管理任何集群時,Athena 無疑是一個敏捷且快速開始的選擇。
(3)Amazon Redshift 使用 SQL 在數(shù)據(jù)倉庫、運營數(shù)據(jù)庫和數(shù)據(jù)湖間分析結構化和半結構化數(shù)據(jù),專注于在急速獲取洞察,并交付業(yè)務結果,無需考慮管理數(shù)據(jù)倉庫等基礎設施。而現(xiàn)如今,無服務器版的 Amazon Redshift Serverless 使得數(shù)據(jù)倉庫更加敏捷,用戶無需親自設置和管理數(shù)據(jù)倉庫基礎設施,即可在幾秒鐘內(nèi)輕松運行和擴展分析,實現(xiàn) PB 級數(shù)據(jù)規(guī)模的數(shù)據(jù)分析。目前來說,已經(jīng)有很多企業(yè)去選擇 Amazon Redshift 來縮短他們獲得洞察的時間,因為它易于使用,可在任何規(guī)模提供可靠的性能分析所有數(shù)據(jù),也可能是因為 Amazon Redshift 提供比其他云數(shù)據(jù)倉庫高 3 倍的性價比。Amazon Redshift Serverless 是非常適合難以預測計算需求的情況,例如可變工作負載、具有空閑時間的周期性工作負載以及具有峰值的穩(wěn)態(tài)工作負載。這種方法也非常適合需要快速入門的臨時分析需求以及測試和開發(fā)環(huán)境。
	
(4)Amazon EMR 也推出了 Serverless 無服務器的版本。開發(fā)者可以使用無服務器的方式運行使用開源大數(shù)據(jù)框架(如 Apache Spark、Hive 和 Presto)構建的程序,在云中運行 PB 級數(shù)據(jù)分析,而無需配置、管理、優(yōu)化或保護集群。用戶無需猜測集群大小,Amazon EMR Serverless 具備自動細粒度擴縮,并且提供性能優(yōu)化的運行時,速度是開源版本的兩倍以上。另外,Amazon EMR 在安裝 Spark、Hive、Presto 或 Trino 時可以默認安裝 Hudi 組件,以實現(xiàn)開放格式(如 Apache Parquet 和 Apache Avro)維護 Amazon S3 或 HDFS 中的數(shù)據(jù)。舉個例子,使用 Amazon EMR,技術人員可以將 Parquet 數(shù)據(jù)集轉化為 Hudi 數(shù)據(jù)集,而無需重寫數(shù)據(jù)集,快速將現(xiàn)有數(shù)據(jù)集遷移至 Apache Hudi 數(shù)據(jù)集,例如 Amazon S3 上 1TB 的 Parquet 數(shù)據(jù)集,引導執(zhí)行的速度已經(jīng)比批量插入快了五倍!
通過了解,CSDN 看到,上述這些僅僅只是亞馬遜云科技中的一小部分數(shù)據(jù)服務及其無服務器版的發(fā)展變化。發(fā)布既是無服務器架構的云原生 NoSQL—Amazon DynamoDB,兩年前即實現(xiàn)無服務器化的云原生關系型數(shù)據(jù)庫Amazon Aurora Serverless v1(本周第二代v2也已上線),也都是值得挖掘的技術創(chuàng)新。
正是隨著這些服務的升級與發(fā)展,“智能湖倉”也在向更敏捷,更智能的方向演變。也讓技術界看到,數(shù)據(jù)分析的下一站已到來。
全棧式云原生數(shù)據(jù)分析服務,讓數(shù)據(jù)真正“敏捷分析”
我們能看到,“智能湖倉”更強調(diào)架構,強調(diào)數(shù)據(jù)的自由流動和集中統(tǒng)一治理?!爸悄芎}”架構不是簡單地將湖與倉打通,而是將湖、倉與專門構建等數(shù)據(jù)服務連接成為一個整體,讓數(shù)據(jù)在其間移動和訪問,進一步實現(xiàn)數(shù)據(jù)在數(shù)據(jù)湖、數(shù)據(jù)倉庫,以及在數(shù)據(jù)查詢、數(shù)據(jù)分析、機器學習等各類專門構建等服務之間按需移動,從而形成統(tǒng)一且連續(xù)等整體,滿足客戶等各種需求。
亞馬遜云科技的“智能湖倉”架構具有靈活擴展、專門構建、數(shù)據(jù)融合、敏捷分析、開源開放等特點。詳細來說,背靠 Amazon S3 數(shù)據(jù)湖存儲的高可靠和大容量,對于數(shù)據(jù)存儲資源彈性伸縮擴展,在此之上,技術人員通過使用亞馬遜云科技經(jīng)驗總結的具象產(chǎn)品實力,如交互式查詢服務 Amazon Athena、云上大數(shù)據(jù)平臺 Amazon EMR、云數(shù)據(jù)倉庫 Amazon Redshift 等專門構建的數(shù)據(jù)分析服務,以及數(shù)據(jù)融合統(tǒng)一治理的架構之下,企業(yè)可以無需機器學習經(jīng)驗,使用 SQL 語句,甚至不編寫代碼,去進行數(shù)據(jù)分析。這種模式可以大大降低數(shù)據(jù)人員的技術門檻,讓更多數(shù)據(jù)業(yè)務人員去擁抱數(shù)據(jù),實現(xiàn)敏捷、快速、低成本的數(shù)據(jù)分析。
在“智能湖倉”架構下,云原生數(shù)據(jù)分析服務可以全面覆蓋流數(shù)據(jù)分析、數(shù)據(jù)湖、Hadoop 等常用的分析場景,所有均無服務器化。無服務器的分析工具讓客戶無需配置、擴展或管理集群或服務器,也不必擔心容量配置,從而可以最大程度地為客戶減少無差別的繁瑣工作,讓數(shù)據(jù)真正實現(xiàn)全棧、敏捷地分析。
面對海量數(shù)據(jù)與細分環(huán)境,亞馬遜云科技無服務器的“智能湖倉”架構則將易用、易擴展、高性能、專門構建、安全及智能等特性融于一體,打通數(shù)據(jù)湖和數(shù)據(jù)倉庫,進一步將各種服務無縫集成,確保數(shù)據(jù)在不同服務之間順暢流動,進而幫助客戶盡可能最大程度地提高數(shù)據(jù)價值,加速創(chuàng)新,并成為數(shù)據(jù)驅(qū)動型組織。
從亞馬遜的技術布局和發(fā)展路徑,我們能看到,全棧、云原生的數(shù)據(jù)分析時代已經(jīng)到來,智能化的湖倉將成為新一代數(shù)據(jù)平臺架構。而借助智能湖倉,與數(shù)據(jù)相關的技術與業(yè)務人員,將可以擺脫對底層架構與數(shù)據(jù)處理技術的多個掣肘,專注于挖掘數(shù)據(jù)的創(chuàng)新性分析與應用,以發(fā)現(xiàn)并抓住任何一個創(chuàng)新的機遇。
審核編輯 :李倩
- 
                                數(shù)據(jù)分析
                                +關注
關注
2文章
1495瀏覽量
35837 - 
                                數(shù)據(jù)集
                                +關注
關注
4文章
1229瀏覽量
25993 - 
                                大數(shù)據(jù)
                                +關注
關注
64文章
9001瀏覽量
142750 
原文標題:全棧、云原生的數(shù)據(jù)分析時代已來,我們?nèi)绾巫プC會?
文章出處:【微信號:coder_life,微信公眾號:程序人生】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
Exensio 應用篇:賦能IDM企業(yè)的全能型數(shù)據(jù)分析中樞
    
如何通過數(shù)據(jù)分析識別設備故障模式?
    
構建自定義電商數(shù)據(jù)分析API
    
AI數(shù)據(jù)分析儀設計原理圖:RapidIO信號接入 平板AI數(shù)據(jù)分析儀
    
TDengine 發(fā)布時序數(shù)據(jù)分析 AI 智能體 TDgpt,核心代碼開源
    
          
        
        
數(shù)據(jù)分析將成為創(chuàng)新起源與企業(yè)核心能力
                
 
           
            
            
                
            
評論