亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

工業(yè)大數(shù)據(jù)處理領(lǐng)域的“網(wǎng)紅”——Apache Spark

格創(chuàng)東智 ? 2018-12-17 10:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

生活離不開水,同樣離不開數(shù)據(jù),我們被數(shù)據(jù)包圍,在數(shù)據(jù)中生活。當(dāng)數(shù)據(jù)越來(lái)越多時(shí),就成了大數(shù)據(jù)。


在“中國(guó)制造2025”的技術(shù)路線圖中,工業(yè)大數(shù)據(jù)是作為重要突破點(diǎn)來(lái)規(guī)劃的,而在未來(lái)的十年,以數(shù)據(jù)為核心構(gòu)建的智能化體系會(huì)成為支撐智能制造和工業(yè)互聯(lián)網(wǎng)的核心動(dòng)力。而想要理解大數(shù)據(jù),就需要理解大數(shù)據(jù)相關(guān)的查詢、處理、機(jī)器學(xué)習(xí)、圖計(jì)算和統(tǒng)計(jì)分析等。Apache Spark作為新一代輕量級(jí)大數(shù)據(jù)快速處理平臺(tái),集成了大數(shù)據(jù)相關(guān)的各種能力,是理解大數(shù)據(jù)的首選。

簡(jiǎn)單來(lái)講,Spark就是一個(gè)快速、通用的大規(guī)模數(shù)據(jù)處理引擎,各種不同的應(yīng)用,如實(shí)時(shí)流處理、機(jī)器學(xué)習(xí)、交互式查詢等,都可以通過Spark 建立在不同的存儲(chǔ)和運(yùn)行系統(tǒng)上。今天的格物匯,就帶大家來(lái)認(rèn)識(shí)一下如日中天、高速發(fā)展的大數(shù)據(jù)處理明星——Spark。

1Spark發(fā)展歷程


  • 2009年,Spark誕生于伯克利大學(xué)AMPLab,最開初屬于伯克利大學(xué)的研究性項(xiàng)目,最開始Spark只是一個(gè)實(shí)驗(yàn)性的項(xiàng)目,代碼量非常少,僅有3900行代碼左右,屬于輕量級(jí)的框架。

  • 2010年,伯克利大學(xué)正式開源了Spark項(xiàng)目。

  • 2013年6月,Spark成為了Apache基金會(huì)下的項(xiàng)目,進(jìn)入高速發(fā)展期,第三方開發(fā)者貢獻(xiàn)了大量的代碼,活躍度非常高。

  • 2014年2月,Spark以飛快的速度稱為了Apache的頂級(jí)項(xiàng)目。

  • 2014年5月底Spark1.0.0發(fā)布。

  • 2016年6月Spark2.0.0發(fā)布

  • 2018年11月 Spark2.4.0 發(fā)布


Spark作為Hadoop生態(tài)中重要的一員,其發(fā)展速度堪稱恐怖,從誕生到成為Apache頂級(jí)項(xiàng)目不到五年時(shí)間,不過在如今數(shù)據(jù)量飛速增長(zhǎng)的環(huán)境與背景下,Spark作為高效的計(jì)算框架能收到如此大的關(guān)注也是有所依據(jù)的。

2Spark的特點(diǎn)


速度快

Spark通過使用先進(jìn)的DAG調(diào)度器、查詢優(yōu)化器和物理執(zhí)行引擎,可以高性能地進(jìn)行批量及流式處理。使用邏輯回歸算法進(jìn)行迭代計(jì)算,Spark比Hadoop速度快100多倍。


簡(jiǎn)單易用

Spark目前支持多種編程語(yǔ)言,比如Java、Scala、Python、R。熟悉其中任一門語(yǔ)言的都可以直接上手編寫Spark程序,非常方便。還支持超過80種高級(jí)算法,使用戶可以快速構(gòu)建不同應(yīng)用。并且Spark還支持交互式的Python和Scala的Shell,這意味著可以非常方便的在這些Shell中使用Spark集群來(lái)驗(yàn)證解決問題的方法,而不是像以前一樣,需要打包、上傳集群、驗(yàn)證等。這對(duì)于原型開發(fā)非常重要。


通用性高

Spark 目前主要由四大組件,如下:

  • Spark SQL:SQL on Hadoop,能夠提供交互式查詢和報(bào)表查詢,通過JDBC等接口調(diào)用;

  • Spark Streaming::流式計(jì)算引擎;

  • Spark MLlib:機(jī)器學(xué)習(xí)庫(kù);

  • Spark GraphX:圖計(jì)算引擎。

擁有這四大組件,成功解決了大數(shù)據(jù)領(lǐng)域中,離線批處理、交互式查詢、實(shí)時(shí)流計(jì)算、機(jī)器學(xué)習(xí)與圖計(jì)算等最重要的任務(wù)和問題,這些不同類型的處理都可以在同一應(yīng)用中無(wú)縫使用。Spark統(tǒng)一的解決方案非常具有吸引力,畢竟任何公司都想用統(tǒng)一的平臺(tái)處理問題,減少開發(fā)和維護(hù)的人力成本和部署平臺(tái)的物理成本。當(dāng)然還有,作為統(tǒng)一的解決方案,Spark并沒有以犧牲性能為代價(jià)。相反,在性能方面Spark具有巨大優(yōu)勢(shì)。


可融合性

Spark可以運(yùn)行在standalone、YARN、Mesos、Kubernetes及EC2多種調(diào)度平臺(tái)上。其中Standalone模式不依賴第三方的資源管理器和調(diào)度器,這樣降低了Spark的使用門檻,使得所有人可以非常容易地部署和使用Spark。

Spark可以處理所有Hadoop支持的數(shù)據(jù),包括HDFS、Apach HBase、Apach Kudu、Apach Cassanda等。這對(duì)于已部署Hadoop集群的用戶特別重要,因?yàn)椴恍枰鋈魏螖?shù)據(jù)遷移就可以使用Spark強(qiáng)大的處理能力。



3Spark相比MapReduce優(yōu)勢(shì)

Spark與MapReduce 同為計(jì)算框架,但作為后起之秀,Spark借鑒了MapReduce,并在其基礎(chǔ)上進(jìn)行了改進(jìn),使得算法性能明顯優(yōu)于MapReduce,下面大致總結(jié)一下兩者差異:

1)Spark把運(yùn)算的中間數(shù)據(jù)存放在內(nèi)存,迭代計(jì)算效率更高;MapReduce的中間結(jié)果需要落地到磁盤,磁盤io操作多,影響性能。

2)Spark容錯(cuò)性高,它通過Lineage機(jī)制實(shí)現(xiàn)RDD算子的高效容錯(cuò),某一部分丟失或者出錯(cuò),可以通過整個(gè)數(shù)據(jù)集的計(jì)算流程的血緣關(guān)系來(lái)實(shí)現(xiàn)重建;MapReduce的話容錯(cuò)可能只能重新計(jì)算了,成本較高。

3)Spark更加通用,Spark提供了transformation和action這兩大類的多個(gè)功能算子,操作更為方便;MapReduce只提供了map和reduce兩種操作。

4)Spark框架和生態(tài)更為復(fù)雜,首先有RDD、血緣lineage、執(zhí)行時(shí)的有向無(wú)環(huán)圖DAG、stage劃分等等,很多時(shí)候spark作業(yè)都需要根據(jù)不同業(yè)務(wù)場(chǎng)景的需要進(jìn)行調(diào)優(yōu)已達(dá)到性能要求;MapReduce框架及其生態(tài)相對(duì)較為簡(jiǎn)單,對(duì)性能的要求也相對(duì)較弱,但是運(yùn)行較為穩(wěn)定,適合長(zhǎng)期后臺(tái)運(yùn)行。

4Spark與工業(yè)互聯(lián)平臺(tái)


工業(yè)互聯(lián)網(wǎng)帶來(lái)了工業(yè)數(shù)據(jù)的快速發(fā)展,對(duì)于日益增加的海量數(shù)據(jù),傳統(tǒng)單機(jī)因本身的軟硬件限制無(wú)法應(yīng)對(duì)海量數(shù)據(jù)的處理、分析以及深度挖掘,但作為分布式計(jì)算框架的Spark卻能輕松應(yīng)付這些場(chǎng)景。在工業(yè)互聯(lián)網(wǎng)平臺(tái)上,Spark 既能快速實(shí)現(xiàn)工業(yè)現(xiàn)場(chǎng)海量流數(shù)據(jù)的處理轉(zhuǎn)換,又能輕松應(yīng)對(duì)工業(yè)大數(shù)據(jù)平臺(tái)中海量數(shù)據(jù)的快速批處理分析,自身集成的機(jī)器學(xué)習(xí)框架能夠對(duì)海量工業(yè)數(shù)據(jù)進(jìn)行深度挖掘分析,從而幫助管理者進(jìn)行決策分析。


基于Spark框架自身的優(yōu)良設(shè)計(jì)理念以及社區(qū)的蓬勃發(fā)展?fàn)顟B(tài),相信未來(lái)Spark會(huì)在工業(yè)互聯(lián)網(wǎng)平臺(tái)扮演越來(lái)越重要的角色。

本文作者:黃歡,格創(chuàng)東智大數(shù)據(jù)工程師 (轉(zhuǎn)載請(qǐng)注明來(lái)源及作者)



聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9001

    瀏覽量

    142747
  • 智能制造
    +關(guān)注

    關(guān)注

    48

    文章

    6069

    瀏覽量

    79223
  • 工業(yè)互聯(lián)網(wǎng)

    關(guān)注

    28

    文章

    4378

    瀏覽量

    95900
  • SPARK
    +關(guān)注

    關(guān)注

    1

    文章

    106

    瀏覽量

    21036
  • 工業(yè)大數(shù)據(jù)

    關(guān)注

    0

    文章

    72

    瀏覽量

    8140
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    組態(tài)大數(shù)據(jù)平臺(tái)是什么?有什么功能?

    組態(tài)大數(shù)據(jù)平臺(tái)是融合 組態(tài)技術(shù) 與 大數(shù)據(jù)處理能力 的綜合性平臺(tái),通過圖形化、可配置的方式實(shí)現(xiàn)數(shù)據(jù)采集、存儲(chǔ)、分析、可視化及遠(yuǎn)程控制,適用于工業(yè)自動(dòng)化、能源管理、樓宇監(jiān)控等
    的頭像 發(fā)表于 10-30 11:29 ?35次閱讀
    組態(tài)<b class='flag-5'>大數(shù)據(jù)</b>平臺(tái)是什么?有什么功能?

    電商API的實(shí)時(shí)數(shù)據(jù)處理

    ? 在現(xiàn)代電商平臺(tái)中,API(應(yīng)用程序接口)扮演著核心角色,它連接用戶、商家和后臺(tái)系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)的高效交換。隨著電商業(yè)務(wù)規(guī)模的擴(kuò)大,實(shí)時(shí)數(shù)據(jù)處理變得至關(guān)重要——它要求系統(tǒng)在毫秒級(jí)內(nèi)響應(yīng)API請(qǐng)求
    的頭像 發(fā)表于 07-23 15:39 ?313次閱讀
    電商API的實(shí)時(shí)<b class='flag-5'>數(shù)據(jù)處理</b>

    使用NVIDIA GPU加速Apache Spark中Parquet數(shù)據(jù)掃描

    隨著各行各業(yè)的企業(yè)數(shù)據(jù)規(guī)模不斷增長(zhǎng),Apache Parquet 已經(jīng)成為了一種主流數(shù)據(jù)存儲(chǔ)格式。Apache Parquet 是一種列式存儲(chǔ)格式,專為高效的大規(guī)模
    的頭像 發(fā)表于 07-23 10:52 ?529次閱讀
    使用NVIDIA GPU加速<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中Parquet<b class='flag-5'>數(shù)據(jù)</b>掃描

    京東工業(yè)大模型Joy industrial重磅發(fā)布

    京東工業(yè)多年深耕工業(yè)數(shù)智供應(yīng)鏈領(lǐng)域形成的經(jīng)驗(yàn)積累和數(shù)據(jù)沉淀,通過“工業(yè)大模型+供應(yīng)鏈場(chǎng)景應(yīng)用”雙引擎,構(gòu)建從底層算力、算法、
    的頭像 發(fā)表于 05-28 17:12 ?703次閱讀

    NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

    隨著 NVIDIA 推出 Aether 項(xiàng)目,通過采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動(dòng)加速其數(shù)據(jù)中心規(guī)模的分析工作負(fù)載,從而節(jié)省數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 03-25 15:09 ?809次閱讀
    NVIDIA加速的<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>助力企業(yè)節(jié)省大量成本

    樹莓派5 + Hailo AI加速器:工業(yè)級(jí)數(shù)值數(shù)據(jù)處理實(shí)戰(zhàn),打通SQLite與機(jī)器學(xué)習(xí)全鏈路

    本文討論了在工業(yè)自動(dòng)化背景下,開發(fā)者利用樹莓派5和HailoAI加速器進(jìn)行工業(yè)級(jí)數(shù)值數(shù)據(jù)處理實(shí)戰(zhàn),打通SQLite與機(jī)器學(xué)習(xí)全鏈路時(shí)遇到的問題及解決方案。關(guān)鍵要點(diǎn)包括:1.開發(fā)者需求:構(gòu)建能從
    的頭像 發(fā)表于 03-25 09:22 ?891次閱讀
    樹莓派5 + Hailo AI加速器:<b class='flag-5'>工業(yè)</b>級(jí)數(shù)值<b class='flag-5'>數(shù)據(jù)處理</b>實(shí)戰(zhàn),打通SQLite與機(jī)器學(xué)習(xí)全鏈路

    RAM容量不足導(dǎo)致的數(shù)據(jù)溢出如何預(yù)防和處理?

    在 STM32F411 中,RAM 容量是有限的,特別是在進(jìn)行復(fù)雜的數(shù)據(jù)處理和存儲(chǔ)時(shí),可能會(huì)遇到數(shù)據(jù)溢出問題。數(shù)據(jù)溢出是指程序運(yùn)行時(shí),數(shù)據(jù)超出了 RAM 的分配區(qū)域,導(dǎo)致程序崩潰或
    發(fā)表于 03-07 16:09

    Hut 8與比特大陸再度攜手,強(qiáng)化數(shù)據(jù)處理能力

    北美數(shù)據(jù)處理領(lǐng)域的佼佼者Hut 8(納斯達(dá)克代碼:HUT)與全球領(lǐng)先的挖礦設(shè)備制造商比特大陸,于2024年11月宣布達(dá)成一項(xiàng)重要合作。根據(jù)協(xié)議,Hut 8計(jì)劃在2025年第一季度部署數(shù)萬(wàn)臺(tái)
    的頭像 發(fā)表于 02-18 14:37 ?699次閱讀

    Hadoop 生態(tài)系統(tǒng)在大數(shù)據(jù)處理中的應(yīng)用與實(shí)踐

    隨著數(shù)據(jù)量的爆發(fā)式增長(zhǎng),大數(shù)據(jù)處理技術(shù)成為企業(yè)關(guān)注焦點(diǎn),Hadoop 生態(tài)系統(tǒng)在其中扮演著核心角色。 Hadoop Distributed File System(HDFS)是其分布式文件存儲(chǔ)
    的頭像 發(fā)表于 01-21 17:48 ?621次閱讀

    康謀分享 | 如何應(yīng)對(duì)ADAS/AD海量數(shù)據(jù)處理挑戰(zhàn)?

    如何有效處理ADAS/AD海量數(shù)據(jù)并從中獲得見解?IVEX數(shù)據(jù)處理流程可自動(dòng)從原始傳感器數(shù)據(jù)等輸入中識(shí)別出值得關(guān)注的事件和場(chǎng)景,推動(dòng)數(shù)據(jù)高效
    的頭像 發(fā)表于 12-25 10:05 ?4214次閱讀
    康謀分享 | 如何應(yīng)對(duì)ADAS/AD海量<b class='flag-5'>數(shù)據(jù)處理</b>挑戰(zhàn)?

    緩存對(duì)大數(shù)據(jù)處理的影響分析

    緩存對(duì)大數(shù)據(jù)處理的影響顯著且重要,主要體現(xiàn)在以下幾個(gè)方面: 一、提高數(shù)據(jù)訪問速度 在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)存儲(chǔ)通常采用分布式存儲(chǔ)系統(tǒng),數(shù)據(jù)量龐大
    的頭像 發(fā)表于 12-18 09:45 ?1038次閱讀

    cmp在數(shù)據(jù)處理中的應(yīng)用 如何優(yōu)化cmp性能

    CMP在數(shù)據(jù)處理中的應(yīng)用 CMP(并行處理)技術(shù)在數(shù)據(jù)處理領(lǐng)域扮演著越來(lái)越重要的角色。隨著數(shù)據(jù)量的爆炸性增長(zhǎng),傳統(tǒng)的串行
    的頭像 發(fā)表于 12-17 09:27 ?1630次閱讀

    上位機(jī)實(shí)時(shí)數(shù)據(jù)處理技術(shù) 上位機(jī)在智能制造中的應(yīng)用

    。這種技術(shù)對(duì)于工業(yè)自動(dòng)化、智能制造等領(lǐng)域至關(guān)重要。 在上位機(jī)實(shí)時(shí)數(shù)據(jù)處理中,關(guān)鍵技術(shù)包括數(shù)據(jù)采集、數(shù)據(jù)處理、
    的頭像 發(fā)表于 12-04 10:29 ?1814次閱讀

    eda中常用的數(shù)據(jù)處理方法

    探索性數(shù)據(jù)分析(EDA)是一種統(tǒng)計(jì)方法,用于使用統(tǒng)計(jì)圖表、圖形和計(jì)算來(lái)發(fā)現(xiàn)數(shù)據(jù)中的模式、趨勢(shì)和異常值。在進(jìn)行EDA時(shí),數(shù)據(jù)處理是至關(guān)重要的,因?yàn)樗梢詭椭覀兏玫乩斫?b class='flag-5'>數(shù)據(jù)集,為進(jìn)一步
    的頭像 發(fā)表于 11-13 10:57 ?1257次閱讀

    海量數(shù)據(jù)處理需要多少RAM內(nèi)存

    海量數(shù)據(jù)處理所需的RAM(隨機(jī)存取存儲(chǔ)器)內(nèi)存量取決于多個(gè)因素,包括數(shù)據(jù)的具體規(guī)模、處理任務(wù)的復(fù)雜性、數(shù)據(jù)庫(kù)管理系統(tǒng)的效率以及所使用軟件的優(yōu)化程度等。以下是對(duì)所需內(nèi)存量的分析: 一、內(nèi)
    的頭像 發(fā)表于 11-11 09:56 ?1980次閱讀