亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英特爾在Hot Chips大會上發(fā)布了首款AI處理器

DPVg_AI_era ? 來源:lq ? 2019-09-01 07:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

英特爾在Hot Chips大會上發(fā)布了首款AI處理器,專為大型計算中心設計。該芯片基于10納米Ice Lake處理器,專為大型數(shù)據(jù)中心設計,可以用最少的能耗來處理高工作負載。本文帶來這款芯片的詳細設計細節(jié)。

近日在Hot Chips 2019大會上,英特爾發(fā)布了首款AI處理器,專為大型計算中心設計。

英特爾表示,該芯片由位于以色列海法的研發(fā)中心開發(fā),名為Nervana NNP-I或Springhill,基于10納米Ice Lake處理器,可以用最少的能耗來處理高工作負載。

英特爾表示,隨著AI領域對復雜計算的需求日益增加,這款新的硬件芯片將有助于大型企業(yè)使用英特爾Xeon處理器。

在Hot Chips大會上,他們提供了這款AI芯片的更多設計細節(jié)。

英特爾首款AI芯片設計細節(jié)

英特爾正采取數(shù)項不同的舉措,通過其“無處不在的AI”('AI everywhere)戰(zhàn)略,擴大其在蓬勃發(fā)展的AI市場的影響力。該公司廣泛的產品包括GPUFPGA和定制ASIC,用于應對AI領域的不同挑戰(zhàn),其中一些解決方案專為計算密集型的訓練任務而設計,用于為目標識別、語音翻譯、語音合成等工作負載創(chuàng)建復雜的神經(jīng)網(wǎng)絡,將產生的訓練模型作為輕量級代碼運行的單獨解決方案稱為推理。

英特爾的Spring Hill Nervana神經(jīng)網(wǎng)絡推理處理器(NNP-I) 1000,我們在下文中簡稱為NNP-I,用于處理數(shù)據(jù)中心的輕量級推理工作負載。這款芯片足夠小,可以安裝在標準的M.2設備上,然后插入主板上的標準M.2端口,從而將Xeon服務器從推理密集型工作負載中解放出來,將更大的芯片釋放出來用于一般計算任務。用于訓練的神經(jīng)網(wǎng)絡處理器 (NPP-T)作為英特爾的Nervana解決方案用于訓練工作負載,但這兩種設備的底層架構有很大的不同。

英特爾修改了10nm Ice Lake處理器,去掉了兩個計算核心和圖形引擎,以適應12個推理計算引擎(ICE)。ICE加速器具有基于硬件的單元間同步,與兩個IA核共享一個連貫的結構和24MB的L3緩存,這兩個IA核具有Sunny Cove微架構。

IA核心是標準的Ice Lake核心,支持AVX-512和VNNI指令,可加速卷積神經(jīng)網(wǎng)絡,而一個完全集成的電壓調節(jié)模塊(FIVR)動態(tài)地向組件供電,將更多的功率預算分配給最活躍的on-die單元。該芯片配備了兩個LPDDR4X內存控制器,連接到封裝內存,你可以將其視為M.2 PCB左下方的單個組件??刂破魈峁└哌_4.2 GT/s (68 GB/s)的吞吐量,并支持 in-band ECC。

英特爾尚未透露LPDDR4的容量,也沒有透露有關M.2設備的其他細節(jié)。我們知道英特爾將這個軟件包安裝在不同形式的插入卡上,比如上面的M.2版本,它可以插入服務器主板上的標準M.2端口,或者插入標準的PCIe插槽的更大的附加卡。與谷歌的TPU等為人AI設計的定制芯片不同,這款設備基本上與所有現(xiàn)有的現(xiàn)代服務器硬件兼容。這種方法也是可擴展的:你可以根據(jù)需要向服務器添加盡可能多的NNP-I,特別是對于包含多個M.2端口的PCIe提升板。

該設備通過PCIe 3.0 x4或x8接口與主機通信,但不使用NVMe協(xié)議。相反,它作為一個標準的PCIe設備運行。英特爾將提供一種軟件,可以將推理“作業(yè)”完全編排到加速器上,當工作完成時,該軟件將通知Xeon CPU。卸載消除了Xeon與其他類型的加速器在PCIe總線上的來回通信,這對CPU來說是一種負擔,因為它會生成中斷并需要數(shù)據(jù)移動。相反,NNP-I是一個獨立的系統(tǒng),具有自己的I/O調節(jié)(PCH),允許它訪問處理所需的數(shù)據(jù)。

該設備可以支持從10W到50W的不同功率范圍,這對性能有影響。M.2接口的15W限制阻礙了插入標準M.2插座的設備的功率傳輸,但NNP-I在更大的外接卡中可以在最高TDP額定值下運行,這意味著它們提供了更好的性能。在INT8操作中,TOP/s的范圍從48到92。根據(jù)配置的TDP,芯片的效率為每瓦特2~4.8 TOP/s,但該指標不包括總包功率。

推理計算引擎內部

深入研究ICE引擎可以發(fā)現(xiàn),每個ICE單元都有額外的4MB SRAM,有助于減少芯內數(shù)據(jù)移動,這在功耗和時間方面總是比實際的計算操作更昂貴。深度學習計算網(wǎng)格(DL Compute Grid)是一個張量引擎,通過數(shù)據(jù)和控制結構連接到SRAM和VP6 DSP。DSP引擎可以用于沒有專門針對固定功能DL計算網(wǎng)格進行優(yōu)化的算法。此外,其他代碼可以在Ice Lake核心上使用VNNI運行,使多個模型可以同時在設備上運行,也為快速移動的AI空間提供了一些必需的前向兼容性。

DL Compute Grid支持FP16和INT8,但也支持INT4、2和1,以支持未來可能對AI算法進行的調整。令人驚訝的是,它不支持bfloat16。通過調整工作負載在ICE單元之間的分布方式,可以優(yōu)化fabric的帶寬或延遲,如下表所示。

這里我們可以看到DL Compute Grid的特寫視圖,它被設計得很靈活,以最大化其4D并行計算能力,以及用于矢量處理的Tensilicon Vision P6 DSP。Tensilica DSP引擎是一個廣泛的VLIW機器,支持INT8, 16, 32,和FP16。該引擎是完全可編程的,并具有一個雙向管道和DL Compute Grid,可在兩個硬件同步單元之間快速傳輸數(shù)據(jù)。。

芯片的內存子系統(tǒng)

回到內存子系統(tǒng),可以看到每個計算單元中所做的設計決策背后的許多合理化。這里我們可以看到硬件控制的L3緩存被分成8個3MB的片段,在AI核心和ICE單元之間共享。該設計經(jīng)過優(yōu)化,使數(shù)據(jù)盡可能接近計算引擎,并具有四個不同的層。

圖表左側的一系列blocks量化了通過內存結構的每一層移動數(shù)據(jù)的延遲。從DRAM到DLCompute Grid的數(shù)據(jù)傳輸被設置為基線,我們可以看到分層結構中的每一層將數(shù)據(jù)傳輸?shù)膃ngine的速度是多么快。從L3緩存訪問比DRAM快10倍,而存儲在DL Compute Grid中的數(shù)據(jù)比DRAM快1000倍。

總之,分層設計允許Xeon向設備卸載幾種不同類型的神經(jīng)網(wǎng)絡,每一層都支持一定的精度。請注意,上面的金字塔是根據(jù)每瓦特的性能排列的。

英特爾與ResNet50共享性能數(shù)據(jù),運行速度為每秒3600 次推理,芯片設置為10W TDP。這相當于每瓦特4.8 TOP/s的效率測量,符合公司的設計目標。值得注意的是,芯片在較低的TDP范圍內效率更高,因此在較高的性能設置下效率可能會有所不同。這些數(shù)字也只適用于ASIC,不包括整個M.2設備的功耗。英特爾表示,未來將分享更多的性能數(shù)據(jù)。

英特爾提供了一個編譯器,可以為NNP-I的加速器定制代碼,并正在與Facebook合作,以確保Glo編譯器也支持NNP-I的加速器。Facebook是英特爾在開發(fā)期間的“定義”合作伙伴。該設備還支持所有標準框架,如PyTorch和TensorFlow等,幾乎沒有任何更改。英特爾堅持認為,任何能夠使用Xeons進行推理的人都可以使用NNP-I。

在數(shù)據(jù)中心,推理應用遠比訓練普遍,價格合理的低功耗設備將集體銷售給超大規(guī)模和云服務提供商(CSP),意思是這可以成為英特爾的一個利潤豐厚的細分市場。該公司本身并沒有打算將這些設備推向零售市場,但確實希望CSP在未來通過基于云的實例來公開它們。

英特爾已經(jīng)研發(fā)了兩代NNP-I。該公司將在今年年底前開始批量生產,NNP-I已經(jīng)開始提供樣品。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    462

    文章

    53320

    瀏覽量

    456185
  • 英特爾
    +關注

    關注

    61

    文章

    10247

    瀏覽量

    178695
  • AI處理器
    +關注

    關注

    0

    文章

    94

    瀏覽量

    9922

原文標題:英特爾首款AI芯片終于面世!10nm工藝,以色列團隊設計細節(jié)曝光

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    英特爾288核新至強處理器揭秘:Intel 18A制程,3D堆疊與鍵合,EMIB封裝……

    ? 近日,Hot Chips 2025大會舉行期間,英特爾新一代至強處理器?Clearwate
    的頭像 發(fā)表于 08-29 15:59 ?765次閱讀

    NVIDIAHot Chips 2025大會展示創(chuàng)新技術

    本周加利福尼亞州帕洛阿托(Palo Alto)舉行的 Hot Chips 大會上,NVIDIA 專家詳細介紹
    的頭像 發(fā)表于 08-27 12:52 ?1410次閱讀

    主控CPU全能選手,英特爾至強6助力AI系統(tǒng)高效運轉

    2025年3月,英偉達發(fā)布DGX B300 AI加速計算平臺。2025年5月,英特爾發(fā)布
    的頭像 發(fā)表于 06-27 11:44 ?475次閱讀
    主控CPU全能選手,<b class='flag-5'>英特爾</b>至強6助力<b class='flag-5'>AI</b>系統(tǒng)高效運轉

    英特爾發(fā)布邊緣AI控制與邊緣智算一體機,創(chuàng)造“AI新視界”

    處理器的邊緣 AI 控制 和 基于英特爾銳炫 ? 顯卡的邊緣智算一體機 ,為工業(yè)AI的規(guī)模化落地注入強勁動力。
    發(fā)表于 06-24 17:50 ?1324次閱讀
    <b class='flag-5'>英特爾</b><b class='flag-5'>發(fā)布</b>邊緣<b class='flag-5'>AI</b>控制<b class='flag-5'>器</b>與邊緣智算一體機,創(chuàng)造“<b class='flag-5'>AI</b>新視界”

    直擊Computex 2025:英特爾重磅發(fā)布新一代GPU,圖形和AI性能躍升3.4倍

    電子發(fā)燒友原創(chuàng)? 章鷹 5月19日,Computex 2025上,英特爾發(fā)布最新全新圖形處理器(GPU)和
    的頭像 發(fā)表于 05-21 00:57 ?6757次閱讀
    直擊Computex 2025:<b class='flag-5'>英特爾</b>重磅<b class='flag-5'>發(fā)布</b>新一代GPU,圖形和<b class='flag-5'>AI</b>性能躍升3.4倍

    直擊Computex2025:英特爾重磅發(fā)布新一代GPU,圖形和AI性能躍升3.4倍

    5月19日,Computex 2025上,英特爾發(fā)布最新全新圖形處理器(GPU)和AI加速
    的頭像 發(fā)表于 05-20 12:27 ?4998次閱讀
    直擊Computex2025:<b class='flag-5'>英特爾</b>重磅<b class='flag-5'>發(fā)布</b>新一代GPU,圖形和<b class='flag-5'>AI</b>性能躍升3.4倍

    英特爾發(fā)布全新GPU,AI和工作站迎來新選擇

    Computex 2025上,英特爾發(fā)布為專業(yè)人士和開發(fā)者設計的全新圖形處理器(GPU)和AI加速
    發(fā)表于 05-20 11:03 ?1618次閱讀

    自然語言提示原型英特爾Vision大會上首次亮相

    英特爾Vision大會上,Network Optix首次展示自然語言提示原型,該方案將重新定義視頻管理,為各行各業(yè)由AI驅動的洞察和效率
    的頭像 發(fā)表于 04-09 09:30 ?696次閱讀

    英特爾至強6處理器助力數(shù)據(jù)中心整合升級

    繼去年9月重磅推出英特爾 至強 6900性能核處理器后,英特爾進一步擴充至強6產品家族,于近期發(fā)布包括至強6700性能核
    的頭像 發(fā)表于 03-13 17:36 ?1147次閱讀

    英特爾發(fā)布最強大的商用AI PC產品陣容

    2025年世界移動通信大會(MWC 2025)上,英特爾發(fā)布該公司迄今為止最強大的商用AI
    的頭像 發(fā)表于 03-08 09:28 ?914次閱讀

    英特爾CES 2025發(fā)布全新酷睿Ultra處理器

    近日,萬眾矚目的國際消費電子展(CES 2025)上,英特爾再次展現(xiàn)科技領域的領導地位,發(fā)布
    的頭像 發(fā)表于 01-10 13:57 ?1724次閱讀

    英特爾18A制程芯片Panther Lake處理器下半年發(fā)布

    近日,英特爾于CES 2025展會上的演講中,公司臨時聯(lián)席CEO Michelle Johnston透露了一個重要信息:英特爾
    的頭像 發(fā)表于 01-08 10:23 ?1022次閱讀

    英特爾與火山引擎等合作,夯實AI應用智能底座

    近期舉辦的火山引擎2024 FORCE原動力大會上英特爾攜手火山引擎及扣子Coze等生態(tài)伙伴,共同展示智能計算領域的最新合作成果。
    的頭像 發(fā)表于 12-25 11:47 ?1168次閱讀

    英特爾帶您解鎖云上智算新引擎

    近日舉辦的2024火山引擎FORCE原動力大會上,英特爾與火山引擎聯(lián)合發(fā)布基于英特爾 至強 6 性能核
    的頭像 發(fā)表于 12-23 14:05 ?1159次閱讀

    英特爾與火山引擎飛連攜手升級AI時代企業(yè)IT管理體驗

    AI 技術的推動下,企業(yè) IT 管理正經(jīng)歷一場革命。日前,火山引擎飛連新品發(fā)布會成功舉辦。英特爾受邀參與此次活動,并在會上展示
    的頭像 發(fā)表于 11-14 17:17 ?1150次閱讀