亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何減少數(shù)據(jù)中心中最嚴(yán)重硬件故障?

lhl545545 ? 來源:千家網(wǎng) ? 作者:千家網(wǎng) ? 2021-02-25 16:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

硬件故障在大型數(shù)據(jù)中心和云服務(wù)基礎(chǔ)設(shè)施中非常普遍,這些故障可能導(dǎo)致違反服務(wù)水平協(xié)議(SLA)并造成巨大經(jīng)濟(jì)損失。

內(nèi)存故障是當(dāng)今數(shù)據(jù)中心中最嚴(yán)重的硬件故障之一,眾所周知,它嚴(yán)重影響了系統(tǒng)的可靠性、可用性和可維護(hù)性(RAS)。這些故障可能是由超出正常使用范圍的多種因素引起的,包括制造缺陷以及極端的環(huán)境或操作條件。

雖然普遍接受的技術(shù),例如,糾錯(cuò)碼(ECC)和可糾正錯(cuò)誤,基于閾值的預(yù)測性故障分析(PFA))可克服雙列直插式內(nèi)存模塊(DIMM)的一些可糾正錯(cuò)誤,但它們具有成本、可靠性、覆蓋范圍和性能方面的影響。

可糾正錯(cuò)誤數(shù)量的激增可能導(dǎo)致服務(wù)器性能下降,甚至導(dǎo)致拒絕服務(wù)。此外,ECC和基于閾值的可糾正錯(cuò)誤的PFA不能幫助克服無法糾正的錯(cuò)誤,如災(zāi)難性故障通常導(dǎo)致崩潰。

對于嚴(yán)重依賴服務(wù)器可靠性、可用性和可維護(hù)性的組織,英特爾內(nèi)存故障預(yù)測(Intel MFP)是理想的解決方案。對于當(dāng)今的數(shù)據(jù)中心而言,提前預(yù)測未來的內(nèi)存故障已變得至關(guān)重要。通過分析歷史數(shù)據(jù)以預(yù)測潛在的災(zāi)難性事件,英特爾?MFP可以在內(nèi)存故障事件發(fā)生之前對其進(jìn)行預(yù)測。

該解決方案具有多項(xiàng)創(chuàng)新和原始功能。它基于歷史數(shù)據(jù)來預(yù)測行、列和單元格中的微型故障,并使用低開銷的在線學(xué)習(xí)方法來提高其預(yù)測精度并避免干擾關(guān)鍵的計(jì)算任務(wù)。

這也使Intel MFP能夠?yàn)橹鲃觾?nèi)存故障管理生成估計(jì)的內(nèi)存運(yùn)行狀況評分,從而使用戶能夠采取相應(yīng)的措施。英特爾MFP與供應(yīng)商無關(guān),并且可以與其他數(shù)據(jù)中心管理解決方案(包括英特爾數(shù)據(jù)中心管理器(Intel DCM))一起使用。

將與內(nèi)存故障相關(guān)的服務(wù)器崩潰減少40%

在騰訊的一個(gè)案例研究中,英特爾MFP算法的初步協(xié)作測試顯示出快速的結(jié)果,并將內(nèi)存故障和系統(tǒng)停機(jī)時(shí)間減少了五倍。合作伙伴還通過在操作系統(tǒng)級別明智地避免出現(xiàn)內(nèi)存故障,直到更換了該內(nèi)存模塊為止,從而擴(kuò)展了此支持。

在與美團(tuán)的類似案例研究中,該公司發(fā)現(xiàn)由于內(nèi)存錯(cuò)誤導(dǎo)致的服務(wù)器崩潰減少了40%。該公司通過將Intel MFP集成到其現(xiàn)有數(shù)據(jù)中心管理解決方案中,監(jiān)控了服務(wù)器內(nèi)存模塊的運(yùn)行狀況。通過分析以前由其數(shù)據(jù)中心管理軟件收集的數(shù)據(jù),他們能夠?yàn)槊總€(gè)DRAM模塊生成預(yù)測分?jǐn)?shù),然后采取適當(dāng)?shù)拇胧﹣砭S護(hù)其SLA并最大化服務(wù)正常運(yùn)行時(shí)間。

借助新功能,英特爾與全球領(lǐng)先的AMI合作,通過其BIOS、BMC和安全解決方案為全球互聯(lián)數(shù)字基礎(chǔ)架構(gòu)提供電源、管理和保護(hù),并決心將這種支持?jǐn)U展到整個(gè)行業(yè)。

因?yàn)椴东@和分析內(nèi)存錯(cuò)誤需要UEFI和BMC固件之間緊密的聯(lián)系,所以AMI致力于使Intel MFP易于被現(xiàn)有和將來的服務(wù)器平臺采用。

捕獲錯(cuò)誤后,它們將由BIOS記錄,然后某些元數(shù)據(jù)信息將傳遞到BMC固件。然后,BMC固件將獲取此元數(shù)據(jù),并通過Intel MFP引擎運(yùn)行,以計(jì)算內(nèi)存模塊的運(yùn)行狀況得分。當(dāng)檢測到新的錯(cuò)誤時(shí),AMI解決方案將跟蹤每個(gè)內(nèi)存模塊的運(yùn)行狀況評分,并公開結(jié)果供系統(tǒng)管理員進(jìn)行分析。

AMI的默認(rèn)實(shí)現(xiàn)在BUI的Web UI中提供當(dāng)前的內(nèi)存模塊運(yùn)行狀況得分信息,并通過遵循DMTF Redfish標(biāo)準(zhǔn)的RESTful API公開相同的內(nèi)存運(yùn)行狀況得分信息。

RESTful API可輕松與現(xiàn)有數(shù)據(jù)中心管理軟件集成。但是,對于那些不太愿意與自己的軟件集成的數(shù)據(jù)中心,AMI提供了一個(gè)稱為AMI Composer的數(shù)據(jù)管理工具,該工具開發(fā)為完全符合Intel Rack Scale Design和DMTF Redfish標(biāo)準(zhǔn),它將匯總所有信息并通過一個(gè)基于Web的儀表板。

為數(shù)據(jù)中心和云服務(wù)提供商帶來的直接好處

當(dāng)然,在創(chuàng)建機(jī)器學(xué)習(xí)算法時(shí),它實(shí)際上永遠(yuǎn)不會完成。當(dāng)前的Intel MFP模型支持在具有Intel Xeon可擴(kuò)展處理器的平臺上運(yùn)行的DDR4內(nèi)存模塊,并且Intel繼續(xù)收集有關(guān)內(nèi)存錯(cuò)誤和內(nèi)存模塊故障的更多信息,以改進(jìn)模型。

此外,當(dāng)新的內(nèi)存模塊類型引入行業(yè)或?qū)ΜF(xiàn)有技術(shù)進(jìn)行改進(jìn)時(shí),英特爾?MFP將為它們提供支持。

最重要的是,將對所有更新進(jìn)行適當(dāng)?shù)姆治鲆园贛FP模型中,以便在英特爾更新MFP模型時(shí),AMI將為提供給行業(yè)合作伙伴的現(xiàn)有技術(shù)提供易于實(shí)現(xiàn)的更新。

對于數(shù)據(jù)中心和云服務(wù)提供商而言,在Aptio V UEFI固件和MegaRAC BMC固件中添加Intel MFP支持的好處顯而易見。改進(jìn)了數(shù)據(jù)中心SLA。通過主動的內(nèi)存運(yùn)行狀況評估和增強(qiáng)的內(nèi)存頁面脫機(jī)策略,可以降低DIMM故障率。

而且,最重要的是,更高的DIMM性能和可靠性可優(yōu)化工作負(fù)載和虛擬機(jī)(VM)遷移決策,從而提高效率和靈活性,同時(shí)降低總擁有成本。

對于希望在配備AMI Aptio V UEFI BIOS和MegaRAC BMC固件的系統(tǒng)上利用英特爾MFP的公司,建議他們要求其系統(tǒng)制造商將AMI連同用于MegaRAC BMC固件的帶有Intel MFP選件包的AMI和具有英特爾內(nèi)存故障預(yù)測功能的AMI一起包括在內(nèi)。適用于Aptio UEFI固件的eModule。
責(zé)任編輯:pj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10249

    瀏覽量

    178760
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    13

    文章

    10043

    瀏覽量

    90564
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    5459

    瀏覽量

    74512
  • 騰訊
    +關(guān)注

    關(guān)注

    7

    文章

    1682

    瀏覽量

    50745
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中扮演著至關(guān)重要的角色,它通過深度解析PCIe總線的物理層、鏈路層、事務(wù)層及應(yīng)用層協(xié)議,幫助運(yùn)維人員、硬件工程師和系統(tǒng)架構(gòu)師優(yōu)化性能、診斷故障、驗(yàn)證設(shè)計(jì)合規(guī)性,并提
    發(fā)表于 07-29 15:02

    大型數(shù)據(jù)中心中的差分晶體振蕩器應(yīng)用與頻率匹配方案解析

    介紹差分晶體振蕩器在數(shù)據(jù)中心中在交換芯片、AI服務(wù)器、存儲控制器等場景下的頻率匹配和接口設(shè)計(jì)方案。
    的頭像 發(fā)表于 07-16 08:00 ?1274次閱讀
    大型<b class='flag-5'>數(shù)據(jù)中心中</b>的差分晶體振蕩器應(yīng)用與頻率匹配方案解析

    中型數(shù)據(jù)中心中的差分晶體振蕩器應(yīng)用與匹配方案

    中型數(shù)據(jù)中心的定義與特點(diǎn) 中型數(shù)據(jù)中心通常服務(wù)于中大型企業(yè)、科研機(jī)構(gòu)或地方行業(yè)節(jié)點(diǎn),具備50至200個(gè)機(jī)柜,部署多臺服務(wù)器、交換設(shè)備、存儲系統(tǒng)與光通信鏈路等,強(qiáng)調(diào)高帶寬、低延遲與高可用性。關(guān)鍵設(shè)備
    發(fā)表于 07-01 16:33

    小型數(shù)據(jù)中心晶振選型關(guān)鍵參數(shù)全解

    。建議使用良好的接地設(shè)計(jì)和低阻抗走線來減少干擾。 總結(jié) 在小型數(shù)據(jù)中心中,差分晶體振蕩器(DCO)扮演著至關(guān)重要的角色,尤其是在交換機(jī)、路由器、網(wǎng)絡(luò)接口卡(NIC)、存儲設(shè)備和光纖通信設(shè)備等高速、精密
    發(fā)表于 06-11 13:37

    曙光數(shù)創(chuàng)SLiquid智能運(yùn)維系統(tǒng)解決數(shù)據(jù)中心運(yùn)維難題

    面對數(shù)字時(shí)代的海量需求,傳統(tǒng)數(shù)據(jù)中心正遭遇系統(tǒng)性挑戰(zhàn):告警風(fēng)暴引發(fā)的故障定位遲滯、能效困局導(dǎo)致的PUE優(yōu)化瓶頸、資產(chǎn)迷霧造成的資源錯(cuò)配、容量盲區(qū)引發(fā)的規(guī)劃失焦。這些問題嚴(yán)重阻礙了數(shù)據(jù)中心
    的頭像 發(fā)表于 06-03 10:21 ?744次閱讀

    數(shù)據(jù)中心都在用的差分晶振,看完你就懂了

    數(shù)據(jù)中心
    FCom富士晶振
    發(fā)布于 :2025年05月30日 13:12:30

    適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)

    。 高可靠性與低延遲 飛速(FS)800G光模塊具有超低功耗和高信號完整性特性,有助于減少數(shù)據(jù)中心的能源消耗,同時(shí)保障數(shù)據(jù)傳輸?shù)牡脱舆t和高可靠性。 靈活擴(kuò)展與兼容性 飛速(FS)800G光
    發(fā)表于 03-25 17:35

    優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案

    廣泛應(yīng)用于網(wǎng)卡、交換機(jī)、服務(wù)器、超級計(jì)算機(jī)、云計(jì)算和數(shù)據(jù)中心的短距離互連。 800G高速線纜 隨著大規(guī)模和超大規(guī)模數(shù)據(jù)中心的興起,服務(wù)器機(jī)架的功耗顯著增加,垂直布線距離減少。因此,800G
    發(fā)表于 03-24 14:20

    數(shù)據(jù)中心中溫冷源供應(yīng)系統(tǒng)

    數(shù)據(jù)中心冷源供應(yīng)系統(tǒng)設(shè)計(jì)說明 在建筑一層設(shè)置冷凍站為數(shù)據(jù)中心供應(yīng)中溫冷凍水,一層設(shè)置兩套制冷系統(tǒng)。每套制冷系統(tǒng)設(shè)計(jì)采3869KW變頻離心式水冷冷水機(jī)組2+1臺,為了實(shí)現(xiàn)系統(tǒng)最大節(jié)能效果,每合冷水機(jī)組
    的頭像 發(fā)表于 02-26 14:35 ?524次閱讀
    <b class='flag-5'>數(shù)據(jù)中心中</b>溫冷源供應(yīng)系統(tǒng)

    數(shù)據(jù)中心中的FPGA硬件加速器

    ? 再來看一篇FPGA的綜述,我們都知道微軟包括國內(nèi)的云廠商其實(shí)都在數(shù)據(jù)中心的服務(wù)器中部署了FPGA,所以這篇論文就以數(shù)據(jù)中心的視角,來看下FPGA這個(gè)硬件加速器。 還是一樣,想要論文原文的可以私信
    的頭像 發(fā)表于 01-14 10:29 ?1076次閱讀
    <b class='flag-5'>數(shù)據(jù)中心中</b>的FPGA<b class='flag-5'>硬件</b>加速器

    亞馬遜云科技發(fā)布全新數(shù)據(jù)中心組件

    近日,亞馬遜云科技宣布了一項(xiàng)重大創(chuàng)新,推出了一系列全新的數(shù)據(jù)中心組件。這些組件旨在滿足新一代人工智能(AI)創(chuàng)新的需求,并幫助客戶應(yīng)對日益復(fù)雜且多變的應(yīng)用場景。 亞馬遜云科技通過對電源、冷卻以及硬件
    的頭像 發(fā)表于 12-24 15:05 ?746次閱讀

    浪涌保護(hù)器在數(shù)據(jù)中心的重要性

    的設(shè)備造成嚴(yán)重損害。 1. 浪涌保護(hù)器的定義和作用 浪涌保護(hù)器是一種用于限制電氣浪涌電壓的裝置,它能夠吸收多余的電壓或電流,保護(hù)連接的設(shè)備不受損害。在數(shù)據(jù)中心中,浪涌保護(hù)器通常安裝在電源線路上,以保護(hù)
    的頭像 發(fā)表于 12-05 10:18 ?794次閱讀

    Meta AI數(shù)據(jù)中心網(wǎng)絡(luò)用了哪家的芯片

    ? 在Meta,我們相信開放的硬件會推動創(chuàng)新。在當(dāng)今世界,越來越多的數(shù)據(jù)中心基礎(chǔ)設(shè)施致力于支持新興的AI技術(shù),開放硬件在協(xié)助分解方面發(fā)揮著重要作用。通過將傳統(tǒng)數(shù)據(jù)中心技術(shù)分解為其核心組
    的頭像 發(fā)表于 11-25 10:05 ?1684次閱讀
    Meta AI<b class='flag-5'>數(shù)據(jù)中心</b>網(wǎng)絡(luò)用了哪家的芯片

    速看!Atlassian云版與數(shù)據(jù)中心版的創(chuàng)新進(jìn)展

    數(shù)據(jù)中心
    龍智DevSecOps
    發(fā)布于 :2024年11月22日 17:29:05