用于提高可靠性的關(guān)鍵電路的雙工,三重甚至四重冗余技術(shù)已經(jīng)存在了很長時間。自然,如此設(shè)計的第一個系統(tǒng)是用于軍事航空航天應(yīng)用的,因為冗余很昂貴。它使飛機(jī)可以通過計算機(jī)安全地飛行,這是一種稱為“ 電傳飛行”的技術(shù),從而使飛機(jī)的性能超出了人類飛行員的能力范圍。 1960年代的Apollo Saturn V火箭制導(dǎo)計算機(jī)具有三重冗余,這可能是其在極端發(fā)射條件下令人難以置信的可靠性的原因。為了防止不安全操作而使用相同或重復(fù)的相同電路模塊稱為雙重模塊化冗余(DMR)或三次模塊化冗余(TMR)。
傳感器冗余
我們可以請參見圖1中的傳感器DMR和TMR操作的基礎(chǔ)知識。大多數(shù)現(xiàn)代芯片傳感器都具有串行數(shù)字輸出(例如UART,SPI或I2C總線),因此用于比較每個數(shù)據(jù)的表決邏輯設(shè)備可能是小型,低功耗的微控制器。模塊化冗余是一種傳感器融合技術(shù),旨在提高系統(tǒng)的可靠性。以DMR形式,它可以檢測到嚴(yán)重故障并允許系統(tǒng)受控關(guān)閉。換句話說,它可以提高“故障保護(hù)” 方案的可能性。 TMR引入了單個“容錯” 的概念,直到第二個傳感器出現(xiàn)故障時才中斷服務(wù)。在每種情況下,都不會以任何方式合并或處理來自每個傳感器的數(shù)據(jù),只是將它們進(jìn)行身份比較,從而允許實際組件之間的輸出發(fā)生細(xì)微的變化。

傳感器重復(fù)(a)或重復(fù)三次(b),而投票籌碼則不是,現(xiàn)在變成'單點故障危險(SPF)??梢酝ㄟ^添加冗余的表決邏輯來解決此問題,但是在進(jìn)行所有麻煩之前,有必要比較制造商提供的傳感器和表決芯片的故障率。例如,Microchip為大多數(shù)微控制器提供了平均故障時間(MTTF)統(tǒng)計信息。傳感器在正常操作中通常會承受很高的壓力,因此MTTF的值極有可能比投票芯片小得多。在計算系統(tǒng)故障率時,投票邏輯的貢獻(xiàn)可能經(jīng)常被低估。
處理器冗余的發(fā)展
在嵌入式控制系統(tǒng)中,傳感器輸入數(shù)據(jù)將通過某種方式進(jìn)行處理。在微控制器上運(yùn)行的算法的流程圖,微控制器產(chǎn)生用于驅(qū)動致動器和顯示器的輸出數(shù)據(jù)。該微控制器(MCU)具有嚴(yán)重的SPF危害,并且在用于安全關(guān)鍵型應(yīng)用中時,將需要合并冗余電路。
具有冗余功能的線控飛行系統(tǒng)自Saturn V出現(xiàn)以來就已經(jīng)存在。從1988年的空客A320開始,是1960年代的火箭,以及最近在民用飛機(jī)上使用的火箭。冗余系統(tǒng)代表了非常重大的額外投資,不僅在物理硬件上,而且更重要的是,工程師在設(shè)計電路時必須投入大量時間,以使其有效運(yùn)行。實現(xiàn)成功完成任務(wù)的目標(biāo)。該目標(biāo)適用于有人值守和無人值守任務(wù),但包括在涉及人員的情況下對安全性的假設(shè)。數(shù)十年來,成功完成任務(wù)的要求沒有改變,冗余的概念也沒有。發(fā)生的變化是最可能的故障條件(硬性或瞬態(tài))以及每種情況的可能故障率。現(xiàn)代芯片比以前更不容易發(fā)生硬故障,但其密度更高的技術(shù)更容易因雜散(宇宙)粒子而引起臨時故障。
TMR和容錯
經(jīng)典TMR涉及運(yùn)行相同代碼的相同處理器一式三份,將它們的輸出數(shù)據(jù)通過比較器邏輯傳遞,以確認(rèn)這三個處理器均產(chǎn)生相同的結(jié)果。也就是說,可以正常運(yùn)行而不會出錯(圖2)。如果一個處理器“犯了一個錯誤”,則可以忽略它的輸出,因為其他兩個處理器將達(dá)成一致,并且它們的輸出將通過“多數(shù)表決”正確地通過。之所以稱為 fault masking (故障屏蔽),是因為在其余處理器不同意之前,可以不間斷地繼續(xù)安全運(yùn)行。據(jù)說該系統(tǒng)是 Fault Tolerant (容錯),因為單個瞬態(tài)或硬故障不會中斷輸出數(shù)據(jù)流。非常適合實時控制應(yīng)用。但是,這樣的系統(tǒng)不一定能保護(hù)您免受相同處理器的設(shè)計缺陷或每個處理器上運(yùn)行的相同程序代碼中的錯誤的影響。

每個處理器可以從單個非冗余傳感器接收相同的輸入數(shù)據(jù),如圖所示,盡管更好的主意是也使用冗余傳感器,如圖1所示。這種形式的TMR的缺點是比較器邏輯和確保“正確”數(shù)據(jù)應(yīng)用于最終輸出所需的電路的復(fù)雜性。檢查電路可能也必須一式三份,這并不容易。這是有關(guān)該主題的最新論文。
DMR和故障恢復(fù)
大多數(shù)實際的安全系統(tǒng)設(shè)計人員都會通過犧牲 Fault Recoverable來解決容錯TMR的復(fù)雜性。 DMR配置。用于控制空中客車A320客機(jī)上的飛行表面(電梯,方向舵等)的各種計算機(jī)均由兩個相互交叉檢查的獨(dú)立處理器組成。任何故障都會導(dǎo)致關(guān)機(jī),并將功能轉(zhuǎn)移到另一臺計算機(jī)。這些計算機(jī)中有五臺巧妙地互連在一起,驅(qū)動冗余執(zhí)行器。一種故障對飛機(jī)性能沒有影響。如果發(fā)生更多故障,性能將下降,直至一無所獲,保留了對電梯的控制,再加上冗余的舵系統(tǒng),飛機(jī)就可以安全轉(zhuǎn)向和降落。有關(guān)A320冗余飛行控制系統(tǒng)的更多詳細(xì)信息,請閱讀此技術(shù)說明。
不相似
A320上解決了具有相同軟件且產(chǎn)生相同錯誤答案的相同計算機(jī)的問題。介紹不相似的概念。五臺計算機(jī)中的三臺均基于一對Intel 80186 16位微處理器。另外兩個包含Motorola 68010 16/32bit單元。單獨(dú)的承包商設(shè)計,構(gòu)建和編程每種類型:唯一的共性是冗余的外部總線接口及其協(xié)議。安全并不便宜。
安全微控制器和“鎖步”
硅技術(shù)的進(jìn)步導(dǎo)致具有多個“核心”的處理器芯片極大地提高了性能或吞吐量。多核設(shè)備不包含冗余,僅包含真正并行運(yùn)行多個不同程序的能力。如今,無人駕駛機(jī)器的概念似乎已成為現(xiàn)實,例如無人駕駛汽車甚至整個制造工廠。自然,安全已成為一個非常大的問題。幸運(yùn)的是,已經(jīng)創(chuàng)建了管理自主產(chǎn)品的設(shè)計和安全認(rèn)證的標(biāo)準(zhǔn):用于一般工業(yè)控制的IEC 61508和用于汽車應(yīng)用的ISO 26262。芯片制造商已經(jīng)對新型設(shè)備做出了回應(yīng):安全微控制器。這些新設(shè)備大多數(shù)都基于DMR原理,但有一些額外的變化。兩個處理器內(nèi)核運(yùn)行相同的程序,但是一個或多個時鐘周期彼此不同步(圖3)。為了錯誤檢測的目的,重新調(diào)整了輸出。

兩個處理器之間的固定延遲確保了不會同時檢測到同時影響兩個內(nèi)核的某些瞬態(tài)情況。據(jù)說這些內(nèi)核在“ Lockstep ”中運(yùn)行。包括更多的冗余以處理翻轉(zhuǎn)的存儲位(糾錯碼或ECC邏輯)和通信通道上的翻轉(zhuǎn)位(循環(huán)冗余碼或CRC檢查)。然后是內(nèi)置自測(BIST)邏輯,只要檢測到核心數(shù)據(jù)不匹配,就會激活該邏輯。如果沒有發(fā)現(xiàn)硬故障,則可以通過完全重置來實現(xiàn)瞬態(tài)故障恢復(fù)。不僅如此:該芯片的布局可最大程度地減少兩個內(nèi)核共有的錯誤。圖3顯示了德州儀器為其Hercules TMS570系列產(chǎn)品采取的一些措施。這些措施包括將兩個內(nèi)核相互之間以90°的最小間距布置為100μm。
其他鎖步安全微控制器的示例包括Infineon的AURIX,STMicro的SPC5和NXP的S32S24。
人工智能和冗余系統(tǒng)
處理器冗余可能在克服安全關(guān)鍵系統(tǒng)中采用AI的主要障礙方面很有用。問題在于,除非非常仔細(xì)地選擇“教學(xué)”圖像,否則用于對象識別的深度學(xué)習(xí)會受到無意間的偏見。您可以想象這會導(dǎo)致無人駕駛汽車的視覺系統(tǒng)犯下災(zāi)難性錯誤。一種可能的解決方案是使用三重系統(tǒng),其中,汽車上運(yùn)行的每個“推理引擎”都使用從不同圖像集創(chuàng)建的不同數(shù)據(jù)集來工作。很有可能至少有兩個處理器可以同時正確處理它!
滿圈
這些鎖步設(shè)備可以檢測到瞬時核心故障,進(jìn)行測試并完全重置后,將處理器恢復(fù)到完全運(yùn)行狀態(tài)。如果您需要像Saturn V火箭計算機(jī)這樣的完全容錯功能,那么多虧了歐洲航天局,您就可以擁有它。他們創(chuàng)立了LEON系列容錯內(nèi)核,這些內(nèi)核可以處理大多數(shù)單事件翻轉(zhuǎn)(由于宇宙粒子的撞擊而不會中斷服務(wù))。
冗余(應(yīng))保存生活
最近發(fā)生的埃塞俄比亞航空公司EA302航班墜機(jī)事件涉及最新版本的波音737客機(jī),突顯了設(shè)計上的微小變化會導(dǎo)致災(zāi)難。所有現(xiàn)代客機(jī)均具有廣泛的冗余安全系統(tǒng),通常以座艙中“重復(fù)的”飛行員為基礎(chǔ)。復(fù)制的飛行傳感器為復(fù)制的飛行控制計算機(jī)提供數(shù)據(jù),并顯示在駕駛艙的每一側(cè)。計算機(jī)之間會進(jìn)行交叉核對,以確認(rèn)有效的傳感器數(shù)據(jù),并作為最后的備份,飛行員可以俯身比較彼此的讀數(shù)。新型737 Max的問題在于,增加了一個稱為MCAS的附加系統(tǒng),以在起飛過程中施加全部發(fā)動機(jī)功率時,對可能的失速情況提供附加警告。鼻子趨于“后仰”,就像摩托車表演“助步車”一樣。 737 Max需要此預(yù)警系統(tǒng),因為其更大的發(fā)動機(jī)安裝在更高的位置并向前行駛會對原始設(shè)計的空氣動力學(xué)產(chǎn)生負(fù)面影響。
新的預(yù)警系統(tǒng)僅監(jiān)視兩個攻擊角之一( AOA)傳感器–鑒于其古老的機(jī)械“風(fēng)向標(biāo)”格式,這種錯誤是不可靠的。在航班302上,被監(jiān)視的AOA突然以新MCAS系統(tǒng)只能解釋為猛烈的鼻子俯仰的角度卡住。如果連接了另一個冗余AOA,將發(fā)出AOA異議警告,然后飛行員可以禁用MCAS。確實,一個經(jīng)過適當(dāng)設(shè)計的冗余系統(tǒng)也可以使用皮托管傳感器和加速度計中的信息作為健全性檢查。由于沒有冗余,故障傳感器使MCAS認(rèn)為即將發(fā)生失速,并將飛行員的控制柱向右推。另一個致命的設(shè)計缺陷是假定任何失速情況都是由于飛行員錯誤造成的:MCAS迫使操縱桿向前,而飛行員沒有力量將其拉回。制造商可能已提出AOA異議警告-作為“可選附加項”。在這種情況下,更多的機(jī)器冗余可能節(jié)省了一天的時間。讓人類飛行員有效地“冗余”會導(dǎo)致災(zāi)難。
-
冗余
+關(guān)注
關(guān)注
1文章
113瀏覽量
21021 -
三模冗余
+關(guān)注
關(guān)注
1文章
5瀏覽量
11351 -
華強(qiáng)PCB
+關(guān)注
關(guān)注
8文章
1831瀏覽量
29094
發(fā)布評論請先 登錄
提高模塊化UPS可靠性的方法
verilog設(shè)計冗余插入模塊
基于Artix-7的安徽四核同步模塊化大時代冗余系統(tǒng)可靠嗎
模塊化UPS的技術(shù)選擇詳解
什么是模塊化編程?模塊化編程的注意事項
及時電模塊化的功能特點 及時電的軟件技術(shù)
串行RapidIO提升模塊化基站設(shè)計
艾默生推出冗余模塊化整合供電系統(tǒng)
模塊化電源有什么優(yōu)勢
通信行業(yè)對模塊化UPS有哪些技術(shù)要求
軟冗余與硬冗余
模塊化電力逆變器的技術(shù)特性

什么是冗余?講解雙重模塊化冗余(DMR)或三次模塊化冗余(TMR)
評論