故障容許度(英語:Fault tolerance)也稱容錯、容錯性,是使系統(tǒng)在部分組件(一個或多個)發(fā)生故障時仍能正常運作的能力。
簡介
如果系統(tǒng)的運行質(zhì)量全面降低,降低的幅度與故障程度成正比,相反的,設計時未考慮故障容許度的系統(tǒng),在發(fā)生很小的故障時也可能完全故障。高可用性或生命關(guān)系統(tǒng)中尤為追求容錯。
系統(tǒng)部分故障時維護功能的能力被稱為優(yōu)雅降級、柔性降級 ? 或從容退化(graceful degradation)。
相關(guān)概念
故障容許與極少故障的系統(tǒng)是不同概念。例如,西部電氣交叉開關(guān)系統(tǒng)的失效率為每四十年兩小時,因此具有高度的防故障能力。
但當故障發(fā)生時,它們將完全停止運行,因此并無故障容許。
衡量指標
故障容許度,是指軟件檢測應用程序所運行的軟件或硬件中發(fā)生的錯誤并從錯誤中恢復的能力。
通常可以從以下幾個方面來衡量:
1.系統(tǒng)的可靠性
2.系統(tǒng)的可用性
3.系統(tǒng)的可測性等
可靠性對于火箭發(fā)射之類關(guān)鍵性應用領域來說尤為重要。
而對于通用計算機來說,一個重要的指標就是系統(tǒng)的可用性。
可用性
可用性是指在一年的時間中確保系統(tǒng)不失效的時間比率。
可測性
可測性在容錯系統(tǒng)的設計過程中也是一個非常重要的指標,如果我們無法對某個系統(tǒng)進行測試,又如何能保證它不出問題呢?此外還有 MTBF(故障間的平均時間),即當系統(tǒng)正常運行后能堅持多長時間不失效。
可靠性
MTTR(故障修理的平均時間),即指系統(tǒng)要清除故障所需的時間。MTTR的大小直接影響著系統(tǒng)的可用性,而MTBF則反映了系統(tǒng)的可靠性。
舉例
故障容許度即是Fault Tolerance,確切地說是容故障(Fault),而并非容錯誤(Error)。
例如在雙機容錯系統(tǒng)中,一臺機器出現(xiàn)問題時,另一臺機器可以取而代之,從而保證系統(tǒng)的正常運行。在早期計算機硬件不是特別可靠的情況下,這種情形比較常見。
現(xiàn)在的硬件雖然較之從前穩(wěn)定可靠得多,但是對于那些不允許出錯的系統(tǒng),硬件容錯仍然是十分重要的途徑。
參考資料 >