【工程師培訓】工程師可靠性設計基礎---------理解與可靠

專注於

機械行業、專業、職業

資訊分享

服務於製造業百萬工程師

可靠性設計基礎(一)--理解可靠性

一、理解與可靠性定義

我們總是會說:某某公司的東西“好用”;某某公司的產品“質量好”;我也會經常抱怨某某系統“不穩定”;某某公司的產品“不可靠”;某產品或者部件 “容易壞” ;某某品牌的東西“保養麻煩”。這些問題使用者或者管理人員一般都會把他們簡單歸集為“質量問題”、 “可靠性問題”或者“隱含需求”。但是嚴格追溯起來,這些問題其實往往屬於好幾個不同型別的問題。技術人員有必須先科學的對問題分類,才能在問題發生的階段去專題解決問題。

與可靠性相關的概念有以下幾個:

01可靠性

可靠性只指產品在規定條件下和規定時間區間內完成功能的能力。這是國家標準中給出的定義。標準的作用是用來衡量一個產品的好壞。那麼怎麼如何評價一個產品可靠性的好壞呢?這就需要對這個定義進行度量。

一般來說“

規定條件下

”是恆定不變且長期保持的,是不具備度量條件的。首先一個產品的“

功能

”基本完整才可能被視為可用的產品,也不具備度量條件。因此可度量的就只剩下“

時間

”和“

能力

“。而能力是個很寬泛的概念,比較通行的度量的能力的辦法就是”機率“。因此這個定義可以近似等效為:

“在固定條件下和規定時間區間內保持功能完好的機率”

或者”

在固定條件下所有產品平均保持功能完好所持續的時間

(失效機率為50%)

“。

這就引出了衡量可靠性的兩個引數:

失效機率

“和”

平均無故障時間

“。且這兩個引數是互為相反數。值得注意的是,如果“

規定條件

”發生變化,是允許可靠性下降的,但下降的趨勢也是可靠性設計的需要關注指標。

本文主要講可靠性,這些概念後面還會被多次用到。

02可用性

我們經常會聽到客戶抱怨你的裝置不穩定、不好用、不方便等等。使用者最終會抱怨是裝置不可靠,不穩定。其實準確的說這些都是可用性問題。

可用性的定義是:在要求的外部資源得到保證的前提下,產品在規定的條件下和規定的時刻或時間區間內處於可執行規定功能狀態的能力。它是產品可靠性、維修性和維修保障性的綜合反映。因此可用性是包含了可靠性的。

可用性與可靠性的關聯在於都必須考慮裝置的應用環境。但是可靠性更關注的是在這個環境中能用多久(用機率表現的時間),而可用性則反應的是能不能用?能不能用好?以及能不能達到使用者的期望?可用性需要考慮客戶在合理的使用條件下能完全正常的工作。比如膝上型電腦,顯然是可能被使用者帶出國,那麼膝上型電腦在不同國家的電網的額定電壓條件下能否正常工作就是一個重要的可用性指標;臺式電腦基本就不需要考慮這種問題。埋在地下的電纜,顯然有必要考慮被老鼠啃食的問題。這些都是可用性問題。而可靠性一般只用考慮額定條件下的使用時間,兼顧非正常條件下的降效指標即可。

比如說某個裝置的操作員突然由一個男士變成一個女士,裝置由於沒有考慮到操作員的身高和力量的差異,導致女士操作的頻次比男士低很多,而引起系統的執行效率下降,我們可以據此就認為裝置的可用性不好。但是由於女士操作的頻次下降卻很可能使裝置的可靠性提高了。

再舉個例子,某個產品標稱值為額定電壓12,輸入電壓範圍為10V~15V,平均無故障時間(MTBF)為3000小時。那麼它隱含的意義是期望在12V條件下工作3000小時,其失效機率低於50%(估算值)。並沒有保證客戶在輸入15V條件下也能持續工作3000小時。當然這個引數在實際中也不會差距太大(主要與產品壽命分佈有關)。但如果產品提供者和使用者沒有就這個問題溝通清楚的話,會給雙方都帶來很大的困擾。這就不再是可靠性問題而變成一個可用性的問題了:“使用者實際需要的供電模式是什麼?”

03安全性

很顯然,在相同條件下更可靠的裝置也更安全。但是安全性與可靠性依然是兩個不同的概念,有時候甚至是矛盾的。舉例來說:核電站的要求的失效機率達到10-8~10-9以上(SIL5級)。這樣的標準要求如果換算成MTBF,沒有任何一個電子裝置有可能達到這樣的指標。但透過多個電子裝置的並聯、冗餘、監視、保護等措施達到這一標準卻是可能的。而新增加的這些保護、冗餘等裝置事實上會降低整個核電站的平均無故障時間。

為了解決安全性與可靠性的矛盾,許多應用場景會定義不同等級條件下的可靠性指標。比如地鐵車輛的規定:發生A類故障(人身安全事故)的MTBF大於1百萬小時、發生B類故障(停止運營)的MTBF大於10萬小時;發生C類故障(更換維修)的MTBF大於1萬小時。

04可維護性

從“1。1可靠性指標的定義”節內容可以看到,透過合理設計“可維修的部件”可以有效提高系統壽命(注意與MTBF的區別)。但是對於使用者而言任何更換維護都意味著成本,即使是免費更換也要佔用使用者的時間成本。維護成本是裝置全生命週期成本(LCC)的重要組成部分。因此在設計時應儘可能少的設計“可維修的部件”,迫不得已必須設計的也要儘可能的方便維護,使維護的時間和花費降低到最小。

二、理解可靠性指標

在可靠性設計時經常會涉及兩個關鍵性的概念,平均無故障時間(MTBF)和壽命。

裝置平均無故障時間(MTBF)是指“可修復產品“在相鄰兩次故障之間工作時間的數學期望值。對於這個定義有幾點值得推敲:

a、雖然這個指標定義是一個統計值,是衡量整個裝置總體效能的,理論上說在系統設計時需要對裝置的各個部分進行可靠性指標分解,即所有的單個部件的失效機率應該比整機的失效機率低很多才能保證整機的失效機率大於需求的指標。但是在實際設計中由於“短板效應”的存在,絕大多數電子裝置的平均無故障時間(MTBF)都是由於裝置中壽命最短的那幾個部件所決定的。

b、對於不修復產品,其產品壽命就等於裝置平均無故障時間。

c、對於“可修復產品”,其產品壽命由其不可修復的部件的最短壽命決定其裝置壽命。

再進一步引申:改善一個產品MTBF指標的關鍵點就在於提高裝置部件壽命的瓶頸。而改善一個產品壽命指標的關鍵是將某些壽命瓶頸部件變成“可維修的部件”。舉例來說:對於一輛汽車而言,如果以整車來看其平均無故障時間(無故障里程)是超過15000公里或者12個月,這顯然是由機油這個部件的壽命來決定的。但是因為執行更換機油、更換剎車、皮帶等保養措施的存在,一輛車的設計壽命可以達到20年;電腦的顯示屏和硬碟的MTBF顯然是低於其他部件的,因此電腦銷售時這兩個部件的質保期也經常會單列。

比如在鐳射加工裝置中,光源顯然是屬於整機的壽命瓶頸,設計時就需要將其設計為“可修復單元”。因此需要為其設計為方便的維修方式,如果更換一個光源需要把整個鐳射加工生產線都拆了,這樣造成的長時間停工是很難讓使用者接受的。對於公司售後維護來說也將是沉重的負擔和風險。

當然也有反向的例子,手機電池是手機的壽命瓶頸,因此手機發明之初都是將其設計為“可修復單元”。但是隨著電池壽命的提高,同時很多廠家為了提高手機更換頻次的商業目的,現在更換手機電池已經非專業人士不可了,基本可以被認定為“不可修復單元”了。這其實是降低了手機的整機壽命。

本文以電子設計為主要物件,而電子器件很多都是焊接在板卡上,一般很難更換,這裡就不再考慮更換和維修這一條件,因此本文後續的壽命就等同於平均故障時間,不再仔細區分這兩個概念了。

三、可靠性指標的運用

絕大多數裝置銷售都有質保期的規定的,質保期怎麼定往往由行業標準、市場策略、銷售模式、銷售價格、成本利潤控制等多方面因素共同決定的。但是不管怎麼定質保期是絕對不能超過裝置平均無故障時間的。超過這個時間就意味著很多裝置沒有過質保期就已經不能正常工作了,這時使用者如果要求退換、維修、甚至賠償的話裝置供應商就不可能盈利。

標稱MTBF時間一般以小時計算。而質保期一般按年計算。這就存在一個對應關係。這個關係不是簡單的365*24的關係。因為只有很極端的裝置才會完全工作在這種全年無休的情況。而且即使是這樣的裝置,也不會處在滿功率、滿負荷並且極惡劣的工況下工作。因此其計算也不必如此保守。一般而言可以分為以下幾個種類:

一般來說醫療裝置,參照高頻民用裝置標準即可。

軍品一般來說沒有明確的使用時間要求。但是要求在標稱的使用時間內超低故障率。因此一般而言軍品會提高一個標準設計。比如說需求為3000小時的,一般會非硬約束(比如材料特性約束)部分的設計標準至少都要達到5000小時以上。因此我們一般會感覺軍品的質量更高。

但是我確實曾經見到過銷售的裝置標稱MTBF是3000小時,但是銷售商承諾的免費質保期確是三年的情況。這種情況很多時候是銷售人員基於市場壓力做出來了一種商業策略。這是一種很不嚴謹的態度,是很難人信服的。

你可能會有疑問,家裡的電器標準只有1年,但是我家裡卻用了很多年了也沒有壞啊?怎麼感覺這個值和理論值差異這麼大呢?這有以下幾個原因:

1、絕大多數人的使用頻次其實沒有理論那麼高。以電視為例,計算時是以3000小時為1年計算的,但實際上你需要每天看8個小時以上的電視才能達到一年3000小時,很多人連一半的時間都達不到。

2、即使是讓電器裝置執行著,很多時候電器也並沒有全功率執行。例如很多人的手機會24小時開機,但是絕對不會有人24小時都在連續打電話。

3、裝置執行環境更優。隨著生活條件的改善,現在的人已經很難想象誰會在35度以上的高溫環境下長時間看電視了。即使看也很有可能開著空調、開著風扇。同時國家電網的改進、防雷措施的升級等,都會大大提高裝置的使用壽命(環境因素對裝置壽命的影響詳細見本文後半部分的內容)。

4、公司採用了更高的設計標準。對於工廠而言每年1%的故障率並不算太高,但是對於客戶而言就是100%了,1%的故障率同時意味著每售出10萬臺的裝置就要面對上千人次投訴,當有競爭對手的更有的效能進行對比後,就會發酵為非常惡劣質量事故。因此為了降低客戶投訴和與對手競爭的需要,很多廠家不得不提高設計標準。

5、多數的家用電器設計使用在廣大的範圍內銷售的,因此設計人員會按最為惡劣的方式進行計算(也有可能是多年教訓的積累)。比如你不可能讓一臺冰箱在東北能用一年而到了廣東就只能用三個月,也不可能讓電視機在室內能用三年在室外就只能用一個月。因此設計人員只能按照最惡劣的條件進行設計,這無形中又提高了設計標準。

6、裝置的區域性效能的改進。一個新設計的電子裝置的推出後不久往往很快就會在使用者反映出很多設計不足的問題。由於“二八效應”和“短板效應”的存在,裝置的問題經常會集中在兩三個點上,因此廠家往往會針對性的對其做出改進並應用於後續機型上。同時由於技術的進步很多部件的質量也是再緩慢提高的,因此後續機型的質量往往會優於前面的機型。但是再沒有國家標準或者市場因素推動時,廠家一般也不會再重新投入成本做可靠性檢測和認證,所以指標還是沿用以前的。

7、銷售策略。很多廠家提供一個國家標準要求的最低質保期限,客戶如果要求延長質保期就要額外收費了,但是從經濟性上來說廠家很少會為延長質保的客戶提供差異化的機型。

當然裝置壽命也不是越長越好,除了更高的設計指標意味著更高的成本外,更高的壽命會降低使用者更新換代的頻次,甚至會降低使用者的使用體驗。以手機為例,由於“安迪-比爾定律”的存在軟體技術會不斷升級換代,因此手機的硬體儲存資源和處理能力很快就會顯得不足。因此使用者一般都會在兩三年內更換手機,否則新的軟體應用就會體驗很差。這就意味著如果手機廠家把硬體的壽命設計的很長,除了增加自己的成本外還會莫名其妙的背上效能差的惡名。所以現在手機的設計壽命都不超過2年。

可靠性設計基礎(二)--失效與可靠性改進

一、理解裝置失效

電子器件的失效本質上是器件內外部的電子運動、化學、機械等作用破壞了器件內部的結構。因此從長期看電子器件都是會失效的,且失效機率大致符合量子技術的分佈特點:隨時間成指數分佈的關係。如果對失效的統計規律進行細分的話,還能將其分早期失效、偶然失效期和損耗失效期為三個階段,見下圖:

【工程師培訓】工程師可靠性設計基礎---------理解與可靠

早期失效的原因主要是生產過程中引起的器件結構差異,可以透過一定的應力篩選辦法可以將這部分器件篩選出來。第二階段是器件的主要工作的時期,失效率基本處於平穩的狀態,失效主要由偶然因素所造成。可以近似認為失效機率處在一個定值。到了第三階段器件進入損失失效期後,失效率迅速上升,這就是產品的壽命“終了”。

那麼既然失效是運動破壞了器件結構。反過來說要降低電子器件的失效率的辦法也就來自三個方面:

降低電子運動的能量;提高器件結構的強度;透過外部手段保護器件結構

降低電子運動的能量;包括降低自身裝置的電子應力和降低外部干擾電子應力兩個部分的內容。降低自身裝置的電子應力主要手段是降低不必要的如訊號線的電流;降低功率器件的功耗;增加濾波電路和紋波吸收電路;降低系統功耗等措施;降低外部干擾電子應力則可以透過隔離、遮蔽、濾波等措施實現。

提高器件結構的強度,簡單的理解就是選用標準更高的器件,能耐105℃的器件顯然就比能耐70℃的器件更穩固,在相同條件下其壽命也會更高。同理,同等條件下25V耐壓的電容顯然比16V耐壓的電容的壽命長;更高額定電流的器件也就比低額定電流的器件更耐用。用一個更通用的詞彙來說就是

降額設計

保護器件結構不受損壞的方法主要在外部。很顯然在高溫、腐蝕性、潮溼、鹽霧、震動的等環境下執行的器件結構更加容易受到損壞。那麼對這些因素進行防護也是有效的提高可靠性的方法。手段有刷三防漆、加遮蔽罩、減震器、溫控器等。

值得注意的是,電子器件的失效模式不可忽略。首先必須對器件失效或者效能降低後會產生什麼樣的後果,如果裝置失效後產生的是包括起火、爆炸、觸底在內的人身安全事故這就完全不可接受。典型的如:鉭電容的失效就經常伴隨短路和起火,這就需要為其單獨考慮防護措施,比如保險等。另一個方面很多電子器件的失效模式是指標的下降,這個過程會伴隨裝置的整個使用過程連續發生,那麼在電子器件指標的下降到不能容忍前,都可以認為裝置是正常的。比較典型的是電解電容。這樣的器件就必須預留較大的設計餘量以滿足其工作壽命的要求。

【工程師培訓】工程師可靠性設計基礎---------理解與可靠

二、一些能改善可靠性的設計技巧

如果不考慮外部的機械、化學損壞的話,所有提高可靠性設計的手段總計起來就一句話:“降低系統的相對電應力”。以下介紹一些比較簡單但是對改善可靠性非常有效的技術手段。

01 識別並改善壽命瓶頸

如前面所說,雖然理論上說做可靠性設計需要做可靠性指標的分解與計算。但是由於短板效應的存在,少數幾個壽命短板往往就直接決定了系統的最終壽命,只需要能識別出一些可靠性上面的短板並針對性的做出改進,系統壽命就能得到質的改善。

識別壽命瓶頸其實並不太難,大致有以下幾種方法:

一些常見的短板。包括電源、風扇、功率開關、機械開關、高頻工作的機械式繼電器等常常就是壽命的短板。因此對這些部分自然就是可靠性設計的重點。

高應力、高功率部件;比如開關電源中的IGBT、MOS管、電源。無線系統中的功放。

高發熱部件。自身溫升超過60度的器件都值得警惕。

設計餘量較小的部件;比如耐壓25V的器件用在24V的環境上,額定功率1W的器件實際功耗0。9W等等。

工作在惡劣環境中的部件;工作在振動、高溫、潮溼環境中的部件應作重點保護和處理。必要時做更大的降額設計。

在識別出壽命的短板後,針對性的改用可靠性更高的或者容量更大的器件。短板問題就能得到巨大的提高。

02提高應力標準

絕大多數器件廠家都會給出一個標稱值或者額定值。這個標稱值和額定值背後其實隱藏著一個關鍵資訊,即在這個額定值條件下能連續工作多長時間。舉例來說,如某個電容的標稱值是10uF-16V-70℃。其含義包含了在16V、70℃的條件下電容能連續工作1000小時。考慮到實際應用中還可能存在紋波、系統自身發熱等因素,實際壽命其實遠遠低於1000小時。這就必須要做降額設計了。

考慮到通常來說系統額定電源每下降10%壽命會延長約一個數量級;工作溫度每下降10℃壽命也會延長約一個數量級(不同型別、不同結構器件的壽命曲線引數有所不同)。那麼以電容為例對於一個期望在40℃環境下能連續工作10000小時以上的裝置而言,考慮上系統自身發熱,電源紋波、開關過充等影響。額定電壓至少應降額30%以上,額定工作溫度最好選擇105℃以上的。

03改善使用環境

“3。1 識別並改善壽命瓶頸”提到使用風扇會大大降低系統整體的壽命。但因為風扇的使用會改善發熱部件的區域性溫升,從而大大提高發熱部件的壽命。當然這只是散熱的其中一種手段。其它的諸如:降低功耗、提高散熱面積、改用新的散熱方式、降低熱阻等手段都能起到對關鍵器件的保護作用。

同理做好抗振/減振措施、加上三防塗覆、增加遮蔽、對電源加強濾波洩放等措施也都能針對性的改善裝置執行環境,並針有效改善裝置的可靠性。

04有效的隔離

隔離的目的就是讓系統儘可能的脫離外部複雜的執行環境,讓裝置儘可能的在更加安全、穩定中的環境中執行。嚴格來說隔離措施是“3。3節改善使用環境”的其中一種手段,但由於其效果很好且很容易被忽略在這裡單獨提出來說。隔離包括三個層次上的隔離:

電氣隔離;及透過變壓器、光耦等隔離器件把獨立模組與其它功能模組的電氣連線關係完全打斷。確保即使在外部模組完全損壞的情況下不會對內部模組的功能、效能造成大的影響。值得注意的是一旦選擇了電氣隔離的方案往往就意味著電源、訊號、通訊等所有環節都要隔離。

功能隔離;即採用磁珠、電感、濾波、去耦網路、觸發器甚至簡單的保險絲、二極體等器件,將某些具有獨立的電氣特性的區間單獨劃分出來的隔離方式。

間距隔離或遮蔽;透過把不同功能,不同特性的電氣模組拉開一定的物理間距,甚至增加遮蔽的方式實現隔離。

從改善可靠性的效果看,電氣隔離>功能隔離>間距隔離或遮蔽。但不管採用那種方式的隔離,總的來說隔離都有利於降低因為外部原因引起的電應力,從而提高系統可靠性。隔離還能同時提升系統EMC效能,安全性等效能。但隔離往往也意味著系統複雜性和成本的增加。

05降低失效影響

裝置賣出後就要在使用者的環境中執行。很難保證使用者的環境真的就如工程師所獲得的設計輸入那樣。很多時候符合技術標準的裝置到使用者那裡就會出現各種各樣奇葩的問題,舉個例子來說:你很難要求使用者不在你的裝置旁邊放一個大功率電機;也很難保證在野外環境下能得到50Hz頻率穩定的交流電。這些看似不起眼的小變化其實都會加速裝置的損耗。

不過有一個好訊息是這對於所有供應商來說都是公平的。換句話說如果我們的裝置在這種環境中很快就會壞,我的競爭對手也一樣。那麼如何讓我的裝置能相對的好一點,對於使用者來說其體驗就會大大改善。產品的口碑就會很好。再比如同樣是故障,但我們的故障只是停機而競爭對手的就是爆炸、起火,那樣的差距也不是能同日而語的。除了少數大型公司外,很少有公司在技術規範中有對失效模式進行細緻的要求,所以許多工程師並不注重這些降低失效影響的設計。但是這些環節卻經常最終表現為使用者的口碑、公司的核心競爭力、甚至很多公司因為一兩次重大事故而被行業封殺的案例也是時有發生的。

比如:安規設計一定要使用安規電容,因為安規電容的失效模式能確保為短路;減少在電源處使用TVS,因為TVS的失效模式會造成短路;減少鉭電容的使用,因為其失效模式為短路,且容易傳送燃燒。

另外增加一些失效保護模組(比如保險絲、變壓器),也是控制裝置失效模式的有效手段。

06對被動器件適量的過設計

紋波對電路壽命的影響是非常巨大的。這是因為電子元件的壽命根據其所有應力的增大呈指數被的減小。包括電容、電感、電阻等在內的濾波器件能顯著改善系統的紋波,這對提高其附近電路的壽命作用很大。適當的提高這些部件引數來控制紋波從長期看也是很有價值的。

如果進一步研究還會發現某些器件,特別是無源器件的失效模式很多是規格引數的改變。比較典型是電解電容,由於其電解液的揮發,長期看電解電容值是在下降的。而很多電解電容在電路中都是起到支撐電容的作用。但電容值下降後,電路的紋波就會不斷的增加。這會進一步惡化電路可靠性。因此在做電源設計時,需要在計算控制的紋波標準的基礎上將電容的引數再擴大至少半個數量級。

07設計可替換的保護模組

對於一些發生原因來自外部,發生機率隨機的問題,在原理設計層面直接解決這些問題往往非常困難。理論上說我們可以把鍋甩給客戶,指責是使用者使用不當導致的問題。但這樣對使用者體驗也不好。

一個比較有效的方式就是設計一個能夠被替換的保護模組。但問題來的時候讓保護模組先行損壞,進而避免或者減弱對主要功能模組的損壞。比如:在多用電系統電路中增加保險或者斷路器;在容易遭到雷擊的地方增加洩放回路。

在我們生活中也有這樣的案例,比如手機碎屏這個問題就是典型的:發生機率隨機,發生原因多樣且難以控制的問題。我們針對這樣的問題最簡單的解決辦法就是貼保護膜,膜是可替換的,碎了可以隨時更換。由於保護了屏這個易損件,站在使用者層面看手機的壽命就得到很大的改善。

值得一提的是,手機的膜還是一個讓使用者付費的消耗品,且利潤極高,其利潤率比手機高出很多,甚至孕育出了一個產業。因此即使拋開技術,站在商業層面看也是一個非常成功的案例。

可靠性設計基礎(三)--可靠性估計與可靠性設計體系

一、可靠性估計的意義

01可靠性估計的意義

絕大多數從學校培養出來的工程師是沒有可靠性設計理念的。他們大多數都把可靠性視為完全靠測試的效能指標。而真到了測試階段發現了問題,往往可靠性這種非功能指標的改進又會面臨來自技術上和管理上的雙重困難。某種程度上說這是把可靠性視為玄學,要靠祈禱才能達成的指標了。

現在絕大多數公司都認識到了要把可靠性設計提前,要放到系統設計甚至需求階段去考慮了,但是真到了工程師執行層面卻往往一頭霧水,除了提出兩個似是而非的可靠性指標外,工程師們甚至不知道可靠性設計要幹什麼。這很可能就是缺失了可靠性估計這個環節。

可靠性估計的目的就是在系統設計階段:1、識別系統的短板,進而及時的改進系統設計或者為後續設計識別風險;2、將可靠性指標分解到各個模組,確保各模組整合後整機能符合整機指標要求

做可靠性估計有以下幾個好處

1、儘早識別風險,儘早改進。

2、為搭建可靠性設計體系創造條件。事後的測試雖然也能改進可靠性,但是過度的依賴測試永遠也不可能建立起一套有效的,持續性的、穩定的可靠性設計體系。而可靠性估計是可靠性設計的最前端。有了這一環節,整個體系的建立才可能閉環。

3、一些區域性的可靠性指標改進能解決某一個特定使用者的重大“痛點”。在別的公司不能實現前,這會成為產品推廣時的“亮點”和“賣點”。

4、符合一些行業標準和體系認證的要求(軍工行業、軌道交通行業)。

02簡單的可靠性估計方法

下面介紹一些簡便且常用的可靠性估計方法,雖然運用這些方法做出的計算並不精確,但一般來說估算結果不會存在數量級的差異。用來指導系統級的設計時由於其操作簡單,還是很有實用價值的。若要進行精確的可靠性估計計算,建議按照《GJB Z 299B 電子裝置可靠性預計手冊》進行。

風扇的壽命按5000小時估計,高品質的風扇壽命按不超過10000小時估計。

外購模組電源壽命取以輸出功率和工作溫度的小值。以1000小時為基礎。每降額20%,壽命增加10倍;工作溫度(表面溫度)每下降10℃壽命增加一個數量級;增加散熱器壽命增加一個數量級、增加風扇壽命增加2倍。

溫度與敏感相關的元件。工作溫度每下降10℃,元件壽命增加一個數量級;

非功率部分的電壓敏感元件。其工作環境的電壓紋波每增加5%,壽命下降一個數量級。

非功率部分的電壓敏感元件。額定電壓每下降10%,壽命提高一個數量級。

非功率部分的電流敏感元件,額定電流每下降10%,壽命提高一個數量級。但考慮到電流過載情況經常比較多,計算基數應將兩個數量級開始計算(做了過載理論設計的可以忽略這一項)。

功率器件(如開關電源上的IGBT和Mos管),電壓和電流按每下降30%,壽命提高一個數量級。如果增加了紋波吸收電路,可以將估計值減少到電壓和電流按每下降20%,壽命提高一個數量級計算。

每降額電阻工作溫度低於70℃時,可以忽略其壽命影響。

積體電路工作溫度低於其節溫50℃時,可以忽略其壽命影響。

裝置溫升可以按經驗公式計算器件溫升。溫升加上最高標稱工作環境溫度為裝置表面最高溫度。積體電路裝置表面最高溫度應比標稱最高溫度至少低10C℃時。

壽命計算環溫可以按照20℃計算,但裝置的最高額定工作溫度必須滿足連續1000小時以上。

計算時建議再與設計標準間保留半個數量級的設計餘量。

二、建立可靠性設計體系

可靠性設計僅技術層面就要包括:可靠性分解、可靠性計算、電子材料特性、電子電路知識、EMC、失效分析等環節。完善的可靠性體系還需要在公司層面搭建包括:可靠性標準、可靠性設計平臺、可靠性試驗環境、可靠性統計分析等完善的支撐體系。對於一些批次不大的裝置,對其做完整的可靠性驗證,其成本也是不可接受的。可靠性設計體系這個門檻實在太高,一般的小公司根本建設不起這樣的體系。

這裡介紹一些投入成本低、費效比很高、很實用、適合中小公司的一些可靠性體系相關的做法。

01 建立技術平臺

與可靠性相關的技術平臺至少應包括四方面的內容:

1、案例庫;2、設計指導意見;3、有效的技術審查;4、持續更新技術平臺的機制;

其中案例庫和設計指導意見至少應包括以下一些設計要點:

常用的設計指標要求(內部設計標準);

禁用、限制使用材料清單;

降額設計指導意見;

熱設計指導意見;

重點器件選擇、使用指導意見;

推薦設計案例庫(必須經過批次、長期驗證);

失敗裝置/器件失效案例庫;

將以上內容整理為硬體設計checklist,保證系統總體設計、硬體設計及系統整合測試前後都對上述標準進行審查。確保這些內容能夠落地。

當然,沒有哪個公司能夠一開始就建立出完善的可靠性設計平臺。平臺中的很多內容都需要長期的時間進行積累和總結。因此逐步完善更新技術平臺是逐步積累公司核心競爭力的重要部分。

02建立內部可靠性計算標準

前面說了,要建立一套完整的可靠性計算標準,必須嚴格依照《GJB Z 299B 電子裝置可靠性預計手冊》進行分解、計算。但這樣的過程實在費效比很低,同時要讓每一個設計人員都掌握這個計算方法也是很難的。而不同的工程師對標準的理解和應用不同帶來的設計差異反到會對公司產品的一致性產生不利影響。一個比較好的做法是由公司一兩個工程師將標準消化,形成一個基於excel表格可靠性壽命計算標準。這個標準把公司內部常用器件按大類和小類進行分類總結。根據我們的經驗看,對一個產品種類比較多的中小公司而言,有計算價值的元件不超過10來個大類50個小類。以下是表格的區域性範例(以下資料僅供參考):

由於經過消化後的大量的計算規則都是忽略或者成為一個保守值,計算工作量將大大減少。將上述器件排除掉後,剩餘的影響裝置壽命瓶頸的元件就非常少了。剩餘的可以參照“一些可供參考的可靠性估計方法”。如果還不能完成估計,則再去查詢GJB Z 299B進行計算難道將大大降低。將可靠性設計的問題聚焦到幾個關鍵部件上。

03增加應力測試

很多公司的產品面向消費應用,其工作環境非常良好,比如設計工作溫度為0~40℃。這樣的設計標準其實是很低的。達到這樣的設計標準的產品顯然是合格的產品。因此很多公司就很少在進一步向上做測試了。但這樣的測試其實是很有必要的。

其實依據可靠性試驗的一個基本原理,按溫度每提高10℃,壽命下降一個數量級估算。我們有理由相信能在70℃高溫箱裡工作2個小時的裝置,就能在60℃環境裡工作20個小時以上,40℃環境裡工作2000個小時以上,20℃環境裡工作200000個小時以上。雖然這樣的估計不能完全準確,但對於一個想設計出高可靠產品的廠家而言,其產品在高溫箱裡走過一圈後,相信無論技術人員、市場人員、還是管理人員都會對自己的產品更有底氣。

04產品出廠前的老化篩選

在第二章中展示的浴盆曲線中的第一階段早期失效的失效機率是很高的,且存在隨工作時間增加而快速下降的趨勢。去掉這部分的失效機率最直接最有效的方法就是在產品出廠前進行老化篩選。即讓產品在接近最大工作問題條件下(一般是最高工作問題向下降5~10度)連續工作24~48小時。讓產品在交付使用者的時候就直接跳過“早期失效區”,進入“偶然失效區”。這樣站在使用者層面看,產品的絕對失效機率就大幅度下降了。

現在工業品、軍品都會在產品標準中明確系統出廠老化篩選要求。當然增加這樣的篩選會一定程度的增加生產成本和材料成本(主要是損耗維修),因此需要廠家綜合考慮。

05關注設計瓶頸,長期堅持低瓶頸方案設計

前面已經提到一些關鍵性的設計瓶頸經常就會制約產品可靠性指標。如果公司制定相關的設計標準或者以不成文的規定限制設計人員採用一些低壽命模組。短期看這樣會束縛設計人員的手腳,影響開發進度,甚至增加產品成本。這些限制經常不得不進行系統方案級別的修改。但從長期看收益頗多。很多時候設計人員為了規避性的設計約束,不得不的深扣技術細節,從原理上進行創新,進而能形成許多具有高度獨創性的和針對性的專利技術。長期堅持好的技術習慣、好的設計標準的最終形成的就是這個公司獨特的行業標籤,是公司商業品牌的重要組成部分。

在這方面最優秀的案例是蘋果公司。從蘋果誕生那天起,喬布斯非常就痛恨風扇和線纜,他近乎偏執的要求所有產品中堅持無風扇、少線纜、少介面的設計。當然其初衷可能僅僅只是噪聲影響使用者體驗或者線纜太多影響美觀而已。但是正是這份堅持,讓蘋果的產品的使用者體驗長期領先於對手,同時這份堅持為蘋果帶來了歷史上第一款開關電源設計,為蘋果締造了世界上最優異的散熱設計團隊,並讓這個團隊成為蘋果的核心競爭力之一。

06踏踏實實的分析解決現場問題

沒有哪個公司的產品設計出來就沒有任何問題,怎麼應對問題每個公司的做法天差地別。特別當客戶使用發現重大問題,給公司高層施加壓力時,公司從上倒下還能不能保持冷靜本著實事求是的態度來解決問題而不是掩蓋問題就反映的是一個公司司品的時候了。嚴格來說這已經不是管理和技術層面的問題了,而是一種企業文化。具備不放過任何問題,不掩蓋問題,任何問題雙歸零,踏踏實實去定位問題文化的公司才有可能有靠譜的產品。有這樣文化的公司才有可能積累技術。

TAG: 可靠性壽命設計失效裝置