CPU 為什麼很少會壞?

從兩千年左右接觸計算機到現在似乎沒有聽說過CPU壞掉。

CPU是不是真的很少會壞?

是品控嚴格還是這類產品結構上就不容易損壞?或者其他,求高手指教。


CPU還是會壞的。

雖然層層封裝的保護加上生產工廠的良品控制,CPU很難因為外界原因造成晶元的物理損壞,但是斷針、超頻或雷擊造成電壓過高燒毀、遇水短路等等原因還是會讓CPU變得不可用。

那一直正常使用,CPU是不是就是一個可以永久工作的元器件呢?其實也不是,它也會在使用中損耗,正常使用中也有它自己的壽命。CPU的正常損壞,最主要的原因是電子遷移。現代CPU使用的蝕刻摻雜的原理製作納米級別的門電路,在電子通過其中時,其動量會衝擊電路中的原子,使其中極小的一部分脫離其他原子的制約而開始漂流。雖然這種影響非常細微,但是久而久之就會導致電路變形,發生短路或者短路,漏電和干擾等現象。這時候CPU就會出現異常運算了,其功能受到影響,進而就是報銷。高溫會使原子熱運動加劇,增加被電子打出軌的概率,常溫下,每升高20度,電子遷移的強度就增大一倍。材料也會影響電子遷移,IBM用的銅材料要比Intel的鋁材料更抗遷移。加壓超頻有時候能夠控制下來溫度,但是高電壓也會加劇電子遷移的強度。

不過,由於CPU的工藝和性能不斷提升,往往一塊CPU在壽終正寢之前就已經被換代淘汰了。我也見到過長期在惡劣的高溫環境下7x24小時工作的CPU壽終正寢的情況。老CPU由於工藝比較落後,電路比較粗壯,電子遷移現象還不足以在這麼多年內對其造成致命影響,所以壞的也少。新CPU在工藝上要更加的趨向原子級,但電子遷移還是會被生產商考慮的,所以正常使用也不用太在意這些方面。

希望對您有所幫助。


第一次寫回答。我是一個從事了七年的硬體工程師,在一家做處理器的公司上班做cpu的外圍電路。很難壞,看你拿什麼作對比。對比電腦的其他設備如顯示器,網卡,顯卡,電源,硬碟等,cpu的確很難壞,因為作為電腦中心的cpu,一堆外圍設備擋住了外界對cpu的侵害。例如電子設備很容易損壞的一個原因,靜電,我們專業叫ESD,即觸摸設備外露介面時,有靜電會把連通在上面的晶元打壞。例如,顯示器介面,一般是VGA介面,靜電攻擊時會先到達主板上的顯卡,顯卡打壞了其介面部分,但與cpu相連的數字介面部分卻隔離得比較遠,所以難被打到。網口,USB口,音效卡,等都是先到外圍電路,再到cpu的。其二,還有雷擊浪涌電流攻擊,先到電源,先把電源打壞。其三,硬碟相對容易壞是因為其是機械的,容易物理損壞。所以,你電腦壞了,你拿去電腦城修,通常維修人員都很少會說cpu壞了,而是外圍設備壞了。


我覺得這個問題其實想問的是為什麼其他原件容易壞吧?

上面的答案對於CPU不容易壞已經說的很好了,CPU運行的時候磨損比較低,自然不容易損壞。

再看看其他原件為什麼容易壞。

電容:電容在運行的過程中電解液會蒸發,外殼也會生鏽,長期過熱導致內部壓力過大還會爆漿。

硬碟:硬碟是純物理結構,電機會磨損,更重要的是磁頭可能破壞碟片,物理磨損不可避免。

顯卡:顯卡除了有電容的、風扇的毛病之外,還有虛焊的問題,就是GPU因為熱脹冷縮與PCB脫離導致損壞。

風扇:最大的物理結構,並且還是低成本的,壞掉很正常。

電池:天天化學反應,結果就是化學損壞。

鍵盤:物理磨損太大了。

顯示器:背光燈管是有使用壽命的,每天發光會慢慢破壞他們的內部結構。

你看,CPU既沒有物理磨損,也沒有易燃易爆易蒸發易腐蝕部件,也沒有化學反應,自然就不容易損壞。和CPU差不多的內存也是。很多內存都提供終身保修服務。


謝Rio邀。

說實在的作為一個sales來回答很具體的技術問題我真的不太適合,鄒昌力 已經講的很清楚了。

補充一點銷售的觀點吧:

CPU不是不會壞,而是相比整台電腦的生命周期,它的生命周期要長很多,所以在大家印象中,好像覺得CPU不會壞一樣。根據我那記憶力很不靠譜的大腦回憶,我隱約記得CPU的平均壽命基本至少在10年以上,很少有人會10年不換電腦的吧。。。。。即使像我爸這樣一台Pentium 4電腦用足11年才更換,CPU也沒啥問題(倒是主板電容都爆漿了)。


看你怎麼用了,曾經用Pentium 166 MMX做鑰匙鏈,半個月就磕壞了四個角


CPU不會輕易損壞是有多方面綜合保障的:

  1. CPU在出廠前都做過老化測試,保障CPU拿到手中已經工作在穩定期
  2. CPU有多種方式監控溫度,在溫度太高後會自動切斷電源
  3. 其他

下面我們來看看具體這些方式都是什麼:

CPU在出廠前的質量保證

浴缸曲線模型(Bathtub Curve Model)

和大多數半導體設備一樣,CPU的可靠性我們可以通過失效率來衡量。如果我們以時間為x軸,y軸為失效率。CPU的失效率曲線如下:

失效率曲線

藍色的曲線叫做早期失效期(Infant Mortality),表明CPU在開始使用時,失效率很高,但隨著產品工作時間的增加,失效率迅速降低。它的原因是由於製造和原材料帶來的缺陷。

紅色的直線叫做隨機失效期(Random Failures),它是質量缺陷、材料弱點、環境和使用不當等因素引起的。它是個常數,它在CPU整個生命周期是個常數。

綠色曲線是耗損失效期(Wear-out),它在前期極低,後期開始錯誤後極具提高。是老化失效的原因。

綜合上面三種曲線,綜合失效率是紫色曲線,它呈現兩頭高,中間低的特徵,形狀像個浴缸,我們把它叫做浴缸曲線(Bathtub)模型。CPU在生命周期中的這種特點,表現在開始時故障率很高,如果沒有問題,則可以穩定工作很久,到最後開始老化失效,故障率急劇升高。

Burn-in

許多人看到這裡都會大吃一驚:「什麼,CPU早期失效率這麼高?是不是我剛買的CPU馬上就要壞了?」CPU製造廠商並不希望大規模的退貨發生,畢竟所有CPU至少都有3年的質保期。CPU廠商會封測期間,把CPU放入高溫的環境下洗個澡(heat soaking),並加上高壓。這樣幾個小時就相當於過了好幾周。在把CPU拿出來測試,不好的淘汰掉,好的就可以進入浴缸曲線的底部穩定期,才能出貨。這個工序叫做老化(Burn-in)。如圖:

這樣挑選後CPU直接跳過早期失效期,進入了穩定期。大家的CPU才會有3年質保。

3年之後呢,CPU會降速嗎?

就像超市裡的牛奶寫的保質期3天,實際上5天之後大多數牛奶還是可以喝的一樣。3年質保只是最小值,實際上大部分CPU用上7年以上都是沒有問題的。那麼多年後進入耗損失效期(Wear-out)後CPU會怎麼樣呢?首先,CPU的速度是恆定的,都是一個基頻乘以一個比例(Ratio)出來的。基頻現在Intel CPU一般是100MHz,我們用的3G CPU,Ratio就是30,下來剛好3GHz。而基頻和Ratio在整個生命期是不變的,從而CPU運算速度是不變的。Wear out的後果是出錯而不是降頻,而很多種出錯都會被CPU的錯誤檢測發現並報告或者糾正,詳情請參閱本專欄的另一篇文章計算機硬體出錯了會發生什麼?,如果發現出錯,就是CPU開始進入失效期,以後錯誤會越來越多。

CPU為什麼燒不壞?

聰明的工程師們早已開發出有效的處理器溫度監控、保護技術。以特殊而敏銳的「嗅覺」隨時監測CPU的溫度變化,並提供必要的保護措施,使CPU免受高溫下的滅頂之災。

歷史

建立CPU溫度監控系統,首先要選擇一種合適的溫度測量器件。能夠測量溫度的器件有很多種,如熱敏電阻、熱電偶和半導體溫度感測器等。電腦中最早使用熱敏電阻(Thermal Resistor ,簡稱Thermistor)作為測溫元件,CPU插座下豎立的球狀或帶狀的小元件,就是熱敏電阻。但這種接觸式測溫元件和CPU接觸不夠緊密,CPU核心(die)發出熱量由晶元封裝向外部散熱,其表面溫度和核心溫度之間約有15℃~30℃的溫差,同時因晶元封裝形式不同,及環境溫度的不同而難以確定。由於熱敏電阻先天不足帶來了一個十分嚴重的問題∶表面溫度不能及時反映CPU核心溫度變化,用專業術語說就是存在一個時間滯後的問題。在這種背景之下,如果再以表面溫度作為控制目標,保護電路尚未做出反應,CPU可能已經命歸黃泉了。

在這種情況下,Intel在Pentium Ⅱ和Celeron CPU中植入了熱敏二極體(Thermal Diode)直接測量核心溫度,開創了半導體測溫技術的先河,術語叫做DTS(數字溫度感測器,digital thermal sensor)。與此同時,是在CPU內部集成了溫度控制電路(Thermal Control Circuit,TCC),由其自身執行溫度控制功能。在DTS溫度超過CPU的額定核心最高溫度(TjMAX,maximum junction temperature)時會引發CPU的降溫措施,減慢CPU的執行速度。

那麼如何減慢CPU的執行速度呢?不外乎讓CPU做做停停磨洋工和做的慢一點兩種。在Pentium Ⅱ時同時引入的TM1(Thermal Monitor1)就是磨洋工做法,而在Pentium4引入的TM2(Thermal Monitor2)則是讓CPU乾的慢點。如下圖:

可以過熱會引發PROCHOT#信號,這時TM1會將一半的Duty cycle關掉,就是干一下,歇一下。與TM1相比,TM2可以提供更智能,更有效的處理器熱量功耗的管理方式,在保證處理器基本性能的前提下儘可能在滿負荷情況下降低處理器的功耗和溫度。它會降低CPU頻率,與此同時通過與電壓管理模塊VR通訊,降低CPU電壓,雙管齊下保證CPU溫度降低。

也許你還有疑問,如果降頻還不足以降溫呢?畢竟風扇不轉後再慢的速度,CPU溫度還是會上升啊!下面我們從硬體和軟體兩個角度來看看原理細節。

原理

為什麼我們要分成硬體和軟體兩部分來講呢?因為依靠單純的硬體和單純的軟體都有各自的問題:

1. 純硬體:缺點是軟體如操作系統不參與,OS無從知道硬體過熱,誰也不希望文件寫著寫著忽然斷電,文件都丟失了。

2. 純軟體:軟體容易死掉,假使操作系統宕機,純軟體方法沒有辦法繼續降低CPU溫度,會導致CPU燒毀。

只有結合軟體和硬體,才能提供保障和有好的用戶體驗。軟體預先報警和阻止溫度上升,硬體在軟體行動不利後插手進一步阻止溫度上升,並在危急時刻自動切斷電源。

硬體

在Core2後,Intel融合了TM1和TM2,提出了自適應溫度監控(Adaptive Thermal Monitor),它實際上是結合了兩者。Intel在每個內核和核顯上都放置了DTS,並通過TCC隨時監控各個DTS的狀況,這些DTS的溫度值可以通過MSR或者PECI匯流排進行讀取。CPU溫度上升後,Intel為保障系統安全設置了兩道防線:

1. PROCHOT#

為保證CPU工作在額定最大功率下(thermal design power ,TDP),Intel為CPU設定了額定核心最高溫度(TjMAX,maximum junction temperature)。TjMAX是系統可以正常工作的最高溫度,它通常是不能修改的。當CPU內任何DTS(數字溫度感測器,digital thermal sensor)高於TjMAX後,CPU的PROCHOT#信號線就會被置起。PROCHOT#信號線通常是雙向的(在某些低端CPU上是只能in,或out),它可以通知外部EC、BMC等晶元CPU溫度過高,也可以用於CPU感知外部某器件溫度過高,而一樣進入CPU降溫模式:減慢CPU的執行速度。

「現在很多筆記本廠家都引入了一種名叫BD PROCHOT(Bi-directional processor hot)的功能來解決高端GPU和CPU的發熱問題。其核心原理就是在獨顯工作的時候,當其溫度超過某一閾值,利用PROCHOT#通知CPU降頻以達到減少發熱的目的。反過來亦然,詳情見文後的擴展閱讀部分。「

PROCHOT#是CPU的第一道防線,它是溫度變高,TCC(溫度控制電路,Thermal Control Circuit)反應的結果而不是原因。當這條黃線被跨過後,CPU電壓管理模塊立刻行動起來:

A. 立刻利用TM2降低頻率和電壓,直到DTS不再超過TjMAX。因為可以選擇的頻率和電壓有很多檔,頻率和電壓是按照一定演算法逐漸降低的,力度也是逐漸加大。

B. 如果溫度繼續上升到一個Delta值後,TM1也會起作用,刪除掉一部分工作周期,讓CPU多休息一下。這時實際的效果是TM1和TM2的疊加。

2. THERMTRIP#

為保證CPU不會被毀壞,這是最後一道防線,當發生災難性溫度時(catastrophic Critical Temperature),THERMTRIP#會被置起用以通知外部管理器件,同時CPU電源管理器會立刻強制關閉電源。這是一種類似保險絲的熔斷機制,你會看到系統立刻掉電了,只有在系統涼下來之後,你才能恢復上電。

這裡需要特別指出的是,主板廠商根據需要,可以在BIOS設定一個比TjMAX更低的溫度來規避可能的風險,這個溫度同樣也可以產生TjMAX一樣的相關動作。

好了,CPU有了這兩個雙保險,看起來性命無憂了,但是我們的數據呢?達到THERMTRIP#可是會自動斷電的。這就要靠軟體來保證了。

軟體

要讀懂軟體需要ACPI的背景知識(ACPI與UEFI - 知乎專欄)。ACPI規定了幾個溫度閾值,如下圖:

BIOS可以設置這些閾值的具體數值,並通過溫度中斷告訴CPU閾值被突破。操作系統的OSPM在超過_PSV的溫度被報告後,會開始利用EIST(P-State,CPU省電的秘密(一):EIST - 知乎專欄)降頻和利用T-State來關掉一部分有效時鐘周期,這點和TM1和TM2十分類似,不過是OS發起的。在突破AC1和AC0後,OS通過ACPI提供的方法瘋狂提高風扇轉速,儘力把情況控制在自己的掌握之中。當溫度繼續上升,到達_CRT時,OS會立刻發起強制關機,避免數據丟失。通常_CRT溫度會小於THERMTRIP#的溫度。這種控制溫度的方法叫做on demand thermal mode.

這麼多的溫度閾值,軟體方法和硬體方法,他們是怎麼協同工作的呢?我們通過兩個例子來串聯一下所有的知識點。

Happy Ending

在我們最初的例子中,你正在愉快的玩著遊戲,忽然有什麼事情發生了:周圍忽然好安靜。喧囂的CPU風扇忽然沒了聲音。你還在狐疑中為什麼這麼安靜,你的電腦機箱裡面正在進行一場溫度與時間的賽跑。CPU溫度越來越高了,一個個報警器都開始運作了:

1. 溫度首先突破軟體的_PSV。windows開始通過EIST降頻了,你的人物動作變得一卡一卡的,遊戲體驗越來越糟糕。

2. 溫度連續突破_AC0、_AC1和TjMAX。OS試圖提高風扇轉速,但因為風扇不轉,溫度繼續上升。硬體這次也參與進來了,你的遊戲變得幾乎無法操作。

3. 突破_CRT。OS開始關機,熟悉的關機畫面出來了。你的遊戲如果處理了關機消息的話,還有機會存儲你的遊戲記錄。硬碟數據也不會有損失。

Worst Case

還是回到我們最初的例子。你正在愉快的玩著遊戲,忽然有什麼事情發生了:周圍忽然好安靜。喧囂的CPU風扇忽然沒了聲音,更糟糕的是,你的操作系統也忽然死機了,遊戲的人物僵住了

正在你腦子裡在考慮是不是某個敵人放出了時間停止魔法,一切都靜止了!但你的電腦機箱裡面溫度卻在突飛猛進:

1. 溫度首先突破軟體的_PSV。因為OS死掉,CPU溫度繼續升高。

2. 連續突破_AC0、_AC1和TjMAX。OS還是無所作為,硬體Adaptive Thermal Monitor開始發揮作用,降頻和抽頻,溫度上升有所減緩,但因為風扇不轉,溫度繼續上升。

3. 突破_CRT。太可惜了,因為OS死機,沒有抓住最後的機會保存你的遊戲,你的進度丟失了。

4. 突破THERMTRIP#! 你就聽吧嗒一下,你的世界更清凈了,電腦直接關機了,電源風扇和顯示器都關閉了。

這時如果你不信邪,按下電源鍵試圖再次開機,會發現沒有任何反應。你拆開機箱,折騰了半天,徒勞無功,並開始懷疑人生。最後抱著僅剩的一點點希望,你顫抖的手按向電源,同時向上天祈禱。哇,開機了,電腦沒壞啊!這時你應該注意到了呆掉的CPU風扇,並意識到CPU溫度管理救了你一命。誰說這不是個智能家電,你的眼睛裡充滿著劫後餘生之後感動的淚水!

其他和結論

大家對CPU的印象是大鐵蓋子下面的電路板,電路板後面還有些電子元件。這個大鐵蓋子叫做Integrated Heat Spreader。它就是我們看到銀色蓋子。有人以為它是鋁做的,實際上它的主體材料是銅,因為銅的導熱性高。它是銀色的是因為表面鍍上了一層鎳。用鎳做表面可以和上面的硅脂更有親和性。他保護了我們CPU嬌嫩的內核免受傷害。另一面的電子器件大部分是電容,他保證了電平的純凈,而很多時候這些電容也並不是必須的。

綜合這些措施,CPU才會被認為是計算機裡面最不容易損壞的器件。

歡迎大家關注我的專欄(UEFI和BIOS探秘)和用微信掃描下方二維碼加入微信公眾號"UEFIBlog",在那裡有最新的文章。同時歡迎大家給本專欄和公眾號投稿!

用微信掃描二維碼加入UEFIBlog公眾號


可能是我RP不好,正常使用的情況下壞過兩塊CPU

一塊A10-7800,核顯壞

一塊i5 2500k,MCH壞

都不是Core部分的問題,不知道算不算題主說的CPU損壞


聯想,DELL,IBM售後,工作快10年,CPU壞的見過不少,早期基本集中在amd,尤其是3800-4800這類壞了很多,都是自然壞的,原裝機無法超頻,這幾年INTEL的壞的比amd還多,主要是核顯出問題導致CPU運行不穩定死機。amd壞了直接黑屏沒法開機,INTEL倒是什麼情況都有,經常換了很多部件都解決不了才會考慮CPU的問題


大部分用戶買回來默認方式使用,過熱死機了去維修,小店工人也知道坑你一把散熱費,然後繼續默認方式使用,能夠有貓膩的方式太少.一個正常的產品,在正常使用情況下,壽終正寢太正常了.壞的多一點那反而不正常.

對於超頻玩家來說,CPU壞的太多了(就沒看到不壞的).典型的買了一個體質好的CPU,原來2.5G,默電風冷烤機24+小時穩定4.0G.用了半年,玩大型單機遊戲重啟了.烤機一下,擦,縮缸了.默電3.5試試,一個月後,3.0試試,再幾個月之後,默頻吧.再之後...intel出新CPU騙錢了.


首先回答一下你的問題,的確是很少會壞;從技術層面上就不多做分析了, @鄒昌力的答案寫的很詳細。

簡單來說,對於個人PC,Cpu很難壞的原因有三點:

1、你電腦更新換代的時間比你cpu壽終正寢的時間短的多;

2、電腦雖然不算是奢侈品,但對大多數人來說都算是保護的比較好的,所以你的電腦一般不會遭遇什麼大災大難,撐死撒杯水在上面,一般也不會造成短路什麼的;

3、現在的電腦在cpu過熱的情況下,一般會自動斷電關機,防止cpu被燒壞(是不是所有電腦都有這個功能我不知道,我的小破本夏天一打遊戲就快可以煎雞蛋了,通常打一會就自己關機黑屏了)。

不過我自己初中的時候還是燒過cpu的,用電腦比較早的應該知道以前的電腦是有個重啟鍵的(現在很少見到有這個功能),按這個鍵很容易燒cpu的,我自己以前就燒過2個,還是同一個電腦的。

燒了之後再開機整個顯示屏都是黑的,底下機箱風扇還是工作的,但是還不懂什麼是cpu,還以為是顯示器壞了。。


小學時代 比較瘋狂 當時還說m2處理器 開機正常跑呢 吧cpu散熱片拆了。一摸 吧我手指頭都燙紅了。電腦也沒死機 為了降溫 當時比較2b 找了點水 直接往cpu表面滴水滴。基本上滴1-2滴的水。剛剛碰上cpu瞬間蒸發 感覺比天然氣燒水的鍋蒸發的還快。 就這麼滴了幾分鐘以後 旁邊伏案上都有凝結水汽了。這樣高溫還沒死機。後來裝上散熱片 關機。一切正常。 過一回再去看cpu附近的針腳 有一些表面都看見了銅綠。當時沒感覺 現在回憶起來。好害怕。這要是燒壞了可咋辦。 還有一次 中學時代 370介面的賽揚cpu 我家電腦借給我哥做程序員。幾天。有一次我去我哥家。看機箱蓋子開了。就摸摸cpu散熱片。立馬手指尖就燙紅了 出了個小泡。趕快涼水沖。 關機散熱。後來發現 借他電腦之前我拆散熱片的時候忘了給風扇電源線插上了。那個電腦這幾天一直是沒風扇自然冷卻。竟然沒燒壞。


如果是廣義上的壞,題主一定沒用過amd那一代裸露核心的毒龍速龍,各種壓壞,超頻燒壞。如果是狹義上的用壞,這個我無法回答,請更專業的人士回答。


我碰到過i5-760 安裝win7中途崩潰,結果是CPU壞了!在15年前(98年)碰到過p2-333壞的L1 cache的,在bios內關閉就正常,結果速度=p75


淘寶十幾塊rmb的鑰匙扣cpu不少,還包郵


見過幾顆壞掉的CPU,除了散熱不良(風扇壞或散熱片鬆脫之類)導致的燒壞以外,還有電壓波動導致的,比如電源故障之類,甚至有過一次因為USB口設備的問題導致CPU損壞。

至於正常使用…我有一顆P3的CPU從2001年用到現在還好的…


散熱不好會燒掉,網上有CPU壓力測試,拿掉電風扇的英特爾和AMD運行大運算對比,一會就冒煙了


正常使用一般是不會壞 電壓和超頻那都是外界因素 和cpu本身無關 至於一樓的那個 現在cpu很多不帶針腳了


頂樓說得很好,還有一個是cpu沒有和外部有直接的連接。網線口有網路變壓器,網卡,耳機有功放,音效卡晶元。這不代表它不脆弱,那手摸幾次就掛了。大部分都有過熱自動重啟功能。但是沒有防電源波動的,如果電源不好了,cpu很快就掛,當然顯卡應該掛的更早。


CPU是會壞的,其實你說的家用pc的cpu如果正常使用,不要超頻或者人為破壞,確實不容易壞。但是一年365天7x24小時跑著的那些伺服器還是會壞的。


讀書的時候,因為計算機系的緣故,大家都熱忱自己買配件回來自己組裝。有位同學在宿舍里裝新機,想著先通電看看是否正常再裝機箱,CPU散熱風扇就隨便擺在AMD毒龍上面,沒有抹硅脂也沒有扣上彈簧扣,結果一通電毒龍就馬上冒青煙……嗯,同時代的Intel貴多了,不過那時他家已經有自動高溫保護了,先降頻再抗不住就保護關機。


推薦閱讀:

如何看待 intel 最新發布的新處理器 i9-7980XE?
內存控制器和cpu的問題?
如何評價Intel官方宣布將在自家的處理器上集成AMD的GPU?
圖拉丁吧是根據什麼命名的?有什麼故事?
筆記本選I7還是I5的呢?

TAG:中央處理器CPU | 電腦硬體 |