據說大型晶元有幾十億個晶體管，一個都容不得出錯，但為何晶元可靠性還這麼高？

我怎麼發現截至12月5日我發帖前，幾乎所有答案都機智的繞開了問題核心，抓住最粗淺最不足以說明原因的東西一通振振有詞呢？
先來剖析問題。
我看到的問題是「據說大型晶元有幾十億個晶體管，一個都容不得出錯，但為何晶元可靠性還這麼高？」。
這個問題問的很好，但不夠專業。

專業的問法可能是：
1、大型晶元（如CPU）有幾十億個晶體管，如果晶體管有製作缺陷，晶元當然就會執行出錯。請問如何保證它們不被做壞？
2、大型晶元（如CPU）有幾十億個晶體管，而且每秒可以執行幾十億條指令；發生任何錯誤都可能影響程序的正確性。請問為何它可以抵抗諸如電壓波動等諸多環境幹擾，實現7X24小時的可靠性（7X24小時指的是一週七天，每天24小時，一秒休息都沒有的連續服務）。
對這兩個問題，各有不同的答案。
對問題一，問的是硬體生產的可靠性。
這個可靠性依靠的是很多很多方面的協同努力。
首先，我們需要提純硅。矽片越純，雜質的幹擾就越小。
一般的半導體器件，比如你家老式收音機裏用的三極體之類，就要求99.9999%以上的高純硅（6個9）；而大規模集成電路需要至少99.9999999%以上的高純硅（9個9）；如CPU這樣的計算機晶元，則需要99.999999999%以上的高純硅（11個9）；人類目前能製造的最純的硅材料，純度可達12個9。
換句話說，矽片本身就有極高的純度，以致於用於CPU生產的一千億個硅原子中，只允許含有最多一個其它原子。
——千億綠豆中只有一顆紅豆太誇張？萬一五顆紅豆好死不死恰好一起出現在10釐米範圍內呢？

僅僅純度高還不夠。用來做晶元的硅，它還必須「生長」為「單晶硅」——也就是說，硅原子的晶格排布必須整齊劃一，像多晶硅那樣雜亂無章是不行的。
如果你問「如此高純度的硅是如何提純的？」，那麼我只能回答「這是生產廠家的技術祕密，全世界都沒多少人知道」。
單晶硅裡面，雜質分佈並不均勻。雜質富集區很容易導致（意料之外的）漏電流增大、晶格缺陷等諸多問題（現代晶元製造甚至會藉助各向異性刻蝕等手段，晶格缺陷必然導致刻蝕出的溝道畸形），這些都可能加大晶元的失敗率、增加它的發熱量、限制它的性能。
【圖文】第10章幹法刻蝕_百度文庫
因此，普通的晶體管，6個9的硅便可滿足需求；大規模集成電路就必須9個9；CPU這樣的超大規模集成電路，11個9的高純硅纔可能把良品率提高到可行範圍——晶元行業可不缺聰明人，10個9夠用他們就絕不會像個冤大頭一樣，掏大價錢買11個9的昂貴材料。畢竟純度加一個9可不是多敲一下鍵盤那麼簡單：你猜人類已經能造12個9的硅材料了為什麼不大量應用呢？
有了最好的原料，纔有可能做出最高品質的成品——讓你在沾了油的宣紙上寫字，這副作品是不是就很難完美了？一樣的道理。
把我的一段評論貼上來：

現在集成電路的線寬只有幾十個納米（甚至十幾個納米）。
摻雜的目的，是在這幾十個納米的範圍內、該磷是磷該硼是硼、準確的把它注入純凈的硅晶格之間，從而在局部生成P型和N型半導體，使得它們恰好組成電氣性能合格的場效應管（構成的門電路）。說場效應管有點粗糙了。實質上，因為半導體原理以及電路原理，晶元上幾十個納米寬度的P區和N區交錯縱橫，它們彼此之間還能形成許多寄生電路——而CMOS工藝甚至能利用這些寄生電路為我們服務。

把如此精確的、定點生成P/N型半導體的工藝叫「摻雜」，是因為半導體材料方面的研究以硅鍺為主——或者說，半導體就是往硅/鍺裏摻入不同物質、然後研究它們的導電性的一門學科。
為了便於討論，當我們談起半導體時，如果總是說「往硅中摻入五價元素A」「摻入三價元素B」實在太麻煩了。尤其是不關心或者不知道究竟摻了什麼時，這樣就更囉嗦了。半導體主要就是利用它的電氣特性，因此絕大多數場合都不關心摻了什麼只關心電氣特性。因此，在不需要討論具體工藝參數時，業內就籠統的說「摻入雜質」或者「摻雜」。習慣這麼說之後，集成電路工藝裏，準確的在矽片某個區域的晶格間注入某種五價元素/三價元素這一步，就也被簡稱為「摻雜」。因此，再強調一遍：千萬不要望文生義，以為純凈的硅不好用，做集成電路前還得添點雜質進去。事實上，這一步工藝雖然叫「摻雜」，但實際上是在矽片上就地製作晶體管！注意PN結兩側摻的東西可是不一樣的，容不得半點混淆！每種元素的摻入位置也必須絕對精確，不然將來只有幾十甚至十幾個納米的線路搭不上，這晶元可就做廢了。敢把這個真當成「隨隨便便撒點雜質」那種「摻雜」，那可丟人丟大發了。

【圖文】CMOS集成電路製造工藝介紹_百度文庫
和對矽片的苛刻要求一樣，光刻機本身，從透鏡的磨製精度到光刻膠到切割出的晶圓的平整度再到用到的一切一切，幾十項工藝以及這些工藝需要用到的工具/材料，幾乎全都有很高級別的苛刻要求（注意這幾十項僅僅是工藝，真正要做的事項可不止這麼一點點）。

任何方面微乎其微的、拿最好的光學顯微鏡都看不清的一丁點缺陷，都可能導致晶元良品率直線下降——甚至，哪怕一切到位，哪怕Intel這種業界頂尖公司，新工藝上馬，良品率往往也相當的低。經常需要長時間的調試、磨合，才能保證良品率達到可用範圍。
是什麼問題導致 10 納米製程晶元良品率過低？會對下游產品有何影響？
不僅光刻機本身。它所處的環境也都要求苛刻。
比如，它必須置於嚴格無塵的環境裏。因為落到晶元上的一粒灰塵，就可能毀掉數百個門電路。
https://wenku.baidu.com/view/13c777aebd64783e09122be9.html
請注意，這是一個很老的規範了，可能無法滿足現代光刻機的需要。
類似的，如果不採取嚴格避震措施，光刻機工作時，800米外一輛汽車開過，引起的顫動都可能導致大批晶元報廢！
總之，通過數不清的方面無數科研人員、工程師以及技術工人的各種努力，彌補一切方面的一切短板，該妥協的地方酌情妥協，人類終於可以保證，CPU晶元上光刻出的門電路，出錯概率可低於億分之幾（老黃曆了，現在能達到多少我還不清楚）。
對於普通級別的晶元，這個工藝水平已經可以保證「出錯幾乎是不可能的」——因此頗有一些人以為「做晶元什麼都不用管壞了就扔就行」。但他們並不知道，別人為了把晶元產線質量穩定度提高到這個程度付出了多少辛勞。
但對CPU這樣最為尖端的、同時挑戰集成度和可靠性的晶元，這樣往往也還不夠。

因此，人類在設計CPU電路時，便將其模塊化；然後故意製造出冗餘的重複模塊來；當CPU光刻完成後，通過測試，屏蔽掉不良模塊（不良模塊不僅僅是出錯的模塊，還包括熱穩定性不佳等缺陷）。這樣哪怕發生了少量錯誤，製作成功的幾率也不會太低。
Intel i3 和 i7 的成本差是多少？如果成本相當，為什麼不全生產 i7 呢？?
www.zhihu.com
更進一步的，如果不良模塊實在太多、以至於整個核心都不能用了，還可以屏蔽掉整個核心——原始設計是8核，屏蔽4個就可以當4核賣了。六核雙核等情況依此類推。
（當然，有時候運氣好良品率特高，但捨不得掏錢的用戶對低端CPU有需求，高端的生產太多又賣不掉，廠商也可能故意把高端CPU的核心屏蔽掉、頻率限低，當低端CPU賣給用戶——這和主題無關，就不討論了）
但是，請注意，這個冗餘設計既浪費晶元面積，又加大了研發投入、增加了諸多方面的複雜性，只有類似CPU這樣挑戰人類極限的工程，迫不得已才會採用——所以才說，拿「壞了就屏蔽/壞了就扔」當真相的都欠缺常識。
打個比方的話，問「我要經常開車跑長途，這可能做到嗎？」
正確回答是，先挑選質量足夠高的車，汽車工業剛起步時幾十公里就得修一次的爛車是沒法用的（提高原料質量工藝可靠性）；然後選用更容易排錯維修的車型（設計時考慮可維修性）；最後，真跑廢了就扔掉再買一輛。
嗯，跑長途基本靠扔車？你覺得這回答過腦子了嗎？真拿扔車不當回事的那叫F1，不是長途司機。
——那些張嘴就拿屏蔽說事的，多半是懶得動腦。他們就沒想過，如果拿6個9的矽片造CPU，這密密麻麻的缺陷，靠屏蔽能屏蔽過來嗎？更不用說隨便抓把石英砂拿電爐土法上馬搞的渾濁不堪的垃圾硅了。
必須先有一個極高穩定度的平臺，纔有耍屏蔽之類小聰明的餘地。
——換句話說，屏蔽是很有效，但它在這個問題裏，是最不重要最沒技術含量的因素。

PS：鑒於某些假裝專家的外行搗亂，我在這裡科普下所謂的「屏蔽」究竟是怎麼一回事。
我們知道，內存有很多很多單元，但匯流排只有一條。那麼，當CPU要訪問64g內存中的其中一個單元時，它就要在地址線上輸出一組電平，使得該內存單元被選中（實際相當於通過一組與門，切斷了除被選擇單元外其它任何內存單元的輸出信號），然後就可以讀到正確的值了。
實際上，計算機裏的一切，上至寄存器下至鍵盤，都是以同樣的邏輯控制輸入輸出的。只不過未必都在匯流排上（或者說沒有統一編址）而已。
CPU內部也是如此。核心之間有通信線路，核心內部，從加法器到寄存器再到緩存，全都有類似匯流排的數據―地址線路相互連接。
因此，只需記錄錯誤單元的地址，避免訪問它甚至不給它供電，就可以達到屏蔽的目的了（反過來也行：比如記錄寄存器EAX等和內部地址的對應表，不註冊壞掉的寄存器或其它單元，也可達到屏蔽的目的）。
這種屏蔽甚至可以是自動的：通過檢測，給壞掉的單元置位；然後在CPU自檢流程排除它們即可。
總之，可行的做法很多很多，具體某個廠商用了哪種是不可預測的。我們只需知道「能做到」就對了。
假專家只知道硬連線、跳線，說明他還是有點電路基礎的。但他顯然不懂數字電路的地址機制，不知道就連寄存器都是有地址的（但注意和內存地址區分。它是CPU核心內部地址，這個地址甚至對同一顆CPU的另一個核心都可能是不可見的）；有地址，只要不是短路型故障（短路故障還需要從供電上屏蔽），就可以用簡單的「避免訪問」達到「屏蔽」目的。換句話說就是：這人計算機原理學的一塌糊塗，數字電路基本還是沒入門水平。大二相關科目也不知怎麼混過去的。
當然，我拿寄存器舉例是為了說明問題，證明哪怕寄存器這種粒度都有辦法屏蔽，並不代表CPU就真的細緻到了寄存器這個粒度。實際上，有工藝精度保證，粒度太小了反而增加成本，工程是需要根據實際情況取捨的。
——這段嚴格來說是廢話，不用說大家都知道；但萬一遇到手電筒專家一樣只照別人不照自己的傢伙……還是明確寫出來省事。

對問題二，這個要通過軟硬體配合來解決。
首先，成熟的硬體本身就非常非常的穩定，可以長時間運行不發生任何錯誤（但很多情況下，錯誤在所難免。比如電磁幹擾、機械振動、宇宙射線等等）。
其次，計算機硬體本身也可以自帶校驗功能。比如伺服器經常用帶ECC校驗的內存條。
當硬體出錯時，它可以自動發現，然後通過中斷通知軟體處理（或自動嘗試恢復）。
然後，程序員在寫程序時，也會有很多錯誤檢查；一旦校驗出錯，程序便立即退出。
為了保證7X24小時安全性，業界有許多成熟的經驗甚至現成的框架。
比如，有一種硬體叫「看門狗(watchdog)」，它相當於一個自動遞減的計數器；如果軟體運行正常，那麼它就應該不停複位這個計數器，避免它遞減到零；如果計數器遞減到零，就說明軟體運行出錯了；於是晶元立即重啟、然後軟體嘗試恢復執行——單片機系統經常用到它。
當恢復時間足夠短時，人就不會覺察到系統曾經失敗過（但一般會記入日誌，以便分析故障原因）；對很多系統，包括汽車/飛機/衛星上的各種系統，只要恢復時間足夠短（依設計允許的餘量而定），也不會影響它們正常運行。
PC/伺服器一般不用簡陋的看門狗，它們有完善得多的錯誤發現/恢復機制。包括但不限於許可權檢查、錯誤中斷以及編程語言提供的結構化異常等等機制。
出錯了的程序會立即退出？你可能會說，不對啊，這樣服務不就中斷了嗎？

沒關係。我們可以準備一個監控程序，定時檢查，發現服務程序失敗就重新拉起它。
這個監控邏輯也可置於服務應用本身，然後同時運行兩個同樣的應用，讓它們互為備份。這就是著名的「雙進程相互監控、相互喚醒」——這個技術之所以如此著名，是因為有人拿它不辦正事，而是拿來做流氓軟體坑用戶了。嗯，好的技術落到壞人手裡就是這種下場。
對各種網站/搜索引擎之類龐然大物，依靠單臺伺服器的自我恢復能力已經不夠。這時候還可以通過雙機熱備份/多機熱備份（多臺機器執行同樣的程序，只是其它機器只運行但不輸出結果；當其中一臺出錯時，另一臺便可立即頂替它）、集羣計算（如Google通過map-reduce靈活組合使用數萬甚至更多臺計算機，可自動分配任務、自動發現故障節點並屏蔽它）等等更為複雜、高級的架構，使得偶發故障不會影響它們的服務能力。
更進一步的，針對天災、戰爭甚至核戰爭等等罕見事件，人們還開發了「異地容災系統」，使得哪怕城市A的服務節點因重大事故無法服務，遠隔千里的城市B的服務節點也可立即接替它，從而達到「不可摧毀」的目的。
化不可能為現實，這就是人類的智慧。

這個問題實際上是兩個部分。
首先，幾十億個晶體管，一個都不能出錯嗎？
顯然不是。
這個部分，其他答主談的很多了。晶元代工廠 TSMC等對於生產線有很多嚴格的要求，現在投入生產的製程良品率都達到了極高的標準。除此之外，當晶元成產完成後，有專門的人員負責對晶元可靠性和性能的測試。我們叫「post-silicon validation」。確保幾乎所有的產品沒有問題。當然，這也會有意外。歷史上，曾經發生過幾次晶元召回事件。不多都已經很久遠了。一般來講，絕大多數問題都可以通過軟體層面disable掉硬體的某些功能，犧牲性能的情況下，避免問題的發生。比如最近的「熔斷」bug。
我其實更想談談，問題的後半部分：

為什麼晶元可靠性這麼高？
這其實是一個系統性的問題。整個晶元行業可以分為上游（晶元設計）和下游（晶元製造）。無論是設計還是製造，頭頂上懸著的達摩克利斯之劍都是——晶元的可靠性。
整個集成電路產業，測試的花費是相當巨大的，一旦量產的晶元出現了問題，損失也是巨大的。這裡援引我在學校時候，老師上課的PPT裏的一段話：

$1 to find a bad chip and toss it
$10 to find a bad IC on circuit board $100 to find bad PC board in a system$1000 to find a bad component in a field system$1000000s to find a recurring bad part in a high volume system (e.g., Intel floating point divide bug but this was a functional problem and not a manufacturing problem)

眾所周知，晶元行業研發週期長，容錯率低。對於軟體來講，一套船新的代碼，從構思到上線最快可以一天，慢最多幾個月。而且出了問題隨時可以改正，一旦得到了客戶的反饋，可以在幾小時之內迅速上線修復版本。具體到硬體來講，研發週期是以年記的。各大廠商當年發布的產品，大都是他們研發人員2-3年前就開始開發的。一塊正式投產的晶元，大概要經歷2-3次的流片，流一次所花費的時間大概2-3個月。在流片回來之前，沒有任何人能保證你的設計沒有任何問題。換句話說，試錯的機會只有2-3次。
更糟糕的事，隨著製程的不斷縮小，原本不是問題的問題現在都成了問題。對，我說的就是power。電路的dynamic power會導致你在執行某個複雜的運算時峯值熱量過大。手機發燙其實已經是這種現象最minor的影響了。更嚴重的會不可逆的影響電路的功能，從而導致晶元的損毀。比如最近報道的Nvidia顯卡著火，就是因為散熱不勻所致。除此之外，電路的泄漏電流會導致你的leakage power變大，也會對你的晶元產生不可逆的影響。
之所以還能維持晶元產品的穩定性和可靠性，這是多年來工業界所積累的一套完整的流程體系所確保的結果。在流片之前，晶元的設計大概需要以下三種工程師：
1，設計：在microarchitecture level實現電路的架構。我們叫硬體架構師。因為是寫verilog的，也叫RTL designer。簡單的說，就是埋地雷的人。
2，驗證：針對RTL designer寫好的架構，進行測試。確保沒有任何bug。這是確保晶元可靠性的核心。他們負責確保整個架構無論是functionality還是performance都沒有問題。相應地，他們是挖地雷的人。
3，後端：physical design。以上都是代碼級別的設計驗證。但是晶元歸根到底還是一個晶體管一個晶體管實現的。所以需要有人將代碼轉化為實際的電路，進行佈局和布線（place and routing）
在這三個流程中，為了確保可靠性，都會採取相應的措施，從而環環相扣地提升晶元的可靠性。下面分開談談：
1，設計
作為一個designer，你必須最大限度的確保，你實現的架構、運用的protocol，寫的代碼沒有bug。但是，顯然這是不可能的。只要有代碼，就一定有bug。所以，除此之外，在寫代碼的時候，會有選擇地加入一些「開關」信號。這些信號會暴露給軟體層面，是用於掌控硬體功能的開關。比如，你要實現某個新的branch prediction，加入了一個新的branch history table（BHT）。我們會加入這個BHT的enable信號（開關信號）。理想情況下，這個信號不會使能。但是假如這個BHT出現了問題，需要我們關閉它的時候，我們會手動設置這個信號，讓這個新的table關閉。而當這個BHT關閉的時候，架構與上代產品相同，我們默認不會有問題。
除此之外，在實現正常的功能性架構之餘，我們會設計一些多餘的工作在debug mode模式下的模塊或者counter。用來監控整個架構能否正常工作。一方面，這樣可以更好的幫助驗證工程師快速找到bug；另一方面，也可以對於整個架構進行一個行之有效的監控。比如我們監控到某種特殊的case持續性的發生，那麼在以後的產品中，可以針對這種情況進行適當的優化，以提升性能。
2，驗證
很久以前，其實是沒有這個工種的。大家都是自己寫的代碼自己負責debug。但是，隨著架構的越來越複雜，製程的越來越小，大家逐漸意識到，必須要有專門的人來負責檢驗designer實現出來的架構到底有沒有問題。這樣的人就叫驗證工程師。每一個designer，大概需要2個對應的verification。
verification有兩個指標：coverage和checkers。coverage就是指測試的testcases覆蓋了多少可能的情況。checker就是針對每個模塊是否有對應的檢測模塊。在工作開始之初，驗證工程師會和deisgner討論，制定合理的verification plan。可能一開始coverage只有60%，但是隨著工作的進行，必須逐漸提高覆蓋率。只有checker和coverage都到了99%以上，才能說完成了驗證工作。
除了用verilog寫的testbench之外，還有很多驗證工作是通過比對RTL和高層次語言（C++）的運行結果完成的。相同的架構，用硬體描述語言verilog和軟體編程語言C++分別實現，然後逐級比對，確保結果一致性。
FPGA在驗證過程中也佔有很重要的部分。驗證工程師會把現有的RTL燒進FPGA裏，一方面對於架構進行軟體層面的驗證，另一方面也可以加快軟體的開發週期。因為說到底，硬體的強大隻有通過軟體的支持才能展現給用戶。
除了可靠性沒有bug之外，驗證另一個重要的任務就是確保實現的電路和之前performance 模擬的結果一致。也就是說，我確實如之前設想的那樣，通過我新實現的branch history table，提升了20%的branch prediction 準確度。假如沒有，那麼需要反饋給設計工程師，查找到底哪裡出現了問題。
3，後端PD
假如一個designer需要2個verification的話，那麼大概需要3-4個後端工程師才能完成相同模塊的工作。設計師在前端改一行代碼，可能就需要PD花幾天甚至幾周的功夫重新place and routing。更別說，後端還有timing和area的壓力。後端工程師的壓力顯而易見。
其實到了這一步，晶元設計工程師們能做的已經不多了。良品率的控制不歸PD管，這是晶元代工廠TSMC們的職責所在。但是在第一次流片之初，PD們可以預先埋下一些冗餘的模塊，這些模塊可能並不會起作用。但是假如當附近的類似的模塊出現了問題，PD可以輕鬆的通過更改金屬的布線來啟用這些「冗餘」的模塊。從而避免整個晶元的失敗。因為流片高昂的成本和週期，這些模塊往往至關重要，會挽救很多瀕臨失敗的產品。
到此為止，晶元的設計週期算是結束了。這樣之後，設計被送去TSMC加工製造。送回來的成品會被拿給那些post-silicon validation們進行進一步的可靠性測試。
這個圖清晰的顯示了，晶體管or晶元的faliure rate與時間的關係。所以在出廠之前，所有的晶元都會在高溫度高電壓下進行長時間的測試，已度過ELF的期限，從而達到一個相對低出錯率的週期。大家手上拿的手機晶元的工作週期就是這段時間。隨著時間的增長，晶體管會老化，failure rate上升，手機變慢，大家自然也會淘汰去換新的手機和晶元。
通過以上系統的流程，我們基本上可以規避99%的bug。剩下的1%並不是不會發生，只是發生的概率較低，而且很容易通過complier level甚至更高層次的軟體修改去進行規避。所犧牲的就是硬體的性能。這個根據bug的大小，犧牲的性能比例也不一。有的可能只是某種特殊情況，被驗證工程師發現，但其實並不會真正影響使用，這種bug在軟體層加一個限制，規避之就可以了，這種情況其實時有發生，但大多不會報道出來。但是也有可能是比較大的bug，影響範圍比較廣，難以簡單的修復，需要犧牲很大的性能加成。這樣的就會被報道出來，為眾人所知。就像年初的「meltdown」和「spectre」。
但實際上，這樣並不是最好的方法，出了問題再補救永遠只能亡羊補牢。有朝一日，假如無人駕駛真正普及，對晶元可靠性的要求只會更高。因為一旦出事，就是人命關天，不可能再有補救的措施了。這對於晶元驗證工作的要求只會更高。
必須要說明的是，現在工業界，對於一個優秀驗證工程師的需求已經越來越大。驗證工程師和RTL架構設計師已經是兩個不可分離的同等重要的職位了。

幾十億晶體管是不可能不出錯的，所以在設計階段會引入容錯設計，大致可分為容缺陷設計、容參數偏差、容軟錯誤，通過設計達到需要的可靠性，而不是單單依靠製造良品率。

一塊晶圓，切出若干die片，完美的，i7加k；
稍有瑕疵，屏蔽問題單元，i7無k：
問題稍多，i5加k，問題再多，i5無k；
依次以降。
總有挑揀失誤的時候，名曰奔騰，但體質超羣，於是一幫卡基拉丁們呼嘯而來，上了液氮，眼瞅著那頻率朝著10ghz蹭蹭去了；
最終，在一聲「boom」地巨響中，盡皆融入一派歡樂祥和地氣氛中

首先給推薦基礎一本書籍《半導體製造技術》感興趣的可以看一看這本書，學習一下。
我先講述一下晶元的製作過程吧，晶元的製成大體分為三個部分:一是晶圓的製作，將石英砂製成需要的單晶硅圓柱體，然後切片，打磨成需要的晶圓片；二是wafer的生產，這個部分比較複雜，包括了光刻，掩膜，化學機械平坦化，化學清洗等諸多複雜工藝；三是die的封裝測試，將wafer上的小小的die切割下來，然後進行die bond（晶元焊接）和，wire bond（焊線焊接），連接好管腳以及晶元之後對其進行塑封，電鍍，切割，測試，包裝最終出廠成品。
在初步瞭解晶元的生產過程之後，應該清晰的知道晶元生產的困難了吧，其實再生產過程中因為人為因素，設備不穩定或者故障，，材料材質問題，工藝方法，環境影響，總會出現廢品，只不過生產過程中的嚴格監控與反饋機制相當給力，才保證了相當高的可靠性。在我們公司出廠產品的顧客抱怨僅僅有十幾ppb，局世界二流水準，而世界一流水準則達到個位數的ppb。這是相當難以達到的，不是工藝存在問題，而是這麼多的產品難免出現幾個偶然失效的管子，沒有更好的方法去解決了。所以有些東西真的是接觸到了才知道的
我只是一個半導體封裝測試廠的幾個月的新員工，還不是很熟悉具體的生產，但是今天晚上無意間刷到這個問題，就簡單的回答一些，第一次在知乎上回答，寫的不是很全面，希望對大家有所幫助，如果有更想知道的可以繼續提問。

推薦閱讀：

查看原文 >>

據說大型晶元有幾十億個晶體管，一個都容不得出錯，但為何晶元可靠性還這麼高？

熱門新聞

週熱門

據說大型晶元有幾十億個晶體管，一個都容不得出錯，但為何晶元可靠性還這麼高？

俄塔斯社：荷蘭可以用光刻機換取中國的防疫援助，如果此事成真，尖端光刻機會對我國產生多大助力？

半導體工程師累不累？

材料專業能夠進入半導體公司的研發部嗎？

用錫箔代替導熱硅脂可行嗎？

晶元很重要但機牀更重要有多少人相信？

Apple 自研晶元 M1會給 Intel 帶來多大影響？

小米如果把研發 MIX Alpha 的 5 億經費投到澎湃晶元裏去，能流片多少次？

為什麼蘋果的MAC CPU M1需要軟體適配？

CPU滿載溫度80 需要上水冷壓到50嗎 賣家說80是正常溫度 不會影響壽命 沒必要壓那麼低 真的？

為什麼在 CPU 競爭中輿論普遍站 AMD，而顯卡競爭中卻不是這樣？

風景園林專業，筆記本電腦i5＋2060和i7＋1660ti哪一個更好？

如何看待 Intel 的最新處理器 11700K 在遊戲性能和內存延遲方面出現的倒退？

電源酷冷GX450 ，主板450迫擊炮，cpu3600，能不能推薦個帶的動的顯卡？

十一代酷睿新品上市之後，戴爾產品線還有什麼佈局不完善的地方嗎？

奧迪的stronic變速箱可靠性怎麼樣，求大神具體分析一下！?

熱門新聞

週熱門

CPU滿載溫度80 需要上水冷壓到50嗎賣家說80是正常溫度不會影響壽命沒必要壓那麼低真的？