有哪些晶元流片失敗的故事?

作為IC從業者,雖然不希望自己的晶元流片失敗,但是有時候天不如人意。來說說你知道的晶元流片失敗的故事吧。


第一個流片故事:PAD Open。這個錯誤在國內和國外前三的公司都發生過。晶元physical verification 通過,回來測試發現一個管腳測試始終是開路,檢查封裝沒有問題,LVS 沒有問題。

2017.12.07,更新第二個流片故事:JDV(job deck view)差點淪為流片失敗的背鍋俠。每次聽聞晶元回來了,總有那麼幾天,心裡默念老闆千萬不要來找我,一找,八成是出事了。

-------------------------------------------------------------------------------------------

作者:公眾號「觀芯志」小編Richard

作者聲明:本文若未經作者授權,不得轉發。如有興趣,請私信作者聯繫。

---------------------------------------------------------------------------------------------

流片經驗比較豐富,有很多的故事想和大家分享。

先花點筆墨介紹一下什麼是physical verfication, 物理驗證是流片之前的最後一道檢查,非常重要,一旦發生重大錯誤,基本成磚。

---------------------------------------------------------------------------------------------

主要檢測項目如下,及其危害:

DRC (design rule check) : 生產的工藝檢查,miss輕一點影響良率,嚴重了大量的費片。

ANT(天線效應檢查): miss影響良率。

ERC: miss了,會影響ESD,漏電等問題,如有個答案提到的VDD打到襯底上了,就是這個rule沒看仔細。

Power Analyze: miss了,晶元在高頻工作下不穩定。

EM: miss了,影響晶元的使用壽命。

LVS: 這個是最容易出問題的,有見過LVS報告是CORRECT, 但是晶元依然fail的。

PERC:用來檢查ESD等迴路的完整性。

tapeout script:自己寫的一系列腳本,用來彌補當前physical verfication檢查的不足。

---------------------------------------------------------------------------------------------

故事1:

這個錯誤在國內和國外前三的公司都發生過。晶元physical verification 通過,回來測試發現一個管腳測試始終是開路,檢查封裝沒有問題,LVS 沒有問題。

最後發現原因,LVS的時候使用的PORT TEXT LAYER使用的是METAL7,而沒有使用PAD openning的層次,當PAD openning和METAL7斷開的時候,沒有檢查出來。

先來介紹一下什麼是PAD, PAD是連接晶元內部和晶元封裝的介面。舉個簡單的例子,晶元內部的信號如1.2v信號,進入PAD進行1.2V~3.3V的轉換,然後進入PAD opening, 然後通過bonding的金線連到封裝上,最終到達我們可以看到的晶元可以在PCB上焊接的管腳。

pad cell

pad opening

pad+opening

bonding

晶元PCB

在實際設計中,廣義PAD,實際有兩個部分組成,一個是PAD CELL,一個是BOND CELL。其中BOND CELL有很多的類型和大小(PAD OPENING),不把這兩者設計成一個,是為了適應更多的封裝,設計者可以根據不同的封裝調整bond cell的尺寸,而不用更改整個PAD。

當我選好BOUND CELL(包含PAD OPENING, PVIA, METAL7),把它放到PAD CELL(包含Metal7)上面,工作的時候信號就會從封裝到PAD OPENING -&> PVIA -&> METAL7進入晶元內部。所以有些晶元設計者會思維定勢到LVS的PORT TEXT LAYER打到M7層和PAD opening層次是一樣的,然而在我們的項目當中,剛巧,bond cell當中少了從PAD OPENING到METLAL7的PVIA(連接孔),而產生了真正的OPEN沒有抓到,導致了悲劇的發生,都是快上億的晶元,耽誤了晶元上市的時間。

--------------------------------------------------------------------------------------------

有很多的朋友問,保證晶元流片成功的關鍵是什麼?是不是需要很有經驗的工程師?是不是需要很先進的檢查工具?

個人感覺有兩點:

1)要有一套長時間積累的完備的check list,任何一個細節都不能放過。我自己多年經驗總結的check-list就有300多條,希望以後大家可以在自己的流片種多多總結。

2)流片前做到心中無問號,例如,就在剛剛截圖的時候,發現PAD openning的位置和我預想的不一樣,立即打開流片數據,分析檢查了一遍,這是做為PV工作者應該具備的素質。

另外,記得之前看一個節目,一個航空愛好者自己造了一架飛機,聯繫了很多試航員,沒人敢飛,最後只有他自己試飛,並且成功了,主持人問他,你在飛之前怎麼想的。他就說,我在飛之前千萬次的問自己,還有沒有問號,還有沒有不確定的問題,當所有的問號消失以後,我覺得我可以開始飛了。

----------------------------------------------------------------------------------------

不知道大家在我的描述中學到東西沒有?失敗原因千千萬, 都是課本上學不到的,這裡還有很多精彩的故事,積贊到100,更新下一個故事


2017.12.07,更新的第二個流片故事:JDV(job deck view)差點淪為流片失敗的背鍋俠。每次聽聞晶元回來了,總有那麼幾天,心裡默念老闆千萬不要來找我,一找,八成是出事了。


一日,測試工程師發來郵件,晶元回來無功能,有些PAD之間弱連接,望個個部門自查。老闆一看,都別幹了,關門,開會,review。大家拿出來流片數據看啊,看啊,看了一天,沒問題啊。忽然,測試發來郵件,問題找到了,poly製作mask的時候方向搞錯了,本來應該豎向的,搞成橫向的。老闆,大叫一聲,TMD的JDV怎看的?我看的,心裡咯噔一下,完了,背鍋俠出現了。

JDV可能大家不太熟悉,解釋一下。JDV是job deck view的縮寫,是流片之前的最後一次review,你看到的圖形和你流片的GDS有很大的出入。這是因為在光刻的時候有很多因素會影響你實際刻出來的圖形,所以光刻板也進行了很多相應的調整,簡單來說,比如說M1,你這裡看到的圖像是M1與contact,via1等相鄰層次的運算結果,而不是GDS的原始結果。

一般個人理解(水平有限,還請高手賜教),由於層次非常多,不可能一個一個看,個人傾向於檢查以下事項。

1)由於我們在流片前可能會上傳多版數據,fab也有可能搞錯,我會對比最後一版上傳結果的修改是否在光刻板裡面有反應。

2)檢查logo cell是否正確。

3)檢查rom code是否正確。

4)檢查所有的metal層和via層是否都在

等等...

但是,不會去看poly是不是方向正確啊,感覺老闆要請喝咖啡了。

還好,最後確定,他們給的JDV數據也是對的,只是最後生產的時候錯了。這也是台灣前三大的fab,這也不太靠譜啊,感覺我胸前的紅領巾更加鮮艷了,哈哈哈。

總結錯誤:poly 本來應該豎向的,搞成橫向的,造成PAD之間 poly short。後來... 咱job deck view 還是看看poly吧。

每次聽聞晶元回來了,總有那麼幾天,老闆千萬不要來找我,一找,八成是出事了。

深深的理解一句話,no news is good news,心裡苦啊。

不知道大家學到一些教訓了沒,集贊到180更新新的故事哦。


有空來聽聽我們的live,更了解微電子的方方面面。

保研+高薪 Offer,電子信息類學生都該學的大學規劃:保研+高薪 Offer,電子信息類學生都該學的大學規劃

你不了解的微電子行業 :你不了解的微電子行業

半導體先進工藝的器件結構和挑戰 : 半導體先進工藝的器件結構和挑戰


實驗室第一次流片,嗯嗯,就是之前回答中說過的視頻編解碼晶元,承載著實驗室幾年的心血,老闆科研基金結題和一個師兄博士畢業的重任。

片子回來之後上板子測試,上電後什麼信號都測不到,時鐘和複位什麼都沒反應。全部人忙活了一個禮拜,把從代碼,版圖,PCB所有東西都查了一遍,什麼發現都沒有。

某一天,師弟用萬用表隨便測了晶元的管腳發現VDD和GND是反的,然後我們把所有的電源管腳都測了一遍,之後懷疑是封裝有問題。最後我們把晶元缷下來,把新的晶元旋轉90度焊上去,一切正常!


我知道的一個故事:晶元回來,上電不亮,怎麼都不亮,時鐘都沒有,什麼調試手段都用不上,完全就是塊石頭么?_??


上幾個我自己經歷的。

1。foundry把MIM層做錯了。反覆強調MIM不坐在M6和M5之間,做在M4和M3之間。晶元回來各種測試,codec就是不工作。經過多次質疑foundry,終於發現是沒按照要求做。耽誤半年。

2。foundry沒有把IP merge進去。趕上過年,上傳完文件,有修改,又重新上傳。原來跑IP merge腳本的哥們休假過年去了,接手的這位跑完沒check report。生產結束了,foundry告知「不好意思啊,這個IP沒merge進去。。。」 想砍人啊

3。這個是聽說的。IO PAD上沒開孔,沒法打線,沒法測試。。。。。晶元回來了,沒法測試。。。這個倒是可以解決,腐蝕一下,還是可以簡單測試的。

------

4。又想起來一個,聽說的,這個慘,公司連晶元都沒見到。話說wafer生產出來,要放在車子上推著走。一次,一個哥們看反正就幾米的路,於是捧在手裡走了兩步,結果就霉運爆棚,絆倒,wafer盒子掉地上了。

----補---

5。據說,有rom里的code沒寫進去的情況,晶元上電cpu直接死掉。也有code寫錯的。所以,rom code是check list的必選。


有很多驚險的時刻啊...———————————————————

第一次流MMIC LNA時,沒有放晶體管,好在投片前被前輩檢查出來了。然後「放晶體管」就成了一條組內的Check List..

—————————————————————

最近一次是CMOS SoC,最末PA的最後一級Vd沒有連上,因為過LVS方法的問題,沒有檢查出來。流片回來後發現增益不對,反覆查版圖找到了。趕緊FIB(斷開的地方只有幾微米的距離),測試和模擬能基本吻合,只是補的地方電阻率高了點。然後又是加Check List...


寫幾個讀博時經歷過的設計錯誤,2個自己的,1個聽來的:

  1. 自己設計的射頻電路,正常偏置不工作,把電壓加到4V以上才可以(工藝允許的VDD上限是3.6V,好在整個測試期間片子沒給我燒掉)。具體原因不明,似乎是直流偏置的探針的寄生電感和pad的寄生電容耦合振蕩了——因為是蹭師兄們流片的機會,占塊他們不用的空白區做個小電路,那裡不能外接的pin,只能畫幾個pad,在裸片上用探針連下去測試。之前沒考慮過探針的寄生電感不能忽略。
  2. 畢業設計,做出來底噪比信號大~ 當時離畢業也不遠了,不可能重新流片。猛想一個星期,確定了底噪的來源,再花了幾周測量、驗證,最後編了一個標定和消除底噪的演算法,算是把信號取出來了。在畢業論文上,這套演算法的數學推導寫了十幾頁,當然本身不太複雜,只是向量太多,用了無數矩陣表示,非常占頁面。

    這段數學推導,讀起來實在太累,被我的兩位導師、兩位答辯考官全數跳過,答辯順利過關~~ (嗯,但我相信我的證明是準確無誤的)
  3. 答辯後的聊天,聽一位考官吐槽了他的一名學生流片的失敗:功率電路,小心翼翼的設計了電源線上每一路的電流上限——但是忘記GND那頭也需要做這事了,所有的GND電流需要通過一個唯一的via連到pad上。


說幾個跟大家分享交流一下:

1、第一次設計PA,穩定性網路沒有做好,回來以後發現有中頻自激現象,得出的結論是僅僅對circuit整體做穩定性分析是不夠的,必須對每一級管芯分別去完善;

2、某款大功率mmic流片回來測試結果與模擬差異極大,查閱論文及工藝文檔認為是backvia隔離在momentum模擬精度偏低造成的,基於這一思路進行了設計修改,第二次投片非常成功

3、某款中功率晶元採用cascode結構設計,在長期使用過程中出現穩定性問題,也是查閱了不少相關論文才得出了可信的分析報告,這一過程當中積累了許多經驗

其實從業這幾年來說完全流片失敗的晶元不是很多,但是每次找到問題感覺都是對自己的一次提高,遺憾的是更多情況下精確定位和分析確實比較困難,深感自己積累還是不夠,與大家共勉。


我來說個我自己的是。某研究所來我當時工作的研究所(工藝很落後,極其不自動化)流片,特急批,軍工品。

領導安排老師傅親自把關做,我作為技術人員監督。然後老師傅當晚(對的是夜班)太忙了,配液的時候讓我幫忙,於是當時還是小年輕的我幹勁十足的就幫忙配液了,第二天一早,光刻工序反應,Gate都飄起來了。

原因查了一上午沒查出來,然後臨近中午吃飯的時候我猛然想起gate之後的一道wet clean是我配的液,出於謹慎,我去查了下監控視頻,發現我拿錯了液,應該倒H2O2的,我倒了HF了。

反正schedule是妥妥的miss了。不知道領導們是怎麼把那個流片的研究所總工應付過去的。

也許這就是我之後一直在那個研究所混的不順利的原因吧。。。


流片失敗的可能需要分為不同等級吧,最差的就是變磚,什麼功能都沒有,這種一般是犯了低級錯誤,或者代工廠出現重大失誤;好一點的是有一部分功能異常,但沒法補救和使用,也該算失敗了;再好點的情況就是有功能異常,或者還能將就用,可是通過特殊手段還能補救,這種幾乎也不算失敗吧;最常見的是功能正常,但是性能指標不達標,這種情況還是算部分失敗吧,客戶要求嚴格的情況下就絕對是失敗了。

我覺得模擬電路或者射頻微波電路晶元失敗的幾率大得多,數字ic在有完善的流程下應該失敗的幾率小很多。這麼多年做射頻ic也遇到過晶元出問題的情況,大部分是性能指標有欠缺,也有兩次出現功能錯誤的。一次是控制輸入引腳高低電平做反了,疏忽所致;一次是transceiver的中頻濾波器有共模振蕩,主要是全差分運放的共模反饋迴路相位裕量不夠,幸好在片外電路處理後還能測試功能及性能,改版的時候修正了;還有一次是有個電路晶體管襯底端和源端相連,但是版圖工程師沒有添加dnw層,導致襯底被連接到了中間電平,整個晶元無法工作;還有一次因為dnw層導致的問題,esd器件放在dnw裡面,但是上面的nwell連接導致了pad和vdd的短路。所以千萬注意dnw層的使用,它和其上製作的nwell是直接相連的。

整體來說晶元出問題的幾率還是不小的,一定要遵守嚴格的流程,還有就是細心、細心、細心,交叉檢查很重要,當然前面也有人說小夥伴來圍觀不小心給晶元加了點料的,因此許可權管理是必須的。


我自己吧,流的一個極小的測試片,lvs都做完了,組裡小夥計來圍觀,邊角ESD里vdd一個contect砸在了襯底上……然後沒發現,然後上電測試發現怎麼功耗超出想像……


wu


屌絲們,「有Fab,才是真男人」


看完各路大神回答,總結了一下,出錯高的都是學校或者研究所,還是你們有錢有精力。

其次,流片這種事不要找小作坊舊產線,操作人員都是簡單培訓就上崗,出了問題最後都是無頭案,有的只能放棄。

最後,review真的很重要!!!


據說大概十年前國內的一家公司因為核心研發團隊離職,一顆晶元eco外加重新流片搞到F版才成功了。

其實對公司而言,流片失敗不要緊,最不能接受的就是時間的損失吧。


Rom code 後端沒替換進去...


雖然知道很多同事會看到,但還是發了吧。

是的,整個晶圓都存在地孔不通現象,而且是隨機不通,概率大概50%。但是一片上只要有一個地孔不通,就是100%的失敗。


T和我有仇!

1.我在國內一線fabless做的時候,當時最先進工藝測試晶元很好,效果不錯。然而在做量產晶元時發現問題,電壓始終降不下去,攻關後發現某個stdcell性能和datasheet/spice model差異巨大,讓t做micro probing後也終於承認了。受限於ttm,晶元功能沒有問題,性能沒預期那麼好,但也滿足出貨條件,只是良率有些影響。我作為這個領域負責人,只好背鍋!t直接將相應的stdcell替換掉,現在該工藝作為明星工藝,應該有同行受惠而不知

後來複盤時發現idm top廠商對此心知肚明,後端design rule里已有限制和檢查,我們還是吃了苦頭才知道

這個鍋我一直不服,認為是實現團隊的鍋,只是我技術流,沒辦法申訴,部門內有人常以此攻擊我,問題是該技術在其他部門應用非常好,老大常說牆裡開花牆外香!

2.還是在同家公司,投當時最先進工藝的mpw,回片時上電某路電源直接短路,幸好我經驗比較足,上電前讓檢查各電源,因此硬體沒壞,但原因不明。

當時就要炸了,因為我的設計非常特別,非常規數字電路,本來想沖沖業界頂會,吹吹這設計的牛,現在這鳥樣子,心情超不爽。和支撐的兄弟說弄不好老子沒臉呆,滾蛋去球。兄弟安慰說你老大看好你,別亂想(老大確實不錯,讓我在某個領域不受打擾地研究和落地業界最先進技術,當時我的設計比i/a等都先出來,可是受部門各種影響,我還是走了)。

沒辦法,老子是pm/se/關鍵ip designer一肩挑,只能快速從設計/後端/封裝/測試入手,確認所有晶元某路電源都短路,然後查數據,根據可能性終於第三天發現後端提交數據和mask數據在某幾層有差異,T在merge數據時出問題了!趕在最後一個lot前讓t將產線hold住,趕新的mask,終於在延時一個多月後晶元回來,測試正常,非常規數字設計表現不錯,我又沒臉沒皮地混了好幾年。


已經跑十多層光刻的片子,倒數幾步的時候卡到塗膠機了,卡住了,卡住了?!出來就是廢片了...


聽說的,block 電源地用tie cell 給供的,drc lvs都沒問題。 review 給查出來了


部分故事看上去都是低級錯誤,稍微細心一點,基本不會發生的。


推薦閱讀:

台積電是一家怎樣的公司?
集成電路工程與微電子學,怎麼選?發展前途各怎麼樣?
3D XPoint 相比 3D NAND Flash 有什麼不同?
數字IC設計領域有哪些聖經?成為一名數字IC設計專家需要怎樣的知識結構和技能?
數字IC dft engineer 需要什麼知識以及發展前景怎麼樣?

TAG:中央處理器CPU | 晶元集成電路 | 半導體產業 |