【散熱劃時代革命-液冷散熱】
時間:2021/8/1
發文:NO.1287篇
大家好,我是 LEO
.
❖晶片效能越強-解熱難度越高
隨著半導體晶片發展-體積越來越小,電晶體密度越來越高,逐漸朝向高性能,超薄,微型化發展,電子元件散熱的空間越來越小,單位面積內所產生的熱能卻越來越高,無論是手機、電腦發熱發熱密度皆呈現指數級增長,此外,加密貨幣挖礦場,大型伺服器與資料中心,高階CPU、GPU產生的熱能更為驚人,如果熱能不能快速有效散出,輕則影響效能,嚴重會導致電腦或手機產生「電子遷移效應」,導致當機無法工作。
.
❖台積電未雨綢繆超前部署
今年7月台積電在超大型積體電路 (VLSI) 研討會,展示晶片水冷研究結果,採用水通道直接引導到晶片,藉此提高晶片散熱效率。聽起來覺得不可思議,為什麼突然做這項研究?傳統晶片散熱-在晶片上塗導熱矽脂,將熱量傳到散熱器底部,導熱管、水冷管再將熱量導到鰭片,最後風扇將鰭片的熱量吹走,完成散熱。
.
但是,若未來晶片採用 3D 堆疊技術,最新的SoIC先進封裝可以任意組合各種不同製程的晶片,除了記憶體甚至還能直接將感測器一起封裝在同一顆晶片裡面,線路的密度將是2.5D的1000倍,散熱就會遇到大瓶頸。
.
3D堆疊晶片設計更複雜,更小的微縮製程,把晶片一層一層的堆疊起來,中間部分難以有效散熱,所以台積電的研究人員認為,解決方法就是讓水在夾層電路間流動,讓水直接從晶片內帶走熱量,這是最有效的方案,這裡指的水並非一般純水,而是不會導電的介電液,實際上操作起來非常複雜且昂貴,目前處於研究階段,這顯示出解決晶片散熱問題,將是半導體產業未來重要發展趨勢之一。
.
❖晶片改朝換代推動-伺服器新設計
我們從上面描述可以知道新晶片設計只會更小,更複雜,更熱,而伺服器產業面臨的問題會更大,試想大型資料處理中心,裡面有多少伺服器?多少高階CPU、GPU都是24小時不斷電持續運作,龐大的熱能如何處理?當處理器的瓦數越來越高,一般來說,處理器的熱設計功耗超過240W就很難用風扇(氣冷)來解決,偏偏霸主Intel或是AMD新一代處理器動輒超過270甚至280W,現在馬上面臨到需要液冷散熱來帶走熱量。
.
❖跟著產業霸主的方向走準沒錯
Intel在伺服器市場,主流解決方案以x86架構為主,全球 CPU市占率約 92%左右。未來Intel 仍將保持產業龍頭的地位,圍繞它的 CPU平台的升級仍是影響伺服器硬體產業鏈周期性變化的關鍵因素。
.
2021 年第一季開始Intel最新的 Whitley Ice Lake 的處理器已向資料中心業者小量出貨,第二季開始放量,到第四季預估將占總出貨量的 40%,滲透率將大幅且快速提升,下一步,Intel英特爾預計 2022 年初量產支援 PCIe Gen5 的 Eagle Stream 平台,將會加速升級資料傳輸速度。
.
❖英特爾正式將水冷散熱放進白皮書
有趣的事情來了,產業龍頭也意識到新平台-散熱問題非常棘手,2020年Whitley平台是intel「首度」將水冷頭(注意:非浸沒式)納入技術白皮書,更誇張的事情是未來的新平台 Eagle Stream第一顆CPU Sapphire Rapids至少 300W以上,甚至將來很多GPU會達到500瓦甚至700W以上,水冷散熱方案成為唯一解方,冷卻液監控主機(CDU)與水冷頭(覆蓋在處理器上方的水冷散熱片)全世界只有三家廠商通過Intel認證,台灣的廣運(6125)是唯一兩項全拿的合格供應商。
.
❖節能減碳-省電又可以賺積分
歐盟在7月剛通過55套案,其中碳邊境調整機制,又稱碳關稅,預計自2023年起試行,2026年正式實施,先從鋼鐵、電力等產業先行,但是用電大戶的資料中心無法置身事外,跟大家分享一個數字會比較有概念,2017年中國數據中心總耗電量為1200-1300億KW,超過三峽大壩與葛洲壩電廠2017年全年發電量總和(分別為976億KW、190億KW),占中國總發電量的2%,到了2025年資料中心耗電將高達 3842億KW,占全中國總發電量的 6%,這隻吃電怪獸肯定會被盯上,高排碳業者會被課較高關稅(碳關稅),將進一步帶動資料中心業者積極導入液冷散熱達到「省電」與「節能減碳」的效果,甚至有望仿效電動車Tesla透過碳積分來挹注獲利,可望大幅提高液冷散熱滲透率。
.
❖水冷散熱技術門檻高-不簡單
2021年3月26日雲端資料中心伺服器開發商---緯穎科技宣佈,參與資料中心液冷廠商LiquidStack的A輪融資,並取得一席董事席位,其實早在2019年緯穎就與3M合作開發液冷方案,但是3M的電子氟化液是非導電-介電液是一種專利配方,掌握在3M手中,未來耗材都需向3M購買補充,入股LiquidStack可望取得自主技術。
.
大家知道這種-不導電的「介電液」有多貴嗎?1公斤要價100美元,一個180KW的機櫃光是介電液裝滿就要價1000萬,重點是這個介電液每年都會耗損,需要定時補充,這樣就知道賣水的概念有恐怖、有多賺了吧,得介電液者得天下。
就算目前短期重點放在一般的「冷卻水」,得到英特爾認證的兩款冷卻水,一個櫃的成本大約7~8萬元,廣運集團研發成功的介電液打七折賣,一公斤70美元就相當有競爭力,而冷卻水一個櫃更只需要8000元,重點是水要通過認證,水在管線裡面跑如何恆久不變質?裡面還必須添加抗凍劑、苔癬抑制劑等特殊配方,是不是很多眉角!這些都是LEO深入研究去挖出來的。
.
❖廣運(6125)上中下游整套系統全部整合
目前有三大產品線,水冷背門(20~25萬)/櫃,水冷頭(100~150萬)/櫃-目前英特爾首度放入新平台技術白皮書,已通過Intel認證,浸沒式機櫃(1000萬)/櫃,此外還有最重要的冷卻液監控主機(CDU)它是水冷散熱技術的根源,還有各種耗材、管線、冷卻水、介電液都是未來的發展重點。
.
傳統散熱模組雖然便宜,一個42U的機櫃,風扇加散熱模組成本頂多台幣8~10萬,但將來水冷變成剛性需求,水冷頭機櫃,水對氣120~150萬/櫃,水對水90~120萬/櫃,全球的資料中心大約有 500萬櫃,每年新增30萬櫃左右,大家可以算看看,這產值增速有多恐怖。
.
目前全世界只有2家公司有能力量產伺服器等級水冷頭機櫃,雙鴻、超眾這些傳統大廠要跨入最難的CDU(水冷監控主機)至少需要5年以上的參數與經驗值,而廣運的陳總已經深耕30年的散熱產業經驗,水冷頭機櫃的五大關鍵零件--廣運擁有四項(CDU、水冷頭、分岐管、制冷背門)盲插或快接頭,這個產業很新,很多法人也還沒那麼了解,有很多眉角,很多技術秘密,篇幅有限今天LEO就先介紹的這邊。
.
如果大家想知道更多關於這個新的「水冷散熱產業」訊息,請鎖定 LEO股民當家團隊的頻道喔,⧉傳送門在下方↓
.
❖Line群組傳送門⤵
https://lihi1.com/jjjwf
❖TG 頻道傳送門⤵
https://t.me/stock17168
天佑台灣,疫情早日結束❤️
同時也有29部Youtube影片,追蹤數超過86萬的網紅Aotter Girls: Girl's Tech Talk,也在其Youtube影片中提到,MSI 這次推出了超過 10 幾款的筆電! 其中最大亮點就是位創作者而生的 Creator Z16 搭載第 11 代 Intel Core i7 處理器 還有 NVIDIA GeForce RTX 30 系列獨立顯示卡 Render 3D 動畫速度比上一代還要快 40% 看完整的全球線上發表會:ht...
「記憶體速度比較」的推薦目錄:
- 關於記憶體速度比較 在 股民當家 幸福理財 Facebook 的最佳貼文
- 關於記憶體速度比較 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳貼文
- 關於記憶體速度比較 在 矽谷牛的耕田筆記 Facebook 的最讚貼文
- 關於記憶體速度比較 在 Aotter Girls: Girl's Tech Talk Youtube 的精選貼文
- 關於記憶體速度比較 在 Aotter Girls: Girl's Tech Talk Youtube 的最讚貼文
- 關於記憶體速度比較 在 陳寗 NingSelect Youtube 的最佳解答
- 關於記憶體速度比較 在 [問題] 要怎和人解釋ram和rom的差別- 看板MobileComm 的評價
- 關於記憶體速度比較 在 【教學】電腦記憶體怎麼買?容量要多大?速度多快 ... - YouTube 的評價
- 關於記憶體速度比較 在 請問各位高手,記憶體是容量比較重要還是速度比較重要? 的評價
- 關於記憶體速度比較 在 記憶體速度測試在PTT/Dcard完整相關資訊 - 輕鬆健身去 的評價
- 關於記憶體速度比較 在 記憶體速度測試在PTT/Dcard完整相關資訊 - 輕鬆健身去 的評價
記憶體速度比較 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳貼文
摩爾定律放緩 靠啥提升AI晶片運算力?
作者 : 黃燁鋒,EE Times China
2021-07-26
對於電子科技革命的即將終結的說法,一般認為即是指摩爾定律的終結——摩爾定律一旦無法延續,也就意味著資訊技術的整棟大樓建造都將出現停滯,那麼第三次科技革命也就正式結束了。這種聲音似乎是從十多年前就有的,但這波革命始終也沒有結束。AI技術本質上仍然是第三次科技革命的延續……
人工智慧(AI)的技術發展,被很多人形容為第四次科技革命。前三次科技革命,分別是蒸汽、電氣、資訊技術(電子科技)革命。彷彿這“第四次”有很多種說辭,比如有人說第四次科技革命是生物技術革命,還有人說是量子技術革命。但既然AI也是第四次科技革命之一的候選技術,而且作為資訊技術的組成部分,卻又獨立於資訊技術,即表示它有獨到之處。
電子科技革命的即將終結,一般認為即是指摩爾定律的終結——摩爾定律一旦無法延續,也就意味著資訊技術的整棟大樓建造都將出現停滯,那麼第三次科技革命也就正式結束了。這種聲音似乎是從十多年前就有,但這波革命始終也沒有結束。
AI技術本質上仍然是第三次科技革命的延續,它的發展也依託於幾十年來半導體科技的進步。這些年出現了不少專門的AI晶片——而且市場參與者相眾多。當某一個類別的技術發展到出現一種專門的處理器為之服務的程度,那麼這個領域自然就不可小覷,就像當年GPU出現專門為圖形運算服務一樣。
所以AI晶片被形容為CPU、GPU之後的第三大類電腦處理器。AI專用處理器的出現,很大程度上也是因為摩爾定律的發展進入緩慢期:電晶體的尺寸縮減速度,已經無法滿足需求,所以就必須有某種專用架構(DSA)出現,以快速提升晶片效率,也才有了專門的AI晶片。
另一方面,摩爾定律的延緩也成為AI晶片發展的桎梏。在摩爾定律和登納德縮放比例定律(Dennard Scaling)發展的前期,電晶體製程進步為晶片帶來了相當大的助益,那是「happy scaling down」的時代——CPU、GPU都是這個時代受益,不過Dennard Scaling早在45nm時期就失效了。
AI晶片作為第三大類處理器,在這波發展中沒有趕上happy scaling down的好時機。與此同時,AI應用對運算力的需求越來越貪婪。今年WAIC晶片論壇圓桌討論環節,燧原科技創始人暨CEO趙立東說:「現在訓練的GPT-3模型有1750億參數,接近人腦神經元數量,我以為這是最大的模型了,要千張Nvidia的GPU卡才能做。談到AI運算力需求、模型大小的問題,說最大模型超過萬億參數,又是10倍。」
英特爾(Intel)研究院副總裁、中國研究院院長宋繼強說:「前兩年用GPU訓練一個大規模的深度學習模型,其碳排放量相當於5台美式車整個生命週期產生的碳排量。」這也說明了AI運算力需求的貪婪,以及提供運算力的AI晶片不夠高效。
不過作為產業的底層驅動力,半導體製造技術仍源源不斷地為AI發展提供推力。本文將討論WAIC晶片論壇上聽到,針對這個問題的一些前瞻性解決方案——有些已經實現,有些則可能有待時代驗證。
XPU、摩爾定律和異質整合
「電腦產業中的貝爾定律,是說能效每提高1,000倍,就會衍生出一種新的運算形態。」中科院院士劉明在論壇上說,「若每瓦功耗只能支撐1KOPS的運算,當時的這種運算形態是超算;到了智慧型手機時代,能效就提高到每瓦1TOPS;未來的智慧終端我們要達到每瓦1POPS。 這對IC提出了非常高的要求,如果依然沿著CMOS這條路去走,當然可以,但會比較艱辛。」
針對性能和效率提升,除了尺寸微縮,半導體產業比較常見的思路是電晶體結構、晶片結構、材料等方面的最佳化,以及處理架構的革新。
(1)AI晶片本身其實就是對處理器架構的革新,從運算架構的層面來看,針對不同的應用方向造不同架構的處理器是常規,更專用的處理器能促成效率和性能的成倍增長,而不需要依賴於電晶體尺寸的微縮。比如GPU、神經網路處理器(NPU,即AI處理器),乃至更專用的ASIC出現,都是這類思路。
CPU、GPU、NPU、FPGA等不同類型的晶片各司其職,Intel這兩年一直在推行所謂的「XPU」策略就是用不同類型的處理器去做不同的事情,「整合起來各取所需,用組合拳會好過用一種武器去解決所有問題。」宋繼強說。Intel的晶片產品就涵蓋了幾個大類,Core CPU、Xe GPU,以及透過收購獲得的AI晶片Habana等。
另外針對不同類型的晶片,可能還有更具體的最佳化方案。如當代CPU普遍加入AVX512指令,本質上是特別針對深度學習做加強。「專用」的不一定是處理器,也可以是處理器內的某些特定單元,甚至固定功能單元,就好像GPU中加入專用的光線追蹤單元一樣,這是當代處理器普遍都在做的一件事。
(2)從電晶體、晶片結構層面來看,電晶體的尺寸現在仍然在縮減過程中,只不過縮減幅度相比過去變小了——而且為緩解電晶體性能的下降,需要有各種不同的技術來輔助尺寸變小。比如說在22nm節點之後,電晶體變為FinFET結構,在3nm之後,電晶體即將演變為Gate All Around FET結構。最終會演化為互補FET (CFET),其本質都是電晶體本身充分利用Z軸,來實現微縮性能的提升。
劉明認為,「除了基礎元件的變革,IC現在的發展還是比較多元化,包括新材料的引進、元件結構革新,也包括微影技術。長期賴以微縮的基本手段,現在也在發生巨大的變化,特別是未來3D的異質整合。這些多元技術的協同發展,都為晶片整體性能提升帶來了很好的增益。」
他並指出,「從電晶體級、到晶圓級,再到晶片堆疊、引線接合(lead bonding),精準度從毫米向奈米演進,互連密度大大提升。」從晶圓/裸晶的層面來看,則是眾所周知的朝more than moore’s law這樣的路線發展,比如把兩片裸晶疊起來。現在很熱門的chiplet技術就是比較典型的並不依賴於傳統電晶體尺寸微縮,來彈性擴展性能的方案。
台積電和Intel這兩年都在大推將不同類型的裸晶,異質整合的技術。2.5D封裝方案典型如台積電的CoWoS,Intel的EMIB,而在3D堆疊上,Intel的Core LakeField晶片就是用3D Foveros方案,將不同的裸晶疊在一起,甚至可以實現兩片運算裸晶的堆疊、互連。
之前的文章也提到過AMD剛發佈的3D V-Cache,將CPU的L3 cache裸晶疊在運算裸晶上方,將處理器的L3 cache大小增大至192MB,對儲存敏感延遲應用的性能提升。相比Intel,台積電這項技術的獨特之處在於裸晶間是以混合接合(hybrid bonding)的方式互連,而不是micro-bump,做到更小的打線間距,以及晶片之間數十倍通訊性能和效率提升。
這些方案也不直接依賴傳統的電晶體微縮方案。這裡實際上還有一個方面,即新材料的導入專家們沒有在論壇上多說,本文也略過不談。
1,000倍的性能提升
劉明談到,當電晶體微縮的空間沒有那麼大的時候,產業界傾向於採用新的策略來評價技術——「PPACt」——即Powe r(功耗)、Performance (性能)、Cost/Area-Time (成本/面積-時間)。t指的具體是time-to-market,理論上應該也屬於成本的一部分。
電晶體微縮方案失效以後,「多元化的技術變革,依然會讓IC性能得到進一步的提升。」劉明說,「根據預測,這些技術即使不再做尺寸微縮,也會讓IC的晶片性能做到500~1,000倍的提升,到2035年實現Zetta Flops的系統性能水準。且超算的發展還可以一如既往地前進;單裸晶儲存容量變得越來越大,IC依然會為產業發展提供基礎。」
500~1,000倍的預測來自DARPA,感覺有些過於樂觀。因為其中的不少技術存在比較大的邊際遞減效應,而且有更實際的工程問題待解決,比如運算裸晶疊層的散熱問題——即便業界對於這類工程問題的探討也始終在持續。
不過1,000倍的性能提升,的確說明摩爾定律的終結並不能代表第三次科技革命的終結,而且還有相當大的發展空間。尤其本文談的主要是AI晶片,而不是更具通用性的CPU。
矽光、記憶體內運算和神經型態運算
在非傳統發展路線上(以上內容都屬於半導體製造的常規思路),WAIC晶片論壇上宋繼強和劉明都提到了一些頗具代表性的技術方向(雖然這可能與他們自己的業務方向或研究方向有很大的關係)。這些技術可能尚未大規模推廣,或者仍在商業化的極早期。
(1)近記憶體運算和記憶體內運算:處理器性能和效率如今面臨的瓶頸,很大程度並不在單純的運算階段,而在資料傳輸和儲存方面——這也是共識。所以提升資料的傳輸和存取效率,可能是提升整體系統性能時,一個非常靠譜的思路。
這兩年市場上的處理器產品用「近記憶體運算」(near-memory computing)思路的,應該不在少數。所謂的近記憶體運算,就是讓儲存(如cache、memory)單元更靠近運算單元。CPU的多層cache結構(L1、L2、L3),以及電腦處理器cache、記憶體、硬碟這種多層儲存結構是常規。而「近記憶體運算」主要在於究竟有多「近」,cache記憶體有利於隱藏當代電腦架構中延遲和頻寬的局限性。
這兩年在近記憶體運算方面比較有代表性的,一是AMD——比如前文提到3D V-cache增大處理器的cache容量,還有其GPU不僅在裸晶內導入了Infinity Cache這種類似L3 cache的結構,也更早應用了HBM2記憶體方案。這些實踐都表明,儲存方面的革新的確能帶來性能的提升。
另外一個例子則是Graphcore的IPU處理器:IPU的特點之一是在裸晶內堆了相當多的cache資源,cache容量遠大於一般的GPU和AI晶片——也就避免了頻繁的訪問外部儲存資源的操作,極大提升頻寬、降低延遲和功耗。
近記憶體運算的本質仍然是馮紐曼架構(Von Neumann architecture)的延續。「在做處理的過程中,多層級的儲存結構,資料的搬運不僅僅在處理和儲存之間,還在不同的儲存層級之間。這樣頻繁的資料搬運帶來了頻寬延遲、功耗的問題。也就有了我們經常說的運算體系內的儲存牆的問題。」劉明說。
構建非馮(non-von Neumann)架構,把傳統的、以運算為中心的馮氏架構,變換一種新的運算範式。把部分運算力下推到儲存。這便是記憶體內運算(in-memory computing)的概念。
記憶體內運算的就現在看來還是比較新,也有稱其為「存算一體」。通常理解為在記憶體中嵌入演算法,儲存單元本身就有運算能力,理論上消除資料存取的延遲和功耗。記憶體內運算這個概念似乎這在資料爆炸時代格外醒目,畢竟可極大減少海量資料的移動操作。
其實記憶體內運算的概念都還沒有非常明確的定義。現階段它可能的內涵至少涉及到在儲記憶體內部,部分執行資料處理工作;主要應用於神經網路(因為非常契合神經網路的工作方式),以及這類晶片具體的工作方法上,可能更傾向於神經型態運算(neuromorphic computing)。
對於AI晶片而言,記憶體內運算的確是很好的思路。一般的GPU和AI晶片執行AI負載時,有比較頻繁的資料存取操作,這對性能和功耗都有影響。不過記憶體內運算的具體實施方案,在市場上也是五花八門,早期比較具有代表性的Mythic導入了一種矩陣乘的儲存架構,用40nm嵌入式NOR,在儲記憶體內部執行運算,不過替換掉了數位週邊電路,改用類比的方式。在陣列內部進行模擬運算。這家公司之前得到過美國國防部的資金支援。
劉明列舉了近記憶體運算和記憶體內運算兩種方案的例子。其中,近記憶體運算的這個方案應該和AMD的3D V-cache比較類似,把儲存裸晶和運算裸晶疊起來。
劉明指出,「這是我們最近的一個工作,採用hybrid bonding的技術,與矽通孔(TSV)做比較,hybrid bonding功耗是0.8pJ/bit,而TSV是4pJ/bit。延遲方面,hybrid bonding只有0.5ns,而TSV方案是3ns。」台積電在3D堆疊方面的領先優勢其實也體現在hybrid bonding混合鍵合上,前文也提到了它具備更高的互連密度和效率。
另外這套方案還將DRAM刷新頻率提高了一倍,從64ms提高至128ms,以降低功耗。「應對刷新率變慢出現拖尾bit,我們引入RRAM TCAM索引這些tail bits」劉明說。
記憶體內運算方面,「傳統運算是用布林邏輯,一個4位元的乘法需要用到幾百個電晶體,這個過程中需要進行資料來回的移動。記憶體內運算是利用單一元件的歐姆定律來完成一次乘法,然後利用基爾霍夫定律完成列的累加。」劉明表示,「這對於今天深度學習的矩陣乘非常有利。它是原位的運算和儲存,沒有資料搬運。」這是記憶體內運算的常規思路。
「無論是基於SRAM,還是基於新型記憶體,相比近記憶體運算都有明顯優勢,」劉明認為。下圖是記憶體內運算和近記憶體運算,精準度、能效等方面的對比,記憶體內運算架構對於低精準度運算有價值。
下圖則總結了業內主要的一些記憶體內運算研究,在精確度和能效方面的對應關係。劉明表示,「需要高精確度、高運算力的情況下,近記憶體運算目前還是有優勢。不過記憶體內運算是更新的技術,這幾年的進步也非常快。」
去年阿里達摩院發佈2020年十大科技趨勢中,有一個就是存算一體突破AI算力瓶頸。不過記憶體內運算面臨的商用挑戰也一點都不小。記憶體內運算的通常思路都是類比電路的運算方式,這對記憶體、運算單元設計都需要做工程上的考量。與此同時這樣的晶片究竟由誰來造也是個問題:是記憶體廠商,還是數文書處理器廠商?(三星推過記憶體內運算晶片,三星、Intel垂直整合型企業似乎很適合做記憶體內運算…)
(2)神經型態運算:神經型態運算和記憶體內運算一樣,也是新興技術的熱門話題,這項技術有時也叫作compute in memory,可以認為它是記憶體內運算的某種發展方向。神經型態和一般神經網路AI晶片的差異是,這種結構更偏「類人腦」。
進行神經型態研究的企業現在也逐漸變得多起來,劉明也提到了AI晶片「最終的理想是在結構層次模仿腦,元件層次逼近腦,功能層次超越人腦」的「類腦運算」。Intel是比較早關注神經型態運算研究的企業之一。
傳說中的Intel Loihi就是比較典型存算一體的架構,「這片裸晶裡面包含128個小核心,每個核心用於模擬1,024個神經元的運算結構。」宋繼強說,「這樣一塊晶片大概可以類比13萬個神經元。我們做到的是把768個晶片再連起來,構成接近1億神經元的系統,讓學術界的夥伴去試用。」
「它和深度學習加速器相比,沒有任何浮點運算——就像人腦裡面沒有乘加器。所以其學習和訓練方法是採用一種名為spike neutral network的路線,功耗很低,也可以訓練出做視覺辨識、語言辨識和其他種類的模型。」宋繼強認為,不採用同步時脈,「刺激的時候就是一個非同步電動勢,只有工作部分耗電,功耗是現在深度學習加速晶片的千分之一。」
「而且未來我們可以對不同區域做劃分,比如這兒是視覺區、那兒是語言區、那兒是觸覺區,同時進行多模態訓練,互相之間產生關聯。這是現在的深度學習模型無法比擬的。」宋繼強說。這種神經型態運算晶片,似乎也是Intel在XPU方向上探索不同架構運算的方向之一。
(2)微型化矽光:這個技術方向可能在層級上更偏高了一些,不再晶片架構層級,不過仍然值得一提。去年Intel在Labs Day上特別談到了自己在矽光(Silicon Photonics)的一些技術進展。其實矽光技術在連接資料中心的交換機方面,已有應用了,發出資料時,連接埠處會有個收發器把電訊號轉為光訊號,透過光纖來傳輸資料,另一端光訊號再轉為電訊號。不過傳統的光收發器成本都比較高,內部元件數量大,尺寸也就比較大。
Intel在整合化的矽光(IIIV族monolithic的光學整合化方案)方面應該是商業化走在比較前列的,就是把光和電子相關的組成部分高度整合到晶片上,用IC製造技術。未來的光通訊不只是資料中心機架到機架之間,也可以下沉到板級——就跟現在傳統的電I/O一樣。電互連的主要問題是功耗太大,也就是所謂的I/O功耗牆,這是這類微型化矽光元件存在的重要價值。
這其中存在的技術挑戰還是比較多,如做資料的光訊號調變的調變器調變器,據說Intel的技術使其實現了1,000倍的縮小;還有在接收端需要有個探測器(detector)轉換光訊號,用所謂的全矽微環(micro-ring)結構,實現矽對光的檢測能力;波分複用技術實現頻寬倍增,以及把矽光和CMOS晶片做整合等。
Intel認為,把矽光模組與運算資源整合,就能打破必須帶更多I/O接腳做更大尺寸處理器的這種趨勢。矽光能夠實現的是更低的功耗、更大的頻寬、更小的接腳數量和尺寸。在跨處理器、跨伺服器節點之間的資料互動上,這類技術還是頗具前景,Intel此前說目標是實現每根光纖1Tbps的速率,並且能效在1pJ/bit,最遠距離1km,這在非本地傳輸上是很理想的數字。
還有軟體…
除了AI晶片本身,從整個生態的角度,包括AI感知到運算的整個鏈條上的其他組成部分,都有促成性能和效率提升的餘地。比如這兩年Nvidia從軟體層面,針對AI運算的中間層、庫做了大量最佳化。相同的底層硬體,透過軟體最佳化就能實現幾倍的性能提升。
宋繼強說,「我們發現軟體最佳化與否,在同一個硬體上可以達到百倍的性能差距。」這其中的餘量還是比較大。
在AI開發生態上,雖然Nvidia是最具發言權的;但從戰略角度來看,像Intel這種研發CPU、GPU、FPGA、ASIC,甚至還有神經型態運算處理器的企業而言,不同處理器統一開發生態可能更具前瞻性。Intel有個稱oneAPI的軟體平台,用一套API實現不同硬體性能埠的對接。這類策略對廠商的軟體框架構建能力是非常大的考驗——也極大程度關乎底層晶片的執行效率。
在摩爾定律放緩、電晶體尺寸微縮變慢甚至不縮小的前提下,處理器架構革新、異質整合與2.5D/3D封裝技術依然可以達成1,000倍的性能提升;而一些新的技術方向,包括近記憶體運算、記憶體內運算和微型矽光,能夠在資料訪存、傳輸方面產生新的價值;神經型態運算這種類腦運算方式,是實現AI運算的目標;軟體層面的最佳化,也能夠帶動AI性能的成倍增長。所以即便摩爾定律嚴重放緩,AI晶片的性能、效率提升在上面提到的這麼多方案加持下,終將在未來很長一段時間內持續飛越。這第三(四)次科技革命恐怕還很難停歇。
資料來源:https://www.eettaiwan.com/20210726nt61-ai-computing/?fbclid=IwAR3BaorLm9rL2s1ff6cNkL6Z7dK8Q96XulQPzuMQ_Yky9H_EmLsBpjBOsWg
記憶體速度比較 在 矽谷牛的耕田筆記 Facebook 的最讚貼文
本文延續前篇效能校正的經驗談,上篇文章探討了關於應用程式本身可以最佳化的部分,包含了應用程式以及框架兩個部分。本篇文章將繼續剩下最佳化步驟的探討。
Speculative Execution Mitigations
接下來探討這個最佳化步驟對於效能有顯著的提升,但是本身卻是一個非常具有爭議性的步驟,因為其涉及到整個系統的安全性問題。
如果大家對前幾年非常著名的安全性漏洞 Spectre/Meltdown 還有印象的話,本次這個最佳化要做的就是關閉這類型安全性漏洞的處理方法。
標題的名稱 Speculative Execution Migitations 主要跟這漏洞的執行概念與 Pipeline 有關,有興趣理解這兩種漏洞的可以自行研究。
作者提到,大部分情況下這類型的防護能力都應該打開,不應該關閉。不過作者認為開關與否應該是一個可以討論的空間,特別是如果已經確認某些特別情境下,關閉防護能力帶來的效能如果更好,其實也是一個可以考慮的方向。
舉例來說,假設今天你運行了基於 Linux 使用者權限控管與 namespaces 等機制來建立安全防護的多使用者系統,那這類型的防護能力就不能關閉,必須要打開來防護確保整體的 Security Boundary 是完整的。 但是如果今天透過 AWS EC2 運行一個單純的 API Server,假設整個機器不會運行任何不被信任的程式碼,同時使用 AWS Nitro Enclaves 來保護任何的機密資訊,那這種情況下是否有機會可以關閉這類型的檢查?
作者根據 AWS 對於安全性的一系列說明認為 AWS 本身針對記憶體的部分有很強烈的保護,包含使用者之間沒有辦法存取 Hyperviosr 或是彼此 instance 的 Memory。
總之針對這個議題,有很多的空間去討論是否要關閉,以下就單純針對關閉防護能力帶來的效能提升。
作者總共關閉針對四種攻擊相關的處理能力,分別是
Spectre V1 + SWAPGS
Spectre V2
Spectre V3/Meltdown
MDS/Zombieload, TSX Anynchronous Abort
與此同時也保留剩下四個,如 iTLB multihit, SRBDS 等
這種設定下,整體的運作效能再次提升了 28% 左右,從 347k req/s 提升到 446k req/s。
註: 任何安全性的問題都不要盲從亂遵循,都一定要評估判斷過
Syscall Auditing/Blocking
大部分的情況下,Linux/Docker 處理關於系統呼叫 Auditing/Blocking 兩方面所帶來的效能影響幾乎微乎其微,不過當系統每秒執行數百萬個系統呼叫時,這些額外的效能負擔則不能忽視,如果仔細觀看前述的火焰圖的話就會發線 audit/seccomp 等數量也不少。
Linux Kernel Audit 子系統提供了一個機制來收集與紀錄任何跟安全性有關的事件,譬如存取敏感的機密檔案或是呼叫系統呼叫。透過這些內容可以幫助使用者去除錯任何不被預期的行為。
Audit 子系統於 Amazon Linux2 的環境下預設是開啟,但是本身並沒有被設定會去紀錄系統呼叫的資訊。
即使 Audit 子系統沒有真的去紀錄系統呼叫的資訊,該子系統還是會對每次的系統呼叫產生一點點的額外處理,所以作者透過 auditctl -a never,task 這個方式來將整體關閉。
註: 根據 Redhat bugzilla issue #1117953, Fedora 預設是關閉這個行為的
Docker/Container 透過一連串 Linux Kernel 的機制來隔離與控管 Container 的執行權限,譬如 namespace, Linux capabilities., cgroups 以及 seccomp。
Seccomp 則是用來限制這些 Container 能夠執行的系統呼叫類型
大部分的容器化應用程式即使沒有開啟 Seccomp 都能夠順利的執行,執行 docker 的時候可以透過 --security-opt seccomp=unconfined 這些參數告訴系統運行 Container 的時候不要套用任何 seccomp 的 profile.
將這兩個機制關閉後,系統帶來的效能提升了 11%,從 446k req/s 提升到 495k req/s。
從火焰圖來看,關閉這兩個設定後,syscall_trace_enter 以及 syscall_slow_exit_work 這兩個系統呼叫也從火焰圖中消失,此外作者發現 Amazon Linux2 預設似乎沒有啟動 Apparmor 的防護,因為不論有沒有關閉效能都沒有特別影響。
Disabling iptables/netfilter
再來的最佳化則是跟網路有關,大名鼎鼎的 netfilter 子系統,其中非常著名的應用 iptables 可以提供如防火牆與 NAT 相關功能。根據前述的火焰圖可以觀察到,netfilter 的進入 function nf_hook_slow 佔據了大概 18% 的時間。
將 iptables 關閉相較於安全性來說比較沒有爭議,反而是功能面會不會有應用程式因為 iptables 關閉而不能使用。預設情況下 docker 會透過 iptables 來執行 SNAT與 DNAT(有-p的話)。
作者認為現在環境大部分都將 Firewall 的功能移到外部 Cloud 來處理,譬如 AWS Security Group 了,所以 Firewall 的需求已經減少,至於 SNAT/DNAT 這類型的處理可以讓容器與節點共享網路來處理,也就是運行的時候給予 “–network=host” 的模式來避免需要 SNAT/DNAT 的情境。
作者透過修改腳本讓開機不會去預設載入相關的 Kernel Module 來達到移除的效果,測試起來整體的效能提升了 22%,從 495k req/s 提升到 603k req/s
註: 這個議題需要想清楚是否真的不需要,否則可能很多應用都會壞掉
作者還特別測試了一下如果使用 iptables 的下一代框架 nftables 的效能,發現 nftables 的效能好非常多。載入 nftables 的kernel module 並且沒有規則的情況下,效能幾乎不被影響(iptables 則相反,沒有規則也是會影響速度)。作者認為採用 nftables 似乎是個更好的選擇,能夠有效能的提升同時也保有能力的處理。
不過 nftables 的支援相較於 iptables 來說還是比較差,不論是從 OS 本身的支援到相關第三方工具的支援都還沒有這麼完善。就作者目前的認知, Debian 10, Fedora 32 以及 RHEL 8 都已經轉換到使用 nftables 做為預設的處理機制,同時使用 iptables-nft 這一個中介層的轉換者,讓所有 user-space 的規則都會偷偷的轉換為底層的 nftables。
Ubuntu 似乎要到 20.04/20.10 的正式版本才有嘗試轉移到的動作,而 Amazon Linux 2 依然使用 iptables 來處理封包。
下篇文章會繼續從剩下的五個最佳化策略繼續介紹
https://talawah.io/blog/extreme-http-performance-tuning-one-point-two-million/
記憶體速度比較 在 Aotter Girls: Girl's Tech Talk Youtube 的精選貼文
MSI 這次推出了超過 10 幾款的筆電!
其中最大亮點就是位創作者而生的 Creator Z16
搭載第 11 代 Intel Core i7 處理器
還有 NVIDIA GeForce RTX 30 系列獨立顯示卡
Render 3D 動畫速度比上一代還要快 40%
看完整的全球線上發表會:https://youtu.be/wCSGDpvI1tc
【製作團隊】
企劃:莫娜
腳本:莫娜
攝影:莫娜、貝爾
剪輯:靜香
字幕:靜香
監製:宇恩、蜜柑
✨✨✨加入獺友快充組:https://supr.link/zZE8x
🔥 熱門影片 🔥
蘋果發表會懶人包!新色 iPhone、新 iPad Pro、AirTag、iMac!Apple TV 4K 也更新了!
👉 https://supr.link/arwKp
iPad Air 4 與 iPad Pro 實際上手比較!螢幕、處理器、喇叭用起來真的有差嗎?
👉 https://supr.link/APDcF
iPad Pro (2020) 開箱!買了它就不用買 MacBook Air 了嗎?
👉 https://supr.link/01OOf
ROG Phone 5 Ultimate 開箱實測!18GB 記憶體是什麼概念?四款熱門遊戲玩起來順嗎?
👉 https://supr.link/WK912
沒人告訴我 拍剪 4K 影片這麼麻煩這麼花錢阿!理由與心情
👉 https://supr.link/1VY3G
※更多開箱影片 👉 https://supr.link/hEERu
※更多 iPhone 相關影片 👉 https://supr.link/AzR5u
※更多 Android 手機 👉 https://supr.link/0K9Co
※教學小技巧大公開 👉 https://supr.link/lfyZk
※熱門藍牙耳機這邊找 👉 https://supr.link/SdDPr
【訂閱電獺少女 YouTube】 https://supr.link/o3WBV
【追蹤電獺少女 Instagram】 https://supr.link/nYIMY
【按讚電獺少女 Facebook】 https://supr.link/VAZd6
【電獺少女官方網站】 https://supr.link/AKiW8
記憶體速度比較 在 Aotter Girls: Girl's Tech Talk Youtube 的最讚貼文
瀏覽器到底怎麼選?
想要效能好、記憶體佔用少的瀏覽器,但是卻不知道怎麼挑?
今天 Linzy 要幫大家比較
Google Chrome、Firefox、Microsoft Edge 和 Safari 四款高人氣瀏覽器!
趕快選擇一個適合你的吧~
【製作團隊】
企劃:Linzy、Cookie
腳本:Linzy
攝影:怡君
剪輯:怡君
字幕:怡君
監製:蜜柑、宇恩、Emma
✨✨✨加入獺友快充組:https://supr.link/zZE8x
🔥 熱門影片 🔥
蘋果發表會懶人包!新色 iPhone、新 iPad Pro、AirTag、iMac!Apple TV 4K 也更新了!
👉 https://supr.link/arwKp
iPad Air 4 與 iPad Pro 實際上手比較!螢幕、處理器、喇叭用起來真的有差嗎?
👉 https://supr.link/APDcF
iPad Pro (2020) 開箱!買了它就不用買 MacBook Air 了嗎?
👉 https://supr.link/01OOf
ROG Phone 5 Ultimate 開箱實測!18GB 記憶體是什麼概念?四款熱門遊戲玩起來順嗎?
👉 https://supr.link/WK912
沒人告訴我 拍剪 4K 影片這麼麻煩這麼花錢阿!理由與心情
👉 https://supr.link/1VY3G
※更多開箱影片 👉 https://supr.link/hEERu
※更多 iPhone 相關影片 👉 https://supr.link/AzR5u
※更多 Android 手機 👉 https://supr.link/0K9Co
※教學小技巧大公開 👉 https://supr.link/lfyZk
※熱門藍牙耳機這邊找 👉 https://supr.link/SdDPr
【訂閱電獺少女 YouTube】 https://supr.link/o3WBV
【追蹤電獺少女 Instagram】 https://supr.link/nYIMY
【按讚電獺少女 Facebook】 https://supr.link/VAZd6
【電獺少女官方網站】 https://supr.link/AKiW8
記憶體速度比較 在 陳寗 NingSelect Youtube 的最佳解答
iPhone 12 系列必買嚴選配件:https://lihi1.cc/VnHIF
陳寗嚴選兩聲道音響:https://lihi1.com/2ecL7
客製化音響請傳 Line:https://lihi1.com/qa6pC
陳寗嚴選 WERA 工具組:https://lihi1.com/YHzSk
--
NOW! 成為陳寗頻道會員並收看獎勵影片:https://lihi1.com/ZT8bZ
頻道會員經費用於製作字幕及剪接,懇請支持頻道營運!
陳寗嚴選 iPad Pro/iPhone 保貼:https://lihi1.cc/VnHIF
陳寗嚴選兩聲道音響:https://lihi1.com/2ecL7
陳寗嚴選抗菌靜電濾網/防潑水抗菌強化膜:https://lihi1.cc/x7Sse
──────
勘誤:02:58 Mac mini / MacBook Pro 兩種版本的核心數目都是一樣的,只有 MacBook Air 才有便宜版核心數目不同的差異。
00:00 新 M1 版蘋果電腦:Mba/Mbp/Mac mini 怎麼選?
03:13 Mba/Mbp 差異:
設計、效能、價格比較
06:45 實測:M1 Mac mini 剪接影片輸出速度不輸外接顯卡
10:19 買 M1 Mac 的 3 個注意事項:記憶體升級、軟體、應用
14:06 小提醒:關於買二手 intel CPU Mac
#蘋果 #Apple #Mac
──────
本頻道大部分音樂素材來自:https://lihi1.com/LzxCq
──────
本頻道每晚 6 點鐘上新片,還有幾個原則跟你約定好:
1. 開箱零業配:
真實使用過後才發表心得,通常試用至少 1 個月,所以你通常不會看到我最早發表,但哥真性情的評論,保證值得你的等待。
2. 理性討論:
我有自己的偏好,你也有自己的好惡,我們互相尊重,時時用大腦,刻刻存善念,不謾罵,不矯情。可以辯論,不可以沒邏輯。
3. 我團購我驕傲:
我很愛買東西,也很愛比較產品,我自己使用過、多方比較過,還是覺得喜歡的東西,我才會辦團購。(簡單說就是挑品很嚴格,至今 80% 廠商找上門都被我打槍。)辦團購我一定有賺,但我跟廠商拿到提供給你的團購價,也會讓你一定有划算感。所以如果你品味跟我相近,或是剛好有需要,就跟我團購,我們互惠。如果你覺得跟我團購,你就是我乾爹,說話不懂得互相尊重,那就慢走不送,你可以去找一般店家買貴一點。
看了以上,覺得可以接受就請你訂閱,訂閱順便開鈴鐺。我們每天晚上 6 點見。
我的網站連結在這:https://ningselect.com/
也別忘了幫我的 FB 粉絲專頁按讚:http://bit.ly/ningfb
如果有任何問題,包括團購等問題,都可以在影片下方留言問我,同一支影片下很多人都想知道的問題會優先用留言回答,如果是比較大的題目,則有機會拍成 QA 影片回答~如果你想問的是針對個人的音響選購、配置問題,可以直接傳 Line 問我:http://bit.ly/ningline
另外團購商品請參考我的商城:https://shop.ningselect.com/
廠商合作請先了解相關原則:http://bit.ly/coopning
記憶體速度比較 在 請問各位高手,記憶體是容量比較重要還是速度比較重要? 的推薦與評價
是這樣的小弟家有2組記憶體:第一組:DDR3 2133 4Gx2=8G,第二組:DDR3 1600 4Gx4=16G,平日的需求就是上上網,看影片,玩單機版的遊戲(不吃雞). ... <看更多>
記憶體速度比較 在 [問題] 要怎和人解釋ram和rom的差別- 看板MobileComm 的推薦與評價
我發現不懂ram和rom的差別,非常多人,就算是年輕人有在玩電腦的人,也很多不太懂
特别是老人家,和一些女孩子在換手機時,都會用以為rom越大,速度越快,一定會比較好所以一定要買最大的
也有很多人,看到記憶體就以為是硬碟,會說我要放很多的照片影片,所以記憶體要很大,種種錯誤的觀念
如果是你會怎麼解釋或比喻,我是用車子,用人體比喻過,但對方還是不懂xd
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.236.36.115
※ 文章網址: https://www.ptt.cc/bbs/MobileComm/M.1486620921.A.A72.html
... <看更多>