午夜精品久久久久久久99樱桃_久久天堂av综合合色蜜桃网_国产乱码精品_97精品国产一区二区三区

當前位置:首頁 > 資訊動態

鄔賀銓院士關于算力的十點思考

發布時間:2022-08-22 21:06:15

近日,2022中國算力大會在濟南開幕,在以“算力筑基高質量發展”為主題的主論壇上,中國工程院院士鄔賀銓發表《對數據中心“數學”與“算術”的思考》的主題演講,提出了對算力的十大思考。鄔賀銓解釋“數學”即研究數據的科學,“算術”即研究算力的技術。

近日,2022中國算力大會在濟南開幕,在以“算力筑基高質量發展”為主題的主論壇上,中國工程院院士鄔賀銓發表《對數據中心“數學”與“算術”的思考》的主題演講,提出了對算力的十大思考。鄔賀銓解釋“數學”即研究數據的科學,“算術”即研究算力的技術。

以算為主還是以存為主?

鄔賀銓表示,AI應用驅動算力需求快速增長。基于GPU/NPU/FPGA等構建的AI智算中心適于訓練數據導出模型。

訓練出數學模型后,深度神經網絡的使用并不需要調度非常多的參數,降低了對算力的需求。基于CPU的通用算力的IDC適于在已知數學模型下的計算任務。

鄔賀銓指出,是否可以認為AI智算中心主要任務是算,IDC主要任務是存?

三類算力如何合理比例?

目前算力可以分為基礎算力(基于CPU芯片)、智能算力(基于GPU和NPU芯片)和超算算力(基于超算)。

從2021年全球算力分布來看,美國占31%,中國占27%,其次是日本、德國、英國等其他國家。美國的基礎算力占全球35%,智能算力占15%,超算占30%,而中國這三類分別為27%、26%和20%。

鄔賀銓表示,可以看到美國以基礎算力為主,中國智能算力的能力遠遠超過美國。中國的超算和AI智能中心是以政府為主,基礎算力以運營商和互聯網企業為主,美國則主要是互聯網企業為主。

冷數據與熱數據


IDC數據顯示,人類歷史上90%的數據都是在過去幾年間產生的,50%在短短兩年內生成的,預測到2025年數據量年均將以30%增長,即兩年增70%。

一般來說,最近產生的是熱數據,經歷一周或數月后將轉為溫或冷數據,冷、溫、熱數據分別占累計數據總量約80%、15%和5%。

冷數據主要是存儲,計算需求非常態。東西部分別適合處理熱和冷數據,東數西算實際上是東數西存

存算分離與存內計算


存算分離架構在控制單元指令下從存儲器讀數據并交到CPU計算,得到的結果還需送回存儲器。但對冷數據I/O往復并不頻繁,因此更適用于冷數據處理,例如云平臺建模,邊緣計算訓練與仿真。另外,存算分離可采用開放存儲體系和磁帶存儲介質,存儲器可同時服務多服務器,池化存儲支持多云,高利用率,降成本與能耗。

不過,熱數據需快速計算,但受限于存算分離I/O瓶頸,且CPU能力受累于存儲器訪問速度難以發揮,更需要存內計算。存內技術以RAM代硬盤,在RAM內完成所有運算,例如自動駕駛可以在車內同時完成存與算,但目前實現復雜和成本高。

鄔賀銓表示,雖然西部以處理冷數據為主,但也需要處理當地的熱數據,冷熱數據是否需要分別采用不同的存算架構?

封閉系統存儲與開放系統存儲


服務器一般由CPU和內存組成,如果將存儲也放在一起,則稱為封閉存儲系統,但是容量有限。因此,大多數情況下是將存儲和服務器分離,即開放系統存儲,實現存儲容量為多服務器共享,以池化方式支持多云應用。不同存儲架構適應不同任務,可按照任務來軟件定義存儲。


PUE與IT能效


PUE是數據中心能耗占IT系統能耗之比,反映了制冷系統的水平,但并非衡量IT系統的能效。據統計在IDC的IT系統的能耗中,服務器約占50%,存儲系統約占35%,網絡通信設備約占15%。

數據中心需要7*24小時工作,但通常并非7*24小時都在計算,非計算狀態下也耗能,此時存儲系統的能耗成為主體。據麥肯錫報告:大部分電能用于維持服務器狀態,僅6-12%用于計算。

因此,要降低能耗,首先對冷數據存儲采用磁帶代替磁盤,預計100PB十年存儲成本可下降73%;其次,熱數據存儲用閃存代替磁盤,改進訪速、吞吐量及能效,但目前成本還較高;另外,還要探索通過數據預處理改進能效。

數據可信與災備保護


數據最重要的是安全,目前主要有兩種災備保護方案。一是三副本方案,容量利用率較低,但讀寫快,適于小文件;二是4+2糾刪碼方案,容量利用率較高,但讀寫慢,適用于大文件場景。這時候就要思考,大小文件需要分區存儲,以便采用不同可靠性技術方案嗎?

同時,災備是數據中心剛性要求。據華為/羅蘭貝格報告,美國數據保護占存儲投資為33.3%,全球平均為27.4%,而我國僅7.8%,并且異地備份的比例更低,防災能力堪憂。

此外還有值得研究的是對數據備份還是算力備份?算力與存力需要等比例備份嗎?

存算協同的思考


根據華為/羅蘭貝格報告,中國與美國相比存算比低一倍,導致中國算力利用率也較低,可以理解為,雖然算力有了,但存儲沒跟上。而存算比并非固定,例如對于冷數據其計算頻度低,存算比應比熱數據更高。因此,對冷數據和熱數據分別的合理存算比應該是多少值得思考。

另外,帶寬(吞吐量)和每秒/O操作數(IOPS)是衡量存儲性能的兩大指標,前者需要聚合更多存儲單元的帶寬,后者希望減少每次數據存取請求涉及的存儲單元數,二者難以兼得。可以從計算任務調度入手,為存儲系統提供預判此次任務的IO模式的信息,以便做出針對性的緩存策略和數據一致性策略,甚至將數據調度到合適的存儲位置,獲得更好的數據存儲效能。


算網容量配比的思考


2021年全球數據中心流量分布,數據中心內占71.5%、數據中心到用戶占比14.5%、數據中心間占比13.6%。主備數據中心間的數據傳輸要求同步動態更新數據,實時性高,不過每次更新的數據量不大。但對主備間鏈路可靠性要求高,通常需要端到端雙路由。

另外,東西部數據中心間傳輸系統容量雙向不對稱。從東部定期將由熱轉冷的數據轉移到西部,數據量大,但實時性要求不高,瞬時帶寬不必很高。西部數據按需計算后的結果需要回傳東部,數據量不大,但實時性可靠性要求高。東西數據中心間鏈路在數據中心到所在城市段需要雙路由。我國需要有更多的調研和經驗數據來決定數據中心間及到用戶間的傳輸通道容量優化設計。

對于數據中心內,鄔賀銓表示,IDC內網多級交換引入時延,需用智能無損交換機和擁塞控制機制。因為,0.1%的丟包率會使網絡吞吐率降50%,寧可降速慢傳也優于丟包重傳。

東數西算的思考


東數西算使得算力設施的布局超越了數據中心樞紐的范疇,雖然設想東部與西部互為冷熱數據的配對,但東部西部間應如何比例?

以廣東數據中心規劃為例,設計省內算力70%,省外算力30%,這與冷數據占比80%差別很大,是否理解冷數據占80%是指存儲容量而非算力的比例?另外,在市場經濟條件下,東部與西部并非固定配對,各自獨立設計部要如何能做到容量最佳利用?

同時,同一數據中心樞紐或集群內部也有很多比例需要優化。數據中心樞紐內有多個數據中心,每個數據中心內部多業主,如何實現樞紐內各數據中心所需的能源與網絡資源集約化,并建立業主間資源共享機制,提升利用率。每一個數據中心需要設計算力、存力與網絡能力合理的比例以及相應災備比例,會視冷熱數據有不同的優化。數據中心需立足長遠建設能效更高的大型數據中心,但切忌一步到位.

此外,Gartner認為,2025年約超75%的數據將在邊緣側處理,需規劃邊緣與集群數據中心算力比例。

最后,鄔賀銓表示,關于數據中心的“數學”與“算術”還有很多需要深入研究的內容,要善于從實戰中學習創新。

來源:工信頭條