中國工程院院士劉韻潔:確定性網絡賦能工業制造升級
發布時間:2024-06-20 21:34:16
5月21日,中國工程院院士、紫金山實驗室主任劉韻潔在第四屆中國IDC行業DISCOVERY大會上表示,確定性網絡有望解決傳統互聯網擁塞無序的問題,推動互聯網從“盡力而為”到“確保所需”技術體系變革,滿足工業互聯網、元宇宙、東數西算、人工智能大模型等典型場景的網絡需求。
5月21日,中國工程院院士、紫金山實驗室主任劉韻潔在第四屆中國IDC行業DISCOVERY大會上表示,確定性網絡有望解決傳統互聯網擁塞無序的問題,推動互聯網從“盡力而為”到“確保所需”技術體系變革,滿足工業互聯網、元宇宙、東數西算、人工智能大模型等典型場景的網絡需求。“大模型+確定性網絡已經成為支撐行業大模型高質量發展的重要支撐。”劉韻潔表示,目前國內的大模型技術落后于國外領先水平,尤其是高端算力的封鎖,使得國內外單點算力差距變大,亟需通過算力協同、算力組網應對高端芯片與制程封鎖的問題。對于行業大模型來說,可通過確定性網絡構建區域定制化大模型,跨廣域算網融合,實現跨廣域超大規模智算集群在低時延、確定性通信環境中實現大模型并行訓練、推理。劉韻潔認為,中國大模型未來的出路在于行業大模型。中國作為世界上工業門類最全的工業制造國家,擁有行業數據的完整性和系統性是最全的,充分利用好這些行業數據,中國在行業大模型將大有可為。確定性網絡,簡單來說就是沒有延遲的、穩定的、可以信任的網絡。據劉韻潔介紹,確定性網絡已經成為國內外研究的重點,包括IETF、IEC等國際組織也都在進行相關研究,只是還沒有形成統一的標準。在劉韻潔看來,確定性發展需求目前主要集中在六方面。一是工業互聯網的確定性需求。當前,確定性網絡賦能工業制造升級已成為大型企業發展的關鍵,傳統“盡力而為”的網絡已無法滿足很多企業的業務200us以內的時延抖動保障需求。尤其是云邊端協同“遠程控制”已成為了IEC工業控制標準61499、61131體系架構重要變革方向,確定性網絡是解決目前工業核心技術被國外壟斷、通訊協議“七國八制”的關鍵。二是能源互聯網確定性需求。電力系統中控制命令和傳感數據對網絡傳輸時延的實時性,確定性、可靠性有嚴苛的要求,IECTC57/WG10提出了在變電站自動化、縱聯保護、微電網、配電通信網等領域應用需求。確定性網絡可有效解決傳輸的服務質量問題,實現帶寬、路徑、時延、抖動的端到端精準可控,滿足“碳中和、碳達峰”應用需求。三是AR/VR確定性算力需求。面向元字宙、8K、AR/VR等新業務需求,需要提供更高的速率、更低的時延、更低的丟包率,以及更靈活的業務部署能力。四是大模型算力需求激增,算力組網需求迫切。自2012年起最新模型訓練所需計算量每3-4個月翻一倍;在過去5年時間,GPU算力增長近90倍;而網絡帶寬僅增長10倍,模型訓練時間也隨之增長。面向AI大模型時代,需要計算、網絡、存儲、系統協同,構建高性能算力底座,實現超大規模集群萬卡協同。五是我國高質量數據集缺乏,數據隱私成為關鍵。數據是構成大模型的血液,為其提供了基礎支撐,以OpenAl為代表的國外大模型已通過互聯網爬取了全球大最數據。針對我國行業數據全球最全、價值最大的現狀,亟需解決行業大模型發展中的數據隱私問題。2020年GPT-3數據集達到753GB,GPT-4數據量是GPT-3的10倍以上,亟需構建安全可靠的行業數據專網,解決中文數據集問題。六是廣域確定性無損傳輸成為算力互聯關鍵。構建“無損確定性廣域傳輸能力”已成為算力廣域高效傳輸互聯重要基礎。廣域算力資源互聯共享需要解決并行協同計算來提升算能;遠程使用算力資源,需要提升傳輸效率,節約傳輸成本。這些都需要確定性網絡提供支撐。目前,美國微軟Azure云70%以上流量都使用RDMA協議,在2023年初步實現80KM廣域RDMA互聯。劉韻潔表示,AI促進了計算和存儲的云化,隨著計算能力和存儲性能的提高,使得網絡壓力凸顯,節點間網絡通信時延占比50%以上,成為存儲性能瓶頸。“東數西存”等業務需要解決算力節點間隔跨廣域算力傳輸,亟須解決RDMA跨廣域問題,“傳統以太網丟包對RoCE吞吐率影響大,丟包率必須降到十萬分之一以下才能保證RoCE吞吐率不受影響,需要設計新型RDMA廣域傳輸協議,實現算力跨廣域傳輸。”劉韻潔在現場公布了其關于確定性網絡的技術進展,包括突破面向服務的未來網絡體系架構與基礎理論,推動互聯網從“盡力而為”到“確保所需”的技術體系變革,實現互聯網核心技術的自主可控。并在未來網絡試驗設施(CENI)中成功驗證;發布全球首個大網級網絡操作系統,在運營商A網中穩定運行5年時間;基于未來網絡試驗設施實現設備異構組網,開通覆蓋35個城市的廣域確定性網絡。劉韻潔表示,另一個技術進展是發布全球首個大網級網絡操作系統(CNOS,司絡),首次提出基于服務網絡(ServiceMesh)的微服務化網絡操作系統,突破異構設備統一驅動框架、容災高可靠等關鍵技術。還在全球率先提出了新興確定性網絡體系架構,突破異構設備統一驅動框架、容災高可靠等關鍵技術。“確定性網絡在CENI項目中驗證成功,非確定路徑下隨著突發流量大小不同,對業務流量有較大波動影響;而確定性路徑下,無論突發流量多大,均能提供穩定的時延抖動和時延保障。”劉韻潔說。劉韻潔表示,廣域無損傳輸在CENI項目中也已驗證成功。針對長距RDMA傳輸控制控制環路長的挑戰,提出在DCI交換機處通過控制報文分別控制發生在兩端數據中心擁塞的分段傳輸控制方法,從而將控制回路縮短至單數據中心規模,并可適配不同側網卡。與此同時,劉韻潔表示,在攻關部署TB級分布式智驅安全網絡技術方面,將防御分布部署在智驅安全網絡的4種數據平面。近期實現超高性能10TB級DDoS安全防護,中心節點對全網安全狀態統一研判部署、本地節點獨立即時響應決策。劉韻潔介紹,目前確定性網絡在數字經濟中已有多個應用。如,CENI算網操作系統構建抗攻擊能力強、傳輸效率高、可定制成本低的算力網絡新總線,為“東數西算”重大工程的整體安全、可靠、高效運行提供有力支撐;促進算力的統一供給、智能匹配、按需接入,是推動城市數字化轉型的新底座;服務工業互聯網(工業外網),建設智能、柔性、安全、可定制的長三角一體化網絡,滿足江蘇省、國家工業互聯網、能源互聯網、專用場景、車聯網等重大科研試驗與產業示范應用需求,實現核心技術創新引領與實體經濟深度融合,賦能垂直行業;基于確定性網絡的能源大數據中心實現了電力系統能源數據秒級監測等。“數字經濟正在成為新的經濟增加業態,成為穩增長促轉型的重要引擎。劉韻潔表示,我們要抓住全球未來網絡發展的重大機遇,突破新型網絡體系架構和確定性網絡核心技術,建設確定性網絡相關產業生態,實現核心標準芯片、設備的自主可控,推動我國算力網絡高質量發展。