當今數字世界,無論是流程優化,還是商業模式的創新,都離不開對數據的高效利用,而成倍增加的數據使得強大的計算能力成為了關鍵,無論是互聯網行業還是傳統行業,都需要用更加智能且高速的基礎架構來支撐業務轉型、加速數字化進程。
作為數字化時代的基礎設施,數據中心的重要性毋庸置疑,但現如今不斷演進的數據中心越來越需要一個全新的智能架構。這一架構內,大規模分布式異構計算能夠協同工作,無縫連接,形成一個獨立的計算平臺。這種新架構將有助于解決當今資源擱淺、數據流擁堵和平臺安全不兼容的挑戰。
正如英特爾CEO帕特·基辛格在5月10日的英特爾On產業創新峰會上所說的那樣,全球市場正處于最具活力的時代。企業目前面臨的挑戰錯綜復雜且相互關聯,而成功的關鍵取決于企業快速采用和最大化利用領先技術和基礎設施的能力。
而現在看來,英特爾正在運用其規模、資源、芯片、軟件及服務全方位的能力,為未來的數據中心賦能。
千呼萬喚始出來,Sapphire Rapids宣布出貨
在活動當天,英特爾宣布已出貨代號為Sapphire Rapids的第四代英特爾至強可擴展處理器的初始SKU,預計在今年還會有更多出貨。
Sapphire Rapids基于Intel 7制程工藝技術,采用英特爾性能核與全新加速器引擎,被稱作樹立了下一代數據中心處理器的標準。Sapphire Rapids的核心是一個分區塊、模塊化的SoC架構,采用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術,支持加速器接口架構指令集、高級矩陣擴展,以及數據流加速器,能夠提供更高的整體工作負載性能,在CPU、內存和緩存以及所有附加的內存、存儲和網絡設備之間移動數據。當然作為面向數據中心的新一代處理器,Sapphire Rapids通過先進的內存和下一代I/O,包括PCIe5.0、CXL1.1、DDR5和HBM技術,來推動行業技術轉型。
面向數據中心負載的Arctic Sound-M GPU
隨著當前工作負載密度和復雜程度的快速增長,云游戲、多媒體處理與傳輸、虛擬桌面基礎架構和推理運算也提出了不同的負載需求,基于此,英特爾正式推出了代號為Arctic Sound-M(ATS-M)的數據中心GPU,ATS-M是一顆支持高質量轉碼和高性能的強大GPU,能夠提供每秒150萬億次運算(150 TOPS),共擁有兩種配置。ATS-M能夠通過單一解決方案靈活地處理廣泛的工作負載,并在不犧牲性能或者質量的同時,優化總體擁有成本。
具體來看,Arctic Sound-M包含兩種不同的配置,150W功率版本在一個3/4長、全高尺寸的PCIe 4.0加速卡中封裝了32個Xe內核。75W功率版本則在半高尺寸的PCIe 4.0加速卡中封裝了兩顆具有8個Xe內核的GPU,共16個Xe內核。這兩種配置均配備了4個Xe媒體引擎、英特爾首款面向數據中心的AV1硬件編碼器和加速器、GDDR 6內存、光線追蹤單元和內置XMXAI加速。
不僅如此,ATS-M還為開發者提供了面向流媒體、云游戲和云端推理的開源軟件堆棧,并廣泛支持AVC、HEVC、VP9,以及更多API、框架和最新的編解碼器。
IPU加碼未來數據中心
去年6月份,英特爾曾在Six Five峰會上介紹了面向基礎設施應用的IPU處理器,旨在使云和通信服務提供商減少在CPU方面的開銷,并充分釋放性能價值。利用IPU,客戶能夠部署安全穩定且可編程的解決方案,從而更好地利用資源,平衡數據處理與存儲的工作負載。
作為一個可編程的網絡設備,IPU能夠對數據中心內的基礎設施功能進行安全加速,從而使系統級資源的管理更加智能。通過IPU,云運營商可以轉向完全虛擬化的存儲和網絡架構,同時保持超高的性能、以及強大的可預測性與可控性。通過特定功能,IPU可對數據中心中基于微服務架構的現代應用程序進行加速。
而現在英特爾公布了其到2026年的IPU產品路線圖,其中包括基于全新FPGA和英特爾架構平臺的代號為Hot Springs Canyon的產品,Mount Morga(MMG)ASIC,以及下一代800GB產品。IPU是具有強化加速功能的專用產品,旨在滿足基礎設施計算需求,使企業能夠高效處理任務和解決問題。
AI戰略上的又一次躍進
對于數據中心而言,由于數據集和人工智能業務的規模和復雜性日益增長,訓練深度學習模型所需的時間和成本越來越高,根據IDC的數據,在2020年接受調查的機器學習從業者中,有74%的人對其模型進行過5-10次迭代訓練,超過50%需要每周或更頻繁地重建模型,26%的人則每天甚至每小時會重建模型。56%的受訪者認為培訓成本是阻礙其組織利用人工智能解決問題,創新和增強終端客戶體驗的首要因素?;诖?,英特爾旗下的Habana Labs也在峰會當天發布了用于深度學習訓練的第二代Gaudi處理器Gaudi 2,以及即將上市的用于深度學習推理的Goya處理器的后續產品Greco。它們采用了7納米制程工藝,并以Habana的高能效架構為基礎,面向數據中心的計算機視覺和自然語言應用,旨在為客戶的模型訓練和推理提供更高的性能。
基于與第一代Gaudi相同的體系架構,Habana Gaudi 2處理器大幅提高了訓練性能??蛻粼谠贫诉\行Amazon EC2 DL1實例以及本地運行Supermicro Gaudi訓練服務器時,其性價比比現有GPU解決方案提升了40%,這些都來自于Gaudi2在架構上的進步:包括制程工藝從16納米躍升至7納米;在矩陣乘法(MME)和Tensor處理器核心計算引擎中引入了FP8在內的新數據類型;Tensor處理器的核心數量由8個增至24個;芯片上集成多媒體處理引擎,實現從主機子系統的卸載;片內封裝的內存容量提升了3倍,從32GB提升到帶寬2.45TB/秒的96GB HBM2E;兩倍48MB的板載SRAM存儲器以及基于RDMA (RoCE2) 的集成以太網從10個增至24個,在標準網絡上實現高效的縱向和橫向擴展。
這些使得Habana Gaudi 2處理器在與處于相同制程工藝節點的A100 GPU相比時,訓練性能高出約兩倍,峰會當天,英特爾展示了Gaudi2在RestNet 50 Training Throughput和BERT Tralning Throughput等視頻及自然語言處理的模型測試中的測試結果,性能領先十分明顯。
算力天花板,Ponte Vecchio讓E級計算成為可能
高性能計算是沒有邊界的,算力的天花板到底是什么程度我們也無從知曉,但人類的探索永無止境,在英特爾On產業峰會上,英特爾也給出了自己的“預判”:E級計算。在峰會當天的開幕主題演講中,阿貢國家實驗室的計算、環境和生命科學實驗室主任Rick Stevens,首次展示了極光(Aurora)超級計算機的安裝情況,并深入解析它將如何助力解決人類面臨的疑難問題,如更準確地預測氣候以及發現應對癌癥的新療法,同時讓百億億次計算(E級)廣泛應用于研發和創新活動,這其中,Sapphire Rapids至強處理器和Ponte Vecchio數據中心顯卡無疑是重要的算力保障。
作為英特爾迄今為止最復雜的SoC,Ponte Vecchio包含了多達1000億個晶體管,提供領先的浮點運算和計算密度,以加速AI、HPC和高級分析工作負載。且復雜設計均被集成于Foveros封裝中,為提高功率和互連密度形成有源芯片的3D堆疊。高速MDFI互連允許1到2個堆棧的擴展,其中計算單元是一個密集的多個Xe內核,是Ponte Vecchio的核心,一塊單元有8個Xe內核,總共有4MB的一級緩存,是提供高效計算的關鍵,而基礎單元是Ponte Vecchio的連接組織,Xe鏈路單元則提供了GPU之間的連接。
軟件力量直面AI挑戰
為了在公有云中訓練自有神經網絡的過程保持工作負載的機密性,博世攜手英特爾在一個研究項目中打造了一個機密AI解決方案。為進一步大規模應用此方案,博世企業研究部開發了一個機密AI平臺級框架。該框架使用了第三代英特爾至強可擴展平臺上搭載的英特爾軟件防護擴展(SGX)技術。
SGX本質上是一種基于硬件的可信執行環境,其最大好處在于允許應用程序和CPU進行交互,同時建立一個安全的內存區域,這些安全區域繞過了操作系統和程序管理層,允許在不暴露任何基礎設施平臺的情況下對機密信息進行操作。即便這個實際的平臺軟件組件甚至是硬件組織遭到入侵,依然可以保護該區域內的信息。
與常規的隱私保護或者安全技術相比,SGX在安全性、性能和可用性方面都有明顯優勢。在安全性方面,它是一個硬件級的安全技術,基于對CPU的信任,可以有效避免以往依賴高權限軟件而帶來的安全隱患;性能方面,在第三代至強可擴展處理器平臺上,SGX的計算性能優異,可以有效控制成本;可用性方面,SGX的生態利用LibOS(庫操作系統),致力于避免打破現有的應用方式,可以很大程度上降低重新構建一些通信或者是底層架構的代價,從而使數據和模型的加載和保護更加便捷。最大限度上幫助程序開發者把整個數據應用進行無縫遷移。
除了機密計算之外,英特爾也攜手埃森哲啟動“阿波羅計劃”,旨在通過為企業提供經過優化設計的愈30種開源AI解決方案,讓其能夠在本地、云端亦或是邊緣環境中都更易于部署AI。
縱觀整個行業,算力提升的需求正驅動著數據中心的基礎架構轉型,這個轉型不僅包括硬件層面,更包括軟件層面?,F在來看,英特爾正在通過整合技術和生態系統,面向目前以及未來,讓千行百業的客戶得以釋放更多數據價值。