無論您所從事的是前沿AI模型的研究、新一代人工智能應用的開發(fā),或是復雜的優(yōu)化模擬,這一新版本都為您提供了在性能、效率、可擴展性方面的高度提升。在本期博客中,我們將深入探討此次發(fā)布的5大核心功能提升,這些提升與功能的增強成就了這一版本的變革性,從而鞏固了AMD ROCm作為人工智能和高性能計算開發(fā)平臺的領先地位。
1、在ROCm 6.2中擴展了vLLM支持——提升了AMD Instinct™加速器的AI推理能力
AMD 正在擴展對vLLM的支持,以提升AMD Instinct™加速器上AI模型的效率和可擴展性。vLLM專為大語言模型(LLMs)所設計,解決了關鍵的推理難題,例如,高效的多GPU并行運算、降低內(nèi)存使用資源、最小化計算瓶頸??蛻艨赏ㄟ^ROCm文檔中所提供的步驟來啟用vLLM中的各個上游功能,例如:多GPU并行運算、FP8 KV緩存(推理)等,以應對開發(fā)中的相關難題。若要觸及到尖端的功能特性,ROCm/vLLM分支還提供了高級實驗功能,例如:FP8 GEMMS(使用8位浮點數(shù)的數(shù)據(jù)類型進行矩陣乘法運算)、“自定義解碼分頁注意力”機制。需要使用這部分功能,請按照此處提供的步驟進行操作,并在克隆git倉庫是選擇rocm/vllm分支。或通過專用的Docker文件獲取(點此獲取)。
隨著ROCm 6.2版本的發(fā)布,AMD Instinct™的新、老用戶可以自信地將vLLM集成到AI流水線中,享受最新功能所帶了的性能和效率的提升。
2、ROCm中的Bitsandbytes量化技術支持——提升AMD Instinct™的AI訓練和推理能力,增強內(nèi)存效率與性能
AMD ROCm所支持的Bitsandbytes量化庫為AI開發(fā)帶了革命性的變化,使得AMD Instinct™ GPU加速器上的內(nèi)存效率和性能有了顯著提升。利用8位優(yōu)化器可減少在AI訓練過程中對內(nèi)存的占用,使得開發(fā)者可在有限的硬件資源下處理更復雜的模型。“LLM.Int8()”這一量化技術對AI進行了優(yōu)化,使大語言模型(LLMs)可部署在內(nèi)存容量較小的系統(tǒng)中。低比特量化技術可以加速AI訓練和推理,進而提升整體效率和生產(chǎn)力。
Bitsandbytes量化技術通過減少內(nèi)存使用和計算需求,使得更多的用戶可以體驗到先進的AI功能,降低了使用成本,實現(xiàn)了AI開發(fā)的全民化,拓展了創(chuàng)新新機會。它所具備的可擴展性,能夠在現(xiàn)有硬件限制內(nèi)有效管理更大的模型,同時保持接近32位精度版本的準確性。
開發(fā)者可以按照此鏈接中的說明,輕松將Bitsandbytes與ROCm集成,以便在AMD Instinct™ GPU加速器上進行高效的AI模型訓練和推理,同時降低內(nèi)存和硬件要求。
3、全新的離線程序創(chuàng)建工具——簡化ROCm的安裝過程
ROCm離線安裝程序創(chuàng)建器為沒有互聯(lián)網(wǎng)訪問或本地倉庫鏡像的系統(tǒng)提供了一個完整的解決方案,從而簡化了安裝過程。它創(chuàng)建了一個包含所有必要依賴項的單一安裝程序文件,并提供了一個用戶友好的圖形界面,允許輕松選擇ROCm組件和版本,從而使部署變得簡單直接。該工具通過將功能集成到一個統(tǒng)一的界面中,降低了管理多個安裝工具的復雜性,提高了效率和一致性。此外,它還自動化了安裝后的任務,如用戶組管理和驅動程序處理,從而幫助確保安裝的正確性和一致性。
圖示:簡化的ROCm安裝體驗——使用離線安裝程序創(chuàng)建器圖形界面
ROCm離線安裝程序創(chuàng)建器從AMD倉庫和操作系統(tǒng)包管理器中下載并打包所有相關文件,有助于確保安裝過程正確且一致,從而降低出錯風險并提高系統(tǒng)整體穩(wěn)定性。它非常適合沒有互聯(lián)網(wǎng)訪問的系統(tǒng),同時也為IT管理員提供了一個簡化且高效的安裝過程,使ROCm在各種環(huán)境中的部署比以往任何時候都更加容易。
4. 全新的Omnitrace和Omniperf性能分析工具(Beta版)——在AMD ROCm中引領AI(人工智能)與HPC(高性能計算)開發(fā)的變革
全新的Omnitrace和Omniperf性能分析工具(Beta版)將通過提供全面的性能分析和簡化的開發(fā)工作流,引領ROCm中的AI和HPC開發(fā)革命。
Omnitrace提供了跨CPU、GPU、網(wǎng)絡接口控制器(NIC)和網(wǎng)絡結構的系統(tǒng)性能整體視圖,幫助開發(fā)者識別并解決瓶頸問題,而Omniperf則提供詳細的GPU內(nèi)核分析以供微調(diào)。這些工具共同優(yōu)化了應用程序整體和計算內(nèi)核特定的性能,支持實時性能監(jiān)控,有助于開發(fā)者在整個開發(fā)過程中做出明智的決策和調(diào)整。
圖示:Omnitrace性能分析工具
圖示:Omniperf性能分析工具
通過解決性能瓶頸問題,它們有助于確保資源得到高效利用,最終實現(xiàn)快速的AI訓練、推理和HPC模擬。
5.更加廣泛的FP8(數(shù)據(jù)處理方式)支持——通過使用ROCm 6.2增強AI推理能力
ROCm中的廣泛FP8(數(shù)據(jù)處理方式)支持可以顯著提升運行AI模型的進程,尤其是在推理方面,它有助于關鍵問題的解決,如內(nèi)存瓶頸和與更高精度格式相關的高延遲問題,使得在相同的硬件限制下能夠處理更大的模型或批次,從而實現(xiàn)更高效的訓練和推理過程。此外,F(xiàn)P8(數(shù)據(jù)處理方式)的降低精度計算可以減少數(shù)據(jù)傳輸和計算中的延遲。
ROCm 6.2在其生態(tài)系統(tǒng)中擴展了對FP8(數(shù)據(jù)處理方式)的支持,實現(xiàn)了從框架到庫等各個方面的性能和效率的提升。
l Transformer Engine:通過HipBLASLt,在PyTorch和JAX中增加了FP8 GEMM支持,與FP16/BF16相比,最大限度地提高了吞吐量并降低了延遲。
l XLA FP8:JAX和Flax現(xiàn)在通過XLA支持FP8 GEMM,以提升性能。
l vLLM集成:進一步優(yōu)化了具備FP8能力的vLLM。
l FP8 RCCL:RCCL現(xiàn)在處理FP8特定的集合操作,擴展了其多功能性。
l MIOPEN:支持基于FP8的Fused Flash注意力機制,提高效率。
l 統(tǒng)一FP8標頭文件:跨庫標準化FP8標頭文件,簡化開發(fā)和集成過程。
憑借ROCm 6.2,AMD再次展示了了其為AI(人工智能)和HPC(高性能計算)領域提供強大、有競爭力且富有創(chuàng)新性解決方案的承諾。此版本的發(fā)布,意味著開發(fā)人員擁有了突破邊界所需的工具和支持,這也進一步增強了ROCm作為下一代計算任務首選開放平臺的信心。請與我們一同接納這些進步,將您的項目提升至前所未有的性能和效率水平。
公司地址:北京市石景山魯谷路74號院中國瑞達大廈6層601 聯(lián)系方式:010-88456280
廣播電視節(jié)目制作經(jīng)營許可證 (京)字第05536號
Copyright 2014-2021 TUWAN Corporation,All Rights Reserved
北京兔玩在線科技有