NVIDIA 擁有數十種 GPU,可用于處理不同大小的 ML 模型。但要了解這些不同顯卡的性能和成本,更不用說記住它們的名稱,卻是一項挑戰。每個 GPU 的名稱(一個字母數字標識符)都傳達了有關其架構和規格的信息。
每個人都想要功能強大、經濟高效的硬件來運行生成式 AI 工作負載和 ML 模型推理。但選擇數據中心 GPU 并不像走進 Apple 商店挑選一臺新筆記本電腦那么簡單,因為那里只有少數幾個選項和明確的升級路徑。這更像是買車,您的預算和用例會指導您在具有不同功能、價格和可用性的一系列型號和車型年份中做出決定。
本文首先會引導您解讀 NVIDIA 數據中心 GPU 的命名方案,以識別顯卡的架構和層級。然后,本文將提供清晰直接地比較不同 GPU 的方法,以及用于模型訓練、微調和服務的幾款流行顯卡的關鍵規格表。
數據中心 GPU 可以有相當神秘的名稱:K80、T4、A100、L40。但這些不僅僅是字母和數字的隨機集合。它們編碼了有關 GPU 規格和性能的重要信息。
一、字母:顯卡架構
GPU 名稱中的字母代表該 GPU 的架構。每隔幾年,NVIDIA 就會為消費級和數據中心產品的 GPU 發布一種新的微架構。新的微架構通過更新的指令集提高了性能和能效,并且通常利用更小的工藝節點將更多的晶體管封裝到每個芯片上。每個新的微架構都意味著更快、更優化的 GPU。
在 GPU 的名稱中,字母是架構名稱的首字母。例如,A 代表 Ampere,L 代表 Lovelace。NVIDIA GPU 架構以著名科學家的名字命名。
二、卡層數
對于每種架構,NVIDIA 都會制造幾種具有不同價格、性能和功耗目標的 GPU。數字越大,GPU 的功能越強大,價格也越昂貴。
不同級別的 GPU 針對不同的計算工作負載進行了優化。最近幾代的 GPU 級別包括:
4:一代中最小的 GPU,4 層卡能耗低,最適合經濟高效地調用中等大小的模型。
10:針對AI推理優化的中端GPU。
40:最適合虛擬工作站、圖形和渲染的高端 GPU。
100:這一代 GPU 中規模最大、價格最昂貴、性能最強。它擁有最高的核心數和最大 VRAM,專為大型模型推理以及新模型的訓練和微調而設計。
三、示例比較
有了這兩個因素,我們可以使用 GPU 名稱中的字母和數字組合來推斷有關卡的一些事實。
例如:T4 和 L4 有什么區別?
L4 是 T4 的下一代替代品。L4 使用 Lovelace 架構,于 2023 年發布,而 T4 使用 Turing 架構,于 2018 年發布。這兩款顯卡屬于同一層級——它們使用的功率相似,設計用于相似的用例——但較新的 L4 擁有更強大的內核和 24 GB 的 VRAM,而 T4 只有 16 GB。
例如:A10 和 A100 有什么區別?
A100 是 A10 的更大、更強大、更昂貴的版本。兩款顯卡具有相同的架構,但 A100 擁有更多內核和 VRAM,功耗更高,因此它可以運行更大的模型,并且運行速度更快。
例如:如何比較 K80 和 T4?
任何兩張不同架構和不同級別的顯卡之間的比較都很復雜。K80 采用已有十年歷史的 Kepler 架構,而 T4 采用更現代的 Turing 架構。因此,對于許多 ML 任務而言,T4 每分鐘的運行成本更低(因為功耗更低),同時由于其核心更強大,運行速度也比 K80 快得多。