HPC 向けの Azure HBv4/HX VM のパフォーマンス
著者:
公開日時: 2022 年 11 月 10 日午前 11 時 閲覧数: 3,201
執筆協力者: Amirreza Rastegari、Jon Shelley、Jithin Jose、Anshul Jain、Jyothi Venkatesh、Joe Greenseid、Fanny Ou、Evan Burness
本記事は以下ブログ投稿の翻訳記事です。
Performance of Azure HBv4 and HX VMs for HPC – Microsoft Community Hub
Azure において、ハイパフォーマンス コンピューティング (HPC) 向けの新しい仮想マシン (VM) シリーズである HBv4 シリーズと HX シリーズが発表されました。この記事では、これらの新しい VM の技術面とパフォーマンス面の詳細情報を紹介します。
これらの VM では、以下のような最新テクノロジが活用されています。
- 第 4 世代 AMD EPYC CPU (プレビュー中は Genoa、2023 年上半期の一般提供開始後は Genoa-X)
- 800 GB/秒の DDR5 メモリ帯域幅 (STREAM TRIAD)
- パブリック クラウド上で初となる 400 GB/秒のNVIDIA Quantum-2 CX7 InfiniBand
- 80 GB/秒の Azure 高速ネットワーク
- 12 GB/秒 (読み取り) および 7 GB/秒 (書き込み) のストレージ帯域幅を実現する6 TB のローカル NVMe SSD
HBv4/HX – VM サイズの詳細 & 技術仕様の概要
HBv4/HX シリーズの VM は、それぞれ以下の表 1 と表 2 に示されているサイズおよび仕様で提供されます。既存の H シリーズの VM と同様、HBv4/HX シリーズにも 制約付きコア VM サイズが含まれおり、VM あたりのパフォーマンスが最大のサイズから、コアあたりのパフォーマンスが最大のサイズまで、さまざまなサイズから選択できるようになっています。
HBv4 シリーズ VM
VM サイズ |
176 CPU コア |
144 CPU コア |
96 CPU コア |
48 CPU コア |
24 CPU コア |
VM 名 |
standard_HB176rs_v4 |
standard_HB176-144rs_v4 |
standard_HB176-96rs_v4 |
standard_HB176-48rs_v4 |
standard_HB176-24rs_v4 |
InfiniBand |
400 GB/秒の Quantum-2 (NDR) |
||||
CPU |
AMD EPYC™ 7004 シリーズ (プレビュー中は標準の Genoa) |
||||
CPU の |
3.7 GHz * |
||||
VM あたりの |
688 GB |
||||
コアあたりの |
4 GB |
5 GB |
7.5 GB |
15 GB |
30 GB |
VM あたりの メモリ帯域幅 |
800 GB/秒 |
||||
コアあたりの メモリ帯域幅 |
4.5 GB/秒 |
5.6 GB/秒 |
8.3 GB/秒 |
16.6 GB/秒 |
33.3 GB/秒 |
VM あたりの |
768 MB |
||||
コアあたりの |
4.4 MB |
5.3 MB |
8 MB |
16 MB |
32 MB |
VM あたりの |
2 x 1.8 TB NVMe – 合計 12 GB/秒 (読み取り)/7 GB/秒 (書き込み) |
表 1: HBv4 シリーズ VM の技術仕様
HX シリーズ VM
VM サイズ |
176 CPU コア |
144 CPU コア |
96 CPU コア |
48 CPU コア |
24 CPU コア |
VM 名 |
standard_HX176rs |
standard_HX176-144rs |
standard_HX176-96rs |
standard_HX176-48rs |
standard_HX176-24rs |
InfiniBand |
400 GB/秒の NDR |
||||
CPU |
AMD EPYC™ 7004 シリーズ (プレビュー) |
||||
CPU の |
3.7 GHz * |
||||
VM あたりの |
1.4 TB |
||||
コアあたりの |
8 GB |
10 GB |
15 GB |
29 GB |
59 GB |
VM あたりの メモリ帯域幅 |
800 GB/秒 |
||||
コアあたりの メモリ帯域幅 |
4.5 GB/秒 |
5.6 GB/秒 |
8.3 GB/秒 |
16.6 GB/秒 |
33.3 GB/秒 |
VM あたりの |
768 MB |
||||
コアあたりの |
4.4 MB |
5.3 MB |
8 MB |
16 MB |
32 MB |
VM あたりの |
2 x 1.8 TB NVMe – 合計 12 GB/秒 (読み取り)/7 GB/秒 (書き込み) |
表 2: HX シリーズ VM の技術仕様
*クロック周波数は、AVX 以外のワークロードのシナリオに基づいています。また、AMD EPYC 7004 シリーズ プロセッサおよび対応するシステム ファームウェアを使用して Azure HPC チームが記録した、ワークロードに対する周波数の測定値に基づいています。実際のクロック周波数は、コーディングや特定アプリケーションの使用など、さまざまな要素の作用を受けます。上記の周波数は、必ずしも EPYC 7004 シリーズ プロセッサの最終的なクロック周波数を示すものとは限りません。
詳細については、HBv4 シリーズおよび HX シリーズ VM に関する公式ドキュメントを参照してください。
マイクロベンチマーク パフォーマンス
このセクションでは、HBv4/HX シリーズ VM のメモリ サブシステムと InfiniBand ネットワークのパフォーマンス特性を明らかにするマイクロベンチマークに焦点を当てます。
STREAM – メモリ パフォーマンス
以下の図 1 には、HBv4/HX VM に対して業界標準の STREAM ベンチマークを実行した結果が示されています。この STREAM ベンチマークは、次のコマンドを使用して実行しました。
sudo ./run_stream_dynamic.py -nt 30 -t 176 -oca 0-175 -m 20000 -thp madvis
このコマンドから返された結果によると、STREAM-TRIAD での帯域幅は約 770 GB/秒でした。これは、こちらの記事に掲載されている HBv3 VM の DRAM の帯域幅 (STREAM-TRIAD で約 350 GB/秒) の 2 倍以上です。
図 1: HBv4/HX シリーズ VM の STREAM-TRIAD でのメモリ帯域幅は 765.52 GB/秒
InfiniBand のパフォーマンス テスト – ネットワーク パフォーマンス
HBv4/HX VM は、最新の NVIDIA Quantum-2 CX7 InfiniBand (NDR) インターコネクトを搭載しています。マイクロソフトは、400 GB/秒の (NDR) InfiniBand リンクを搭載した 2 台の HBv4 シリーズ VM に対して業界標準の IB パフォーマンス テストを実施しました。この IB 帯域幅テストは、次のコマンドを使用して実行されました。
一方向帯域幅:
numactl -c 0 ib_send_bw -aF -q 2
双方向帯域幅:
numactl -c 0 ib_send_bw -aF -q 2 -b
これらのテスト結果は、以下の図 2 と図 3 に示されています。
図 2: InfiniBand の一方向帯域幅が、最大帯域幅の想定値である 400 GB/秒に達している
図 3: InfiniBand の双方向帯域幅が、最大帯域幅の想定値である 800 GB/秒に達している
上の図で示されているように、HBv4/HX シリーズ VM は、一方向と双方向の両方のテストでラインレートの帯域幅パフォーマンス (ピーク値の 99%) を達成しています。
アプリケーション パフォーマンス
このセクションでは、一般的に実行される HPC アプリケーションにおける HBv4/HX VM のパフォーマンス特性について取り上げます。また、Azure で提供されている、他のさまざまな HPC VM とのパフォーマンス比較も行います。比較する VM には以下が含まれます。
- 176 コアの AMD EPYC “Genoa” を搭載した Azure HBv4/HX (HBv4 の完全な仕様、HX の完全な仕様)
- 120 コアの AMD EPYC “Milan-X” を搭載した Azure HBv3 (完全な仕様)
- 120 コアの AMD EPYC “Rome” プロセッサを搭載した Azure HBv2 (完全な仕様)
- 44 コアの Intel Xeon Platinum を搭載した Azure HC (完全な仕様)
注: ここでは HC シリーズが、お客様との関連性が高い比較対象の 1 つとして用いられています。市場全体の HPC ワークロードの大部分は依然として、主に (または完全に) オンプレミスのデータセンターや、平均運用期間が 4 ~ 5 年のインフラストラクチャで実行されています。したがって、お客様が普段からオンプレミスで使用されているであろうあらゆる製造時期のマシンと整合する HPC テクノロジのパフォーマンス情報を含めることが重要になります。Azure HC シリーズ の VM は、使用されている中で最も古い世代のマシンに相当するマシンであると同時に、お客様の当時の HPC 関連投資や構成の選択肢として主流を占めていた、EDR InfiniBand、1DPC DDR4 2666 MT/秒メモリ、Xeon Platinum 第 1 世代 (“Skylake”) プロセッサなどのハイ パフォーマンス テクノロジも備えています。そのため、以降のアプリケーション パフォーマンスの比較では、約 4 年前に製造された、HPC 向けに最適化されたサーバーに相当するマシンとして、HC シリーズが共通で使用されています。
以下の概要は、これまで最新だった HPC VM オファリングである HBv3 シリーズ VM と比べて、HBv4/HX VM のパフォーマンスがどのくらい向上しているか示したものです。
- CFD ワークロードにおけるパフォーマンス: 最大 2.24 倍
- FEA ワークロードにおけるパフォーマンス: 最大3 倍
- 気象シミュレーション ワークロードにおけるパフォーマンス: 最大51 倍
- 分子動力学ワークロードにおけるパフォーマンス: 最大 2 倍
- レンダリング ワークロードにおけるパフォーマンス: 最大87 倍
- 化学ワークロードにおけるパフォーマンス: 最大45 倍
数値流体力学 (CFD)
Ansys Fluent – バージョン 2022 R2
図 4: Ansys Fluent (Aircraft Wing 14M) において、HBv4/HX VM は、4 年前に製造された HPC サーバー (それに相当する HC シリーズ VM を比較に利用) と比べてパフォーマンスが 4 倍以上となっており、これまで最新だった Azure HPC VM (HBv3 シリーズ) と比べてもパフォーマンスが 1.84 倍となっている。
図 4 で示されているベンチマークの絶対値は以下のとおりです。
VM の種類 |
ソルバー評価の平均 |
4 年前に製造された HPC サーバー |
729.77 |
HBv2 |
1314.27 |
HBv3 |
1764.80 |
HBv4/HX |
3247.70 |
表 3: Ansys Fluent (aircraft wing 14M) における絶対パフォーマンス (ソルバー評価の平均。数値が大きいほど優れている)。
また、次の図は、単一の VM 内におけるパフォーマンスのスケールアップについて示したものです。
図 5: Ansys Fluent (Aircraft Wing 14M) において、176 コア VM サイズの方が 96 コア VM サイズよりもパフォーマンスが 38% 高くなっており、コアあたりのパフォーマンスと VM あたりのパフォーマンス間のトレードオフを示している。
図 5 で示されているベンチマークの絶対値は以下のとおりです。
HBv4/HX VM サイズ |
ソルバー評価の平均 |
96 CPU コア |
2357.5 |
144 CPU コア |
2854.0 |
176 CPU コア |
3247.7 |
表 4: Ansys Fluent (aircraft wing 14M) における絶対パフォーマンス (ソルバー評価の平均。数値が大きいほど優れている)。
Siemens Simcenter STAR-CCM+ – バージョン 17.04.008
図 6: Siemens Simcenter STAR-CCM+(Civil) において、HBv4/HX VM は、4 年前に製造された HPC サーバーと比べてパフォーマンスが 5 倍以上となっており、HBv3 シリーズと比べてパフォーマンスが 2 倍以上となっている。
図 6 で示されているベンチマークの絶対値は以下のとおりです。
VM の種類 |
経過時間 (秒) |
4 年前に製造された HPC サーバー |
6.46 |
HBv2 |
3.2 |
HBv3 |
2.88 |
HBv4/HX |
1.29 |
表 5: Siemens Simcenter STAR-CCM+(Civil) における絶対パフォーマンス (経過時間。短いほど優れている)。
また、次の図は、単一の VM 内におけるパフォーマンスのスケールアップについて示したものです。
図 7: Simcenter STAR-CCM+ (Civil) において、176 コア VM サイズの方が 96 コア VM サイズよりも解決までの時間が40% 近く短くなっており、コアあたりのパフォーマンスと VM あたりのパフォーマンス間のトレードオフを示している。
図 7 で示されているベンチマークの絶対値は以下のとおりです。
HBv4/HX VM サイズ |
経過時間 (秒) |
96 CPU コア |
1.81 |
144 CPU コア |
1.42 |
176 CPU コア |
1.29 |
表 6: HBv4/HX VM サイズの STAR-CCM+(Civil) における絶対パフォーマンス (経過時間。短いほど優れている)。
Ansys Fluent と Siemens Simcenter STAR-CCM+ におけるパフォーマンスのスケールアップに関する図からわかるように、商用ソフトウェア ライセンスの制約を理由に、より少ないコア数が必要とされるお客様のワークロードには、制約付きコアの HBv4/HX VM が大きなメリットをもたらします。たとえば、Ansys Fluent に関する表 4 を見ると、HBv4/HX の 96 コア VM サイズのパフォーマンスは 176 コア VM サイズの 73% ですが、必要となるソフトウェア ライセンス コアの数はわずか 55% に抑えられています。
OpenFOAM – バージョン 2012
図 8: OpenFOAM (Motorbike 28M) において、HBv4/HX VM は、4 年前に製造された HPC サーバーと比べてパフォーマンスが 4 倍以上となっており、これまで最新だった Azure HPC VM (HBv3 シリーズ) と比べてパフォーマンスが 2 倍以上となっている。
図 8 で示されているベンチマークの絶対値は以下のとおりです。
VM の種類 |
平均実行時間 (秒) |
4 年前に製造された HPC サーバー |
1543 |
HBv2 |
1001 |
HBv3 |
687 |
HBv4/HX |
334 |
表 7: OpenFOAM (Motorbike 28M セル) における絶対パフォーマンス (実行時間。短いほど優れている)。
有限要素解析 (FEA)
Altair RADIOSS – バージョン 2022.1
図 9: Altair Radioss (T10M) において、HBv4/HX VM は、4 年前に製造された HPC サーバーと比べてパフォーマンスが 4 倍以上となっており、これまで最新だった Azure HPC VM (HBv3 シリーズ) と比べてパフォーマンスが 2 倍以上となっている。
図 9 で示されているベンチマークの絶対値は以下のとおりです。
VM の種類 |
実行時間 (秒) |
4 年前に製造された HPC サーバー |
3395 |
HBv2 |
1873 |
HBv3 |
1738 |
HBv4/HX |
773 |
表 8: Altair Radioss (T10M) における絶対パフォーマンス (実行時間。短いほど優れている)。
MSC Nastran – バージョン 2022.3
注: NASTRAN については、こうした大規模なメモリ ワークロードをサポートするように構築されている HX シリーズ VM でのみ SOL108 Medium のベンチマーク テストを行いました。HX シリーズのより大規模なメモリ領域 (HBv4 シリーズの 2 倍) を使用すると、ベンチマークは DRAM を最大限活用し、パフォーマンスを一層向上させます。これは、新しい第 4 世代 EPYC CPU や一層高速化したメモリ サブシステムがもたらすパフォーマンス向上に、さらに付け加えられたものとなります。したがって、下記のベンチマーク結果で “HBv4/HX” という表記を使用すると、パフォーマンス特性を正確に表現したことにならないため、代わりに “HX” のみを使用しています。
図 10: MSC NASTRAN (SOL108 Medium) において、HX シリーズ VM は、4 年前に製造された HPC サーバーと比べてパフォーマンスが 8 倍以上となっており、これまで最新だった Azure HPC VM (HBv3 シリーズ) と比べてパフォーマンスが 5 倍以上となっている。
図 10 で示されているベンチマークの絶対値は以下のとおりです。
VM の種類 |
実行時間 (秒) |
4 年前に製造された HPC サーバー |
30990 |
HBv2 |
25479 |
HBv3 |
19242 |
HBv4/HX |
3599 |
表 9: MSC NASTRAN における絶対パフォーマンス (実行時間。短いほど優れている)。
気象シミュレーション
WRF – バージョン 4.2.2
図 11: WRF (Conus 2.5km) において、HBv4/HX VM は、4 年前に製造された HPC サーバーと比べてパフォーマンスが 8 倍以上となっており、これまで最新だった Azure HPC VM (HBv3 シリーズ) と比べてパフォーマンスが 2 倍以上となっている。
図 11 で示されているベンチマークの絶対値は以下のとおりです。
VM の種類 |
時間/タイム ステップ (秒) |
4 年前に製造された HPC サーバー |
21.63 |
HBv2 |
7.79 |
HBv3 |
6.58 |
HBv4/HX |
2.60 |
表 10: WRF (Conus 2.5km) における絶対パフォーマンス (時間/タイム ステップ。数値が小さいほど優れている)。
分子動力学
NAMD – バージョン 2.15
図 12: NAMD (Apoa1: 原子数 10 万) において、HBv4/HX VM は、4 年前に製造された HPC サーバーと比べてパフォーマンスが 5 倍以上となっており、これまで最新だった Azure HPC VM (HBv3 シリーズ) と比べてパフォーマンスが 2 倍以上となっている。
図 12 で示されているベンチマークの絶対値は以下のとおりです。
VM の種類 |
ナノ秒/日 |
4 年前に製造された HPC サーバー |
6.04 |
HBv3 |
15.47 |
HBv4/HX |
31.17 |
表 11: NAMD (Apoa1: 原子数 10 万) における絶対パフォーマンス (ナノ秒/日。数値が大きいほど優れている)。
レンダリング
V-Ray – バージョン 5.02.00
図 13: V-Ray 5 において、HBv4/HX VM は、4 年前に製造された HPC サーバーと比べてパフォーマンスが 4 倍以上となっており、これまで最新だった Azure HPC VM (HBv3 シリーズ) と比べてパフォーマンスが 1.86 倍となっている。
図 13 で示されているベンチマークの絶対値は以下のとおりです。
VM の種類 |
レンダリングされたフレーム数 |
4 年前に製造された HPC サーバー |
30942 |
HBv2 |
59354 |
HBv3 |
73198 |
HBv4/HX |
136321 |
表 12: Chaos V-ray 5 における絶対パフォーマンス (レンダリングされたフレーム数。多いほど優れている)。
化学
CP2K – バージョン 9.1
図 14: CP2K (H2O-DFT-LS) において、HBv4/HX VM は、4 年前に製造された HPC サーバーと比べてパフォーマンスが 5 倍近くになっており、これまで最新だった Azure HPC VM (HBv3 シリーズ) と比べてパフォーマンスが 2.5 倍近くになっている。
図 14 で示されているベンチマークの絶対値は以下のとおりです。
VM の種類 |
実行時間 (秒) |
4 年前に製造された HPC サーバー |
5516 |
HBv2 |
2679 |
HBv3 |
2796 |
HBv4/HX |
1132 |
表 13: CP2K (H2O-DFT-LS) における絶対パフォーマンス (実行時間。短いほど優れている)。
#AzureHPCAI