スペシャル
【徹底検証】IBM POWERとIntelのXeonをいろいろな角度で比較してみました

2016年11月11日


imeg_powercompare_cover
昨今、プロセッサーの勢力図に大きな変化が起きつつあることをご存知でしょうか。これまでプロセッサーのシェアはほぼIntelが独占的かつ大きな影響力を持っていましたが、その牙城が揺らぎつつあります。ARM がスマートフォンの市場規模拡大とともにシェアを広がげているだけでなく、法人需要のサーバー分野において、参加メンバー数300に迫る勢いを見せている(2016年11月2日時点で271)開発コミュニティ「OpenPOWER」を背景に、IBM の POWER が市場において実績と認知度を高めつつあります。本記事では iCafe 編集部がその POWER プロセッサーについて Intel Xeon 製品との比較を通じ、どのような優位性があるのか徹底検証してみました。

POWER テクノロジーの浸透

この転換期を象徴するエピソードとして、POWER サーバーによる Google 社内のサーバーのリプレイスは大きな話題を集めました。元々 Intel 系のサーバーを何万台とデータセンターに配置して運用を行っていた Google がリプレイスに至った理由、それは運用における電気代の節約でした。そのために追求したことは非常に単純で、サーバーの台数を減らすことです。そこで性能の高いプロセッサーを搭載したサーバーを導入することでサーバーの台数を減らし、電気代の削減につなげる。それを実現するために導入されることになったのが IBM の POWER 8 プロセッサーを搭載するサーバーでした。ソフトウェア開発のメーカーも単に設定ファイルのフラグ修正のみで対応できるため、すでに多くの Google アプリやインフラ周辺のソフトウェアが POWER 8 搭載サーバーに移植されています。そして、すでに発表もされている POWER 9 は POWER 8 の2倍近い性能を誇る高性能なプロセッサーとなる見込みで、さらなる処理能力の向上が期待されています。また、Google は Rackspace と新プロセッサ搭載サーバーの共同開発も進めるなど、今後さらなる進展が予想されます。

2014年に発表された、米国のエネルギー省におけるスーパーコンピューターの導入もこの高性能なプロセッサーがポイントです。この OpenPOWER ベースのシステムは IBM の POWER プロセッサーと NVIDIA の GPU を、両社が共同で開発した NVLink により連携することでデータ処理能力を大きく向上させ、従来の10倍の処理能力を提供することが可能になりました。

参考資料:米国エネルギー省、研究の推進とビッグデータの課題に対処するため、IBM のデータ・セントリック・システムを採用
http://www-03.ibm.com/press/jp/ja/pressrelease/48733.wss

なお、2016年6月に発表されたスーパーコンピューターのランキングにおいて、93.01ペタ FLOPS という能力を持った中国製スーパーコンピューターが1位となりました。対して2017~18年に導入が予定されているこのIBMのスーパーコンピューターは、現在の世界最速スパコンの能力を大きく凌駕するものになるはずです。

販売管理の指標ではPOWERプロセッサー搭載サーバーの圧勝!?

最新のベンチマーク指標値を参考にしながら、POWER 搭載サーバーと Intel 系サーバーの比較検証をしていきましょう。数多くのベンチマークがありますが、ここではプロセッサーの整数演算能力を測るベンチマークとして参照されることの多い「SPECint_rate2006」そして基幹業務ベンチマークの「SAP SD 2-Tier」の二つを取り上げています。SPECint_rate2006 はプロセッサーのパフォーマンスを表す SPEC ベンチマークとして有名なものですが、SAP SD(Sales and Distribution)は SAP 社の販売管理アプリケーションのトランザクション処理能力を測定したもので、プロセッサーだけでなく、メモリやシステムバス、I/O 周りなどの全体的な能力が反映される傾向があります。SPECint に比べると、基幹業務アプリケーションのパフォーマンスの判断材料になり得るものです。

ベンチマーク結果に見るパフォーマンス

では初めにプロセッサーの整数演算ベンチマークの結果である、SPECint_rate2006 の比較結果から見ていきましょう。基幹業務システムにおける、演算の要とも言うべきプロセッサーのパフォーマンスです。データは SPEC ウェブサイトに公開されており、英語ではありますが誰でも自由に CSV 形式のファイルをダウンロードすることができます。以下はベンチマーク結果のベスト10サーバーを上位から並べた一覧です。

img_perresult_01
※ 2016 年 11 月 5 日 SPECint_rate2006
https://www.spec.org/cgi-bin/osgresults?conf=rint2006;op=dump;format=csvdump

一番左にある「Result」がベンチマーク結果を相対的に表した値です。富士通の SPARC が1、2位を独占しています。しかし、コア数が1,024となっており、IBM の Power E880 と比較すると5倍超のコアを搭載していることになります。一方でパフォーマンスは2倍超でしかありません。コア単位の課金体系を適用するソフトウェア製品が多くなっていることを考えると、同等パフォーマンスを達成するために必要となるライセンス料金負担額は、PowerE880 の2.5倍にもなることを意味します。これではユーザーから見たコスト・パフォーマンスは優れているとは言えません。ここでコアあたりのパフォーマンスをより正確に比較するために、ResultをCores(コア数)で割った結果を降順に並べ替えてみます。

img_percore_01

POWER 8 搭載機がほぼ独占状態にあることがわかります。また意外なことに Intel 系プロセッサーとしては Core i3 が上位に入っています。ベンチマーク結果一覧を見ると、Core i5 やi7 だけでなく、Xeon プロセッサーも最新の Broadwell を含めて多数レポートされているはずなのですが、下位のプロセッサーがランクインしているのです。スペックを見るとコア数が2と少なく、おそらくそのためかクロック数も高くなっていることが理由なのでしょう。コアあたりパフォーマンスは良いとしてもシステム全体性能である「Result」値は小さく、拡張性は期待できないことがわかります。限られた用途においてはメリットがある、といったところでしょうか。これに対して POWER 8 搭載機は十分な拡張性を担保しています。特に5位にランクインしている Power E880 は、システム全体性能においても6位にランクインしています。コアあたり、システム全体の両面において、優れたパフォーマンスを発揮しているわけです。

次に、SAP の販売管理におけるベンチマークをもとに比較してみましょう。先ほどの SPECint_rate2006 は整数演算におけるプロセッサーのパフォーマンスを表すものでしたが、こちらではトランザクション処理量を見ることができるので、より業務寄りで実践的だと言えます。データは SAP 社サイトからダウンロードできます。

img_perresult_02

※ 2016 年 11 月 5 日 SAP SD
http://global.sap.com/solutions/benchmark/sd2tier.epx

またしても富士通の Sparc 搭載のサーバーが1、2位を独占という結果となっています。では先ほどと同様に「コアあたり」での結果はどうなのか、それが下の表です。

img_percore_02

※2016 年 11 月 5 日 SAP SD
http://global.sap.com/solutions/benchmark/sd2tier.epx

今度も IBM の POWER プロセッサー搭載のサーバーがほぼ上位独占状態となりました。一台あたりのパフォーマンスの観点では、SPACXeon 搭載サーバーは一見優れているのですが、それを実現しているのはコアの数の多さであり、ソフトウェア料金やその保守費用が増大することを受け入れなければなりません。これは重要な選定ポイントとして押さえておくべき点ではないでしょうか。すべてのユーザーが、「金に糸目をつけずに」ベンチマーク最上位クラスのパフォーマンスを求めているわけではないのです。

システム全体のバランスも要チェック

ここまでプロセッサーの整数演算と基幹業務の両パフォーマンス・データを概観し、比較したわけですが、もう一歩踏み込んで考えてみたいと思います。それはコアあたりの POWER 8 と Intel 系プロセッサーのパフォーマンスの差です。SPECint_rate2006 におけるコアあたり(Per Core)最速機同士を比較すると、POWER 8 搭載 Power E880 は84.38、Intel 系の Core i3 搭載NEC Express5800 は73.50ですので、 約15%の差があります。SAP SD においては、Power E870 の5451.25とx3650の3191.25ですので、差は約71%に広がりります。これは何を意味しているのでしょうか。

もちろんどのようなベンチマークも万能ではないので、比較結果にばらつきが出ることは致し方ありません。それにしても15%と71%の差はかなり大きいので、その理由を考えてみることは意味がありそうです。

そもそも何を測定することを狙いとしたベンチマークなのか、という点を考慮する必要があるのだと思います。先に述べたとおり、SPECint_rate2006 はプロセッサーの整数演算パフォーマンスを測定することが主な狙いでした。一方の SAP SD は基幹業務ベンチマークですので、システム・バスやディスクなどシステム全体のバランスが色濃く反映される傾向があります。

逆に言うと、SEPCint_rate2006 においてよりも、SAP SD において優れたパフォーマンスを出せるということは、それだけシステムとしてのバランスがとれているということに他なりません。システム間でパフォーマンスを比較する際に、是非気をつけておきたいポイントです。そして Power はバランスのとれたシステムであることが、ベンチマーク結果に示されているのです。

浮動小数点演算で NVIDIA と連携する Power サーバー

昨今注目が集まるディープ・ラーニングの領域においては高度に並列化された浮動小数点演算が可能なサーバーが用いられることになります。そのため、POWER や Xeon などの汎用プロセッサーでは連続的な処理を行い、NVIDIA のような GPU は一部の並列処理を分担する、というやり方が最近の傾向です。GPUとは Graphics Processing Unit の頭文字をとったもので、元々はグラフィックス処理を高速化するために使われる専用のプロセッサーでしたが、多くの浮動小数点演算ユニット・コアを搭載することから、様々な用途で使われるようになってきました。例えばスパコンのランキングを決定するのは Linpack という線形代数ソフトウェアなのですが、やはり高度な並列演算を必要とするため、GPU をアクセラレータとして利用するマシンが上位に入る傾向があります。Power サーバーにおいても、POWER 8 と NVIDIA の最新 GPU P100 を NVLink 経由で接続・連携しています。

P100 のスペックは NVIDIA 社ホームページ(http://www.nvidia.com/object/pascal-architecture-whitepaper.html)に記載されているので、簡単に見てみましょう。クロックは1.328GHz と必ずしも高速という印象ではありませんが、32 ビット浮動小数点演算ユニット・コア数は3,584も搭載されています。POWER 8 の12コアに比べてはるかに多いですが、だからと言って代わりが務まるわけではありません。汎用プロセッサーとして必要になる数多くの機能が欠落しています。例えば整数演算や条件分岐、データをメインメモリから取得するためのユニットがありません。特定の演算においては圧倒的な能力を発揮できる一方で、それ以外はほとんど何もできないのです。

そして GPU が多数のコアを活かしてその真価を発揮するには、大量のデータが必要になります。しかし自力ではメインメモリにアクセスできないので、プロセッサー間のバスを通じて汎用プロセッサー経由でデータを入手します。GPU を活かす上で、このバンド幅がボトルネックになる可能性があります。例えば Intel 系サーバーにおいては、GPU と Xeon との間は PCIe を経由する必要がありますが、その最大のバンド幅は32GB/s です。これに対してPOWER 8 搭載機は、2.5倍の80GB/s のバンド幅を持つ NVLink を利用することができます。プロセッサーや GPU だけが高速であっても、システム全体のバランスを欠いていては、宝の持ち腐れになってしまいます。

プロセッサー間で NVLink 接続するためには、汎用プロセッサーと GPU の両方でそのためのポートを備える必要があります。IBM は NVIDIA と協力してこのテクノロジーを開発し、POWER 8 に実装しているのです。この記事を書いている時点で、NVLink ポートを備えた Intel 系プロセッサーは存在しません。もしかしたら NVLink を利用できる Intel 系サーバーのことを聞いたことのある方がいらっしゃるかもしれませんが、それは複数の GPU 間接続においてであり、汎用プロセッサーとの間の接続ではありません。如何にしてメインメモリから大量のデータを効率良く GPU に供給するのか、といった懸念は残されたままです。

NVLink は OpenPOWER という開発コミュニティの成果物です。最新の Power システムは300にも迫る会社、研究機関、大学などが参加するこのコミュニティを通じて開発されているのです。Power システムというと IBM 独自テクノロジーで固めた製品という印象でしたが、今やオープンなシステムに変貌を遂げており、POWER 8 プロセッサー搭載の他社サーバーも登場しています。

コア数あたりのパフォーマンスに着目

これまで最新状況を見てきましたが、世代をいくつか遡ることによって POWER と Xeon 両者の傾向を検証してみたいと思います。まずは下の表をご覧ください。

img_comparechart_01

これはインテルの Xeon プロセッサーのパフォーマンスを世代別に見たものです。左から右に進むにつれて新しくなってゆき、Broadwell が最新版というわけです。ここで使っている「CPU Mark」という指標はインテル系のプロセッサーにおいてはよく参照されているベンチマークのようです。

参考資料:CPU Mark によるパフォーマンス
https://www.cpubenchmark.net/high_end_cpus.html

世代が上がるごとに、「CPU Mark」の数字が増加しています。例えば Sandy Bridge E5-2680 から Broadwell E5-2680v4 へは、約1.6倍になっています。一方コア数も8から14へと1.75倍になっていることもわかります。ここで CPU Mark 値をコア数で割った結果を見てみると、例えば Sandy Bridge E5-2680 から Broadwell E5-2680v4 へは逆に約9%下落しています。コア単位のライセンス料金体系を適用するソフトウェア製品が増えていることを考えると、プロセッサー世代を経るたびに価格性能比はやや下落する傾向にあります。

それではもう一方の POWER プロセッサーはどうなのか。同様に POWER 5 から POWER 8 の四世代分を比較してみたのが下の表となります。

img_comparechart_02

※  rPerf: Relative Performance – IBM が測定する相対性能比

この表で着目してもらいたいのは「rPerf」という数字です。これは IBM 社内で利用しているプロセッサーのベンチマーク指標です。世代が上がるごとに rPerf が増加しており、POWER 5 と POWER 8 では約17倍。大きく性能が高まっていることがわかります。Xeon プロセッサー同様、コア数も「2」から「12」へと6倍になっていますが、コアあたりの rPerf も「6.9」から「19.6」へと約2.8倍に増加しています。すなわち、Xeon プロセッサーのようにコア数の増加だけではなく、コアあたりのパフォーマンスも上昇していることが大きな違いです。

大枠のベンチマーク指標における結果だけ見ると、両者ともに世代が上がるごとにパフォーマンスが上昇しているという点では一致しています。しかし、これまでの説明のように詳細を見ていくとパフォーマンス向上のアプローチが異なることが見えてきたかと思います。すなわち、パフォーマンスを稼ぐために Xeon プロセッサーはコア数の増加のみで対応してきているが、POWER プロセッサーはコア数だけでなくコアあたりのパフォーマンスも向上させてきているということです。パフォーマンスが上昇しているから問題ないと見る向きもあるかもしれませんが、どちらがユーザーにとってメリットがあるのかは明らかです。

まだまだ増え続ける Power ファミリー

imeg_powercompare_powerlineup03

ここまで見てきたように、POWER プロセッサーは世代ごとにパフォーマンスの向上に合わせ、その搭載するサーバーのラインアップも広がりを見せています。元々 AIX か IBM i のみであった選択肢に Linux が加わるにとどまらず、Linux 専用モデルも登場しました。従来の Power システムとは異なり、廉価かつ大量販売型のモデルとするために、あえてラインアップを分けています。

また、Linux 専用モデルには「L」と「LC」の二つのシリーズが存在し、「LC」は OpenPOWER の271の開発コミュニティ(2016年11月2日時点)が開発したもので、IBM 製ではないというのが大きな特徴です。

ここに上げたものはいずれも Linux が動作するものの、あえて「L」、「LC」と専用モデルが分かれているのには大きな意味があります。それは市場における一番優勢な地位を占めているインテルの Linux サーバーに対抗するためです。そして IBM 製の「L」だけでなく、よりオープンなモデルとして登場したのが「LC」シリーズなのです。冒頭に取り上げた Google の例でもこの Linux 専用モデルが採用されているように、今後登場する新たな POWER 9 プロセッサーの高いスペックを期待しての動きはますます、加速していくことと思われます。

また、「S822LC」や「S842L」のように NVIDIA の GPU と連携するモデルがディープ・ラーニングなどの HPC 領域の需要の高まりとともに一層注目されてくることは間違いありません。こうした状況を受けて POWER 搭載サーバーがどのような次の一手を打ってくるのか。今後の動きから当分目が離せません。


この記事のあとにはこちらの記事もおススメです。

関連キーワード