GPUのお勉強③ - NVDA情報局(フラグ)

f:id:booniebichon:20161018172528j:plain

GPUもチップの性能改善してればいいという時代ではないということ？

NVDAもCUDAの普及を第一目標に掲げている理由がここで説明されているか？

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

Xeon PhiはGPUより速いとの主張にNVIDIAが真っ向から反論・・・最適化が重要

<< 作成日時： 2016/08/23 13:34 >>

結局どんなに最新のプロセッサでも、ソフトウェアプラットフォームが最新アーキテクチャに最適化されていないと、最大性能は発揮できないということだ。昔のように、古い資産でも徐々に性能が上がる時代はもうとうに終わっている訳だ。

＜ハードを活かすも殺すもソフトウェア次第＞

12年ぐらい前までは、クロック至上主義がまだ残っていたため、ソフトウェア性能の向上はプロセッサの進化とほぼ遂になっていた。要は、クロック周波数が上がれば、ソフトウェアの性能も上がる。30%上がれば、30%性能も上がった時代である。

しかし、クロック周波数は3.8GHz辺りを境に上がらなくなった。Tejsコアのキャンセルは、その頃に起きた。当初6GHzから10GHzを目指すとされたNetBurst microarchitectureが終焉を迎えるきっかけとなったのは、90nmプロセスでリーク電流を抑制できない事態に入ってからである。

その後は、Coreシリーズへと舵を切る。この頃まではクロックを追わないAMDも強かった。Intelが軌道修正を進める中で、今度はAPU戦略とクラスターコア戦略でAMDは失策をしてしまうが、それはまた別の話である。

ちなみに、ソフトウェアがハードに対応する時代に入ったのは、インテルがMMX Technologyを発表した頃である。96年から97年（製品が市場に登場）に掛けて登場したこれは、x86にSIMD命令セットを追加し、ソフトウェアの一部処理を、高速にそして、単純に実行する仕組みを備えた。

ただし、これを使うにはソフトウェアが新命令に最適化されていなければならなかった。その後、AMDとIntelはSIMDのレベルを深化させ、浮動小数点演算に対応する3D Now!やStreaming SIMD Extensions(SSE)などを相次いで投入した。

今では、その技術はAVXに拡張され、これがブランドの違いと性能を押し上げるステータスとなっている。

このソフトウェアの最適化が必須になるきっかけは、Intelが最初にもたらし、AMDが強化し、再びインテルがSMT（HTT）において強化した。今では、AES-NIや、GPGPU、VT関連の仮想処理まで、ソフトウェアの対応がなければ機能しない。CPUがソフトウェアをリードする時代から、まさにソフトウェアがCPUに対応する時代へとシフトした。

＜マイクロソフトが強気になれる理由もこれ＞

マイクロソフトがWindows10のみをサポートしていく理由もまさにここにあると言われる。今では、プロセッサを活かすも殺すも、ソフトウェア側の対応が全てである。そのため、OSが対応しない限り、ハードウェアも使えない。使えたとしても、十分な性能は発揮できない。

そういう時代になった。その結果、ベンチマークテストも結局は最適化のレベルがどこまで進んでいるかで、評価が変わるようになった。

A社のテストは、X社に強く、B社のテストはI社に対して、有利になるという露骨な差が出ることもあるほどに・・・そう考えると、もうソフトウェアがどこまでハードと密接に連携できる性能を持っているかが全てになりつつあると言えよう。

そう考えてみると、Xeon PhiはGPUより速いのか？それとも、NVDAの製品が高速なのか？とても面白いネタだと考える。

個人的には、Caffe AlexeNetの製品が18ヶ月も前の製品であるから、今は速いという場合、18ヶ月前にIntelのXeon Phiの最適化が終わっていたのかどうかが気になる。

もしもそうでなく、これから最適化が行われるか、その予定がない製品をテストに使ったなら、なかなか評価は難しいだろう。AVX-512が使えるXeon Phiだけにもし最適化が出来ていないとしたら、数字は変わりそうな気もする。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

www.nvidia.co.jp

米NVIDIAは16日(現地時間)、Intelが公開した深層学習(ディープラーニング)に関するXeon PhiとNVIDIA GPUを比較したベンチマーク結果に誤りがあるとの主張をブログで公開した。

　Intelによれば、Xeon Phiは深層学習において

GPUよりも2.3倍迅速なトレーニングか可能
ノード全体でGPUよりも38%優れたスケーリングを実現
GPUには不可能な128ノードへの強力なスケーリングを実現
するとしている。

　これについて、NVIDIAはIntelが用いたベンチマークが古いことを指摘。Intelが用いたのは18カ月前に公開されたCaffe AlexeNetデータであり、最近導入されたCaffe AlexNetを使用すれば、4基のMaxwell GPUシステムの方が4基のXeon Phiシステムより30%高速だとしている。また、4基のPascalベースのTITAN Xを用いると、90%高速にトレーニングできるとしている。

　スケーリングについても、Intelが引用したのは古いインターコネクトを採用した4年前のデータであり、NVIDIAは、より新しいMaxwell GPUとインターコネクトを採用したシステムにより、BaiduがGPUを128基までほぼ直線的に拡張できた発表したことを引用し、反証している。

　NVIDIAは、Intelが現在深層学習の研究を進めていることは素晴らしく、これは近付いているAIの時代に最も重要なコンピューティング革命であり、深層学習は無視することのできない偉大な技術だが、事実はきちんと確認する必要があるとしている。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

　米Intelは20日(現地時間)、HPC向けの新プロセッサ「Xeon Phi」シリーズを発表した。

　Xeon Phiのリリース文には「機械学習」に関する説明が多く書かれており、深層学習用のシステムで業界を席巻しているNVIDIAへの明確な対抗製品という位置付けにある。

　新しいXeon Phiは、2014年6月に発表されたコードネーム「Knights Landing」と同じXeon Phi 7200番台に属するが、コア数は最大72コアに増大。そして、x86 CPUとして動作するブータブルホストプロセッサを初内蔵。これにより別途CPUを必要とせず、PCI Expressバスへの依存がなくなったことから拡張性が大きく向上している。

　また、メモリとインターコネクト「Omni-Path Fabric」の両方をワンパッケージで内部実装。組み込みメモリは16GBの容量を備え、500GB/secの帯域を確保している。

Omni-Pathの実装は深層学習などの複雑な処理に最適としており、トレーニングモデルの作成時間を短縮化できるという。32ノードのXeon Phi 7250を利用したシステムでは、Tesla K20を32基搭載したシステムよりも深層学習のトレーニングにおいて1.38倍速く、128ノードにおいては50倍速くトレーニングを終えたという。

　新しいXeon Phiのラインナップは下表の通り。

【表】Xeon Phi 7200シリーズ

コア数コアクロック内部メモリ(帯域) Fabric(Omni-Path) 外部メモリ消費電力
Xeon Phi 7290 72 1.5GHz 16GB(7.2GT/s) 実装 DDR4-2400/384GB 245W+15W(Fabric)
Xeon Phi 7250 68 1.4GHz 16GB(7.2GT/s) 実装 DDR4-2400/384GB 215W+15W(Fabric)
Xeon Phi 7230 64 1.3GHz 16GB(7.2GT/s) 実装 DDR4-2400/384GB 215W+15W(Fabric)
Xeon Phi 7210 64 1.3GHz 16GB(6.4GT/s) 実装 DDR4-2400/384GB 215W+15W(Fabric)

　なお、Omni-Path非搭載の個体も用意され、対応のものはプロセッサの側面に専用のコネクタを実装している。Omni-Path対応のプロセッサは消費電力が15W増加する。

　新Xeon Phiの登場は今年(2016年)の9月を予定しており、数万ユニットを出荷予定。今年中に10万ユニットの販売を予測しているという。なお、既にDell、富士通、日立、HP、NECなどといった大手メーカーへの出荷が決定している。