深層学習における分散処理

近年、深層学習において、複数のGPUを使って学習を分散処理するときのGPU間の通信量が大きな課題となっている。一般的なデータ並列による分散処理では、最新のニューラルネットの構成を用いると一回の更新あたり数十〜数百MBに及ぶ通信が発生する。そのため、分散処理による学習時はこの通信にかかる時間がボトルネックとなってしまうことが多い。我々はGPU間での通信量を大幅に減らす方法を提案した。これを用いると、分散処理をしてもGPU間の通信速度に依らず高速に学習することが示された。