行列演算ライブラリーBLIS
BLISは米国テキサス大SHPC研が開発している柔軟かつ高速的な行列演算ライブラリーである。標準のBLASとの互換性を保っており、AMDの公式BLASとして採用されている。BLISは最小限のコーディングから最大性能を引き出すことで知られており、様々なプラットフォームにおいて公式のBLASを凌ぐ性能を発揮する。BLIS はCで書かれたフレーム部分とそれぞれのCPUアーキテクチャに特化したアセンブラカーネルから構成され、そのアセンブラ部分こそがBLIS高速化の鍵となっている。我々は、ドイツの Jülich 研と共同で、「富岳」のA64FXプロセッサに最適化したBLISのアセンブラカーネルを開発した。現在、富岳の1ノードにおいて、BLISの性能は理論ピークの75%を実現しており、これはArmPLや富士通SSL2(2021年2月版)をも凌いでいる。今後、90%以上のピーク性能を目指し、さらにチューニングを進める予定である