概要 Transformerは従来のRNNやCNNと比べて計算量を大幅に減らしたが、まだその計算量は大きいままである。ボトルネックとなっているのは、Attention layerにおける行列積の計算で、テキストサイズの2乗に比例した時間がかかっている。そこで、行列積に近似…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。