2023-05-07から1日間の記事一覧

An Attention Free Transformer

概要 Transformerは従来のRNNやCNNと比べて計算量を大幅に減らしたが、まだその計算量は大きいままである。ボトルネックとなっているのは、Attention layerにおける行列積の計算で、テキストサイズの2乗に比例した時間がかかっている。そこで、行列積に近似…