@lithium03 ありがとうございます。私には機械学習の専門知識はなく、Transformer というモデルについても知らないのですが、膨大なパラメータによる分類能力が取りえる入力のパターンを上回りすぎているから、ビット数を減らしても大丈夫という理屈はなんとなく納得できました。
ただ、そこでパラメータの数を減らすのではなくビット数を減らす方向に行くのは不思議だなと感じますし、4 ビットになったとしても INT より FP を使うというのも面白いですね
@lithium03 ありがとうございます。私には機械学習の専門知識はなく、Transformer というモデルについても知らないのですが、膨大なパラメータによる分類能力が取りえる入力のパターンを上回りすぎているから、ビット数を減らしても大丈夫という理屈はなんとなく納得できました。
ただ、そこでパラメータの数を減らすのではなくビット数を減らす方向に行くのは不思議だなと感じますし、4 ビットになったとしても INT より FP を使うというのも面白いですね