Follow

RT @_oshizo_: 混合精度分解は、推論時にhidden stateから外れ値を含む特徴量次元は分けておき、外れ値次元はfp16で計算、それ以外はint8に量子化して計算して最後に足す。
外れ値にする閾値はfrom_pretrainedの引数load_in_8bit_thresholdでロード時に設定できる(デフォは6.0)

Sign in to participate in the conversation
Mastodon

海行の個人インスタンスです。
よろしくどうぞ。

ホームページ
http://soysoftware.sakura.ne.jp/