RT @_oshizo_: 混合精度分解は、推論時にhidden stateから外れ値を含む特徴量次元は分けておき、外れ値次元はfp16で計算、それ以外はint8に量子化して計算して最後に足す。外れ値にする閾値はfrom_pretrainedの引数load_in_8bit_thresholdでロード時に設定できる(デフォは6.0)
海行の個人インスタンスです。 よろしくどうぞ。 ホームページ http://soysoftware.sakura.ne.jp/