RT @_oshizo_: load_in_8bitの難点は推論が遅くなることで、bloomz-7b1で測るとデフォの設定では倍ぐらいかかる(6.2sec→12.8sec/100tokens)。外れ値判定の閾値を下げるとfp16で計算する次元が増えて緩和される(8.4sec)。メモリが増えるのでは?と思うが、nvidia-smiの数値では増えてない(なぜ?) https://t.co/DR3RpXAjFt
海行の個人インスタンスです。 よろしくどうぞ。 ホームページ http://soysoftware.sakura.ne.jp/