Follow

RT @_oshizo_: load_in_8bitの難点は推論が遅くなることで、bloomz-7b1で測るとデフォの設定では倍ぐらいかかる(6.2sec→12.8sec/100tokens)。
外れ値判定の閾値を下げるとfp16で計算する次元が増えて緩和される(8.4sec)。
メモリが増えるのでは?と思うが、nvidia-smiの数値では増えてない(なぜ?) t.co/DR3RpXAjFt

Sign in to participate in the conversation
Mastodon

海行の個人インスタンスです。
よろしくどうぞ。

ホームページ
http://soysoftware.sakura.ne.jp/