Follow

LLaMAのオープン実装?RedPajamaのデータセットで200Bトークン学習させたブツだって。え、RedPajama自身も同じようなモデル作っててすでに600Bトークン学習させてるのに何で?って思ったら、これは完全にハイパーパラメータをLLaMAに揃えてて、性能が再現するかとか確認するためにやってるらしい →RT

Sign in to participate in the conversation
Mastodon

海行の個人インスタンスです。
よろしくどうぞ。

ホームページ
http://soysoftware.sakura.ne.jp/