LLaMAのオープン実装?RedPajamaのデータセットで200Bトークン学習させたブツだって。え、RedPajama自身も同じようなモデル作っててすでに600Bトークン学習させてるのに何で?って思ったら、これは完全にハイパーパラメータをLLaMAに揃えてて、性能が再現するかとか確認するためにやってるらしい →RT
海行の個人インスタンスです。 よろしくどうぞ。 ホームページ http://soysoftware.sakura.ne.jp/