イテイ氏の指摘。「いや、このグラフ見たらまず、300Bトークン学習時点で同パラ数のPythiaに負けとる事の方が気になるんだが?PythiaはPileで学習させたのに?」的な事。つまりRedPajamaのデータセットってザコなのでは疑惑 →RT
海行の個人インスタンスです。 よろしくどうぞ。 ホームページ http://soysoftware.sakura.ne.jp/