ちなみに本家LLaMAは、65Bや33Bモデルは1.4Tトークン、7Bと13Bモデルは1Tトークンの学習量らしい。LLaMAの性能の高さを鑑みると、今はこの1Tトークンの学習量が一つの基準かもね
海行の個人インスタンスです。 よろしくどうぞ。 ホームページ http://soysoftware.sakura.ne.jp/