Follow

ちなみに本家LLaMAは、65Bや33Bモデルは1.4Tトークン、7Bと13Bモデルは1Tトークンの学習量らしい。LLaMAの性能の高さを鑑みると、今はこの1Tトークンの学習量が一つの基準かもね

Sign in to participate in the conversation
Mastodon

海行の個人インスタンスです。
よろしくどうぞ。

ホームページ
http://soysoftware.sakura.ne.jp/