へえ。LLMの微調整では教師あり学習よりも強化学習の方が使われがち。何故なのか?まず強化学習は”いいね”と”よくないね”の両方のフィードバックができる事が強い。… https://t.co/Ks7rgU7igx
海行の個人インスタンスです。 よろしくどうぞ。 ホームページ http://soysoftware.sakura.ne.jp/