RT @stomohide: cc100とmC4のそれぞれ日本語だけだと、ページ数はほぼ同じ(6600万ページ vs 8700万ページ)だが、文字数で数えると、mC4の方が10倍強大きく(253億文字 vs 3,500億文字)、今使えるWebコーパスとしてmC4は圧倒的に大きい。
ただ、mC4は英語や中国語、Javascriptのコードなどがところどころ含まれている。

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 09:15

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 09:15

Apr 21, 2023, 09:15

海行（うみゆき） @umiyuki@mstdn.soysoftware.net

RT @stomohide: GoogleがmC4(多言語Webコーパス)を出してくれていたが、自分で前処理が必要、かつ、例えば日本語のみを使うということができないので、使うのをあきらめていて、かわりにFacebookのcc100を使っていた。
が、AllenAIがmC4を各言語ごとにダウンロードできるようにしてくれた。
https://t.co/yr9nVjl6OO

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 09:15

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 09:15

Apr 21, 2023, 09:15

海行（うみゆき） @umiyuki@mstdn.soysoftware.net

また、アイシアさんはLLMの次にはマルチモーダルが来るだろうという。マルチモーダルは弱いマルチモーダル（身体性がない）と強いマルチモーダル（身体性がある）に分けられるという。身体性があるというのはいわゆるロボットAIが自分で動き回って世界を学習する的な奴。具体的には自動運転車とかプリ… https://t.co/fgLFAFy8Io

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 08:15

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 08:15

Apr 21, 2023, 08:15

海行（うみゆき） @umiyuki@mstdn.soysoftware.net

アイシアさんのToolFormer論文読み解説。ToolFormerは自己教師あり学習らしい。どうやって自分で教師データ作るんだよ？というと、色んな入力に対して、ツール使わない場合の出力と、色々ツール使った場合の出力をそれぞれlossを比べて、一番lossが少ない奴を正解として教師データにして微調整するらし… https://t.co/7KWERUqRct

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 08:15

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 08:15

Apr 21, 2023, 08:15

海行（うみゆき） @umiyuki@mstdn.soysoftware.net

RT @AIcia_Solid: 配信します！

LangChain の Agent や、最近話題の
AgentGPT
AutoGPT
BabyAGI
とかの元ネタです！

🤖Toolformer 😍

Meta ﾊﾟｲｾﾝのっょっょ研究見ていきます！❤️‍🔥

YouTubeLive → https://t.co/FxJUWmj1dn https://t.co/jt4xdFeRe2

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 07:15

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 07:15

Apr 21, 2023, 07:15

海行（うみゆき） @umiyuki@mstdn.soysoftware.net

RT @akinoriosamura: AI専門家の次は、AIチームを作るデモ

MultiGPT
タスクと予算を設定すると、専門家のチーム(複数のexpertGPT)を作り、支援する
詳細はスレッドに続く

github: https://t.co/l4HGbDwlJZ https://t.co/WMWNlKk20T https://t.co/FXzuatupLX

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 07:15

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 07:15

Apr 21, 2023, 07:15

海行（うみゆき） @umiyuki@mstdn.soysoftware.net

ややこしい科学の実験を計画、立案するAIエージェントについての研究だって　→RT

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 07:15

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 07:15

Apr 21, 2023, 07:15

海行（うみゆき） @umiyuki@mstdn.soysoftware.net

RT @omarsar0: LLM-based agents for performing complex scientific experiments.

Really interesting paper on developing agents based on LLMs for autonomous design, planning, and execution of scientific experiments. If you're looking for good papers on LLMs, you should read this one.… https://t.co/ev3CzdKuJU https://t.co/2HZ74Frnlf

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 07:15

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 07:15

Apr 21, 2023, 07:15

海行（うみゆき） @umiyuki@mstdn.soysoftware.net

RT @rkmt: AIが立候補するよりAIが「起業する」は結構可能な気がする。オンラインでできない手続き（フィジカルに法務局に行って登記する etc.）はクラウドワーカーに委託する。何をやるか？たとえばオンラインゲームなど。「LIFE3.0」冒頭のAI脱獄シナリオでもAIが映像制作会社になって資金を調達していた..… https://t.co/Pl3AZ8dpAv

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 07:15

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 07:15

Apr 21, 2023, 07:15

海行（うみゆき） @umiyuki@mstdn.soysoftware.net

RT @hpp_ricecake: めっちゃ頑張ってLoRAの解説資料書いたから見て！！(初学者向けに分野の変遷も自分なりに書いてみたからコメントくれ！！！！) https://t.co/8nHEpaRtct

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 07:15

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 07:15

Apr 21, 2023, 07:15

海行（うみゆき） @umiyuki@mstdn.soysoftware.net

ジェイソンウェイ氏の創発論文で、「LLMが急に創発能力獲得する！って話、対数グラフ使ってるのインチキじゃね？」って批判に対する反論。これによると、7Bから13Bにパラ数上げるときもパフォーマンスのジャンプが起きてると分かるね　→RT

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 07:15

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 07:15

Apr 21, 2023, 07:15

海行（うみゆき） @umiyuki@mstdn.soysoftware.net

RT @_jasonwei: It's not immediately obvious why LM scaling plots use a log-scale x-axis, and as a result some people think that "emergent abilities" are not real and just an artifact of the log-scale x-axis.

A quick post debunking that:
1. One reason for a log-scale x-axis is that models we… https://t.co/cP44L9n1Tr

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 06:15

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 06:15

Apr 21, 2023, 06:15

海行（うみゆき） @umiyuki@mstdn.soysoftware.net

RT @h_okumura: ChatGPTの運用に1日70万ドル以上（≒1億円）かかるらしい https://t.co/63qhhEie4T

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 06:15

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 06:15

Apr 21, 2023, 06:15

海行（うみゆき） @umiyuki@mstdn.soysoftware.net

RT @Yokohara_h: これ無料配布してくれているの多分デモファイルだった。さっきのツイートは消しといた。落として勉強してみようかな https://t.co/r5rESniTIv

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 06:14

**海行（うみゆき）** @umiyuki@mstdn.soysoftware.net · Apr 21, 2023, 06:14

Apr 21, 2023, 06:14

海行（うみゆき） @umiyuki@mstdn.soysoftware.net

落合さん自身によるLLM論文の解説。記事の中で言われてるけど、落合さんは3月の時点でtwitterでAIバース的な事をすでにやられてたんだね。今あらためて見ると理解できるけど、当時はよく分かってなかった。ユウトが仮想世界に生きてる自分に気付いて絶望してるの、まるきりAI版トゥルーマン・ショーだ… https://t.co/bOBM2qkmt6