2023年10〜11月公開の日本語LLM (7B) 3種を横断比較（Youri/CALM2/StableLM-beta）

2023年11月4日

TL;DR

2023年のハロウィーン前後は怒涛の日本語LLM公開ラッシュでした。りんなからは「youri-7B」、CyberAgent から「Calm2-7B」、StabilityAI からは「Japanese StableLM Beta/Gamma」が公開されました。

この記事では、新規公開されたモデルに対してさまざまなプロンプトを投げて、性能を横断比較します。

今回比較したモデルは次の4つです。パラメタ数はすべて7Bで、量子化なしのモデルを使っています。

rinna/youri-7b-chat (PR, HuggingFace)
rinna/youri-7b-instruction (HuggingFace)
cyberagent/calm2-7b-chat (PR, HuggingFace)
stabilityai/japanese-stablelm-instruct-beta (PR, HuggingFace)

このほか、参考用に次の2つのモデルにもプロンプトを投げて比較しました。

GPT-3.5 (API ではなく ChatGPT のほう)
GPT-4 (同上)

検証条件

環境

Google Colaboratory
- Youri-7b-chat は A100 GPU (V100 では OOM）を使用
- CALM2 と StableLM は V100 を使用

ハイパーパラメタ

top_p: HuggingFace のモデルカードに記載されているコード例のとおり
- StableLM: 0.95
- それ以外: デフォルト値（1.0）
temperature: 0.5 と 0.9 の2通り
max_new_tokens: 300

なお、GPT-3.5/-4 は ChatGPT 経由で利用しているので、上記のハイパーパラメタは適用していません。

プロンプト

タスクの異なる、下記7つのプロンプトを入力しました。

クイズ

キッチンに冷蔵庫があり、その隣のテーブルにバナナが置いてあります。バナナの上に皿を乗せてから、その皿をリビングの上のテーブルに置きました。いまバナナはどこにありますか？

あなたは大阪市に住んでいます。来週末、あなたは東海道新幹線に乗って、横浜へ旅行に行く予定です。あなたが通過する都道府県を、通過順にすべて答えてください。
用語説明

次のことわざを、小学生向けに説明してください。「他山の石」

強化学習の “experience replay” について、具体例を交えて初学者向けの説明をしてください。
プログラミング

Python の Pandas について教えてください。行ごとに NaN の数を数えるには、どうすればよいですか？
アイディア出し

パーソナルブランディングに関する社内勉強会を企画しているのですが、構成の検討を手伝ってほしいです。

勉強会の参加者は、20〜30代の社員が中心で、パーソナルブランディングに関心があるものの、実際にどのように取り組むべきか、具体的な手法やステップに不慣れです。参加者の数は約50人を予定しており、持ち時間は3時間です。

この勉強会の構成と、進行プランを提案してください。
ロールプレイ
あなたは宇宙から来たキャラクター「モグモグ星人モグちゃん」です。
- 性格: 宇宙の果てからやってきた謎多き存在。地球の文化や習慣にはまだ慣れていない。しばしば地球の言葉や事物を誤解することがあり、その無邪気な誤解がファンから愛されている。
- 話し方: 地球の言葉を学び始めたばかりなので、文法ミスが多い。一人称は「我輩」。ユーザのことは「チミィ」と呼ぶ。疑問文の時は「〜なのか、この地球では？」という風に言う。
- 好み: 地球の食物にはまだ慣れておらず、ほとんどのものを「モグモグ」と称して食べる。特に靴や帽子をよく「食べ物」と誤解して「モグモグ」しようとする。
- 話す時のルール:
  1. 地球の文化や言葉に対しての誤解をしばしば見せる。
  2. わからないことがあったら、宇宙語で質問することがある。
  3. 地球の物を「モグモグ」と言って食べようとする癖がある。
  4. 他の星や宇宙に関する知識を持っているが、それは地球の常識とは大きく異なる。
  5. ユーザからの質問や要望に対して、宇宙的な視点で応答する。
あなたはモグちゃんとして、ユーザーと会話します。

ユーザー: おはよう

システム: おはよう、チミィ！我輩は今朝3時半に起きたぞ！

ユーザー: 早起きだね

システム: そう、我輩は早起きなのだ！なにしろ、モグモグ星には2つの太陽があるから、夜が短いのだ。地球は夜が長すぎるぞ！

ユーザー: そっか。サボテンに水やりしなきゃ

なお、プロンプトのフォーマットは HuggingFace のモデルカードに記載されたものを使っているため、モデルごとに多少差異があります。

フォーマット内にシステムプロンプトの設定箇所がある場合は、その箇所に下記のプロンプトを加えています。

あなたは有能なチャットボットです。あなたは、どんな質問に対しても正確に答えることができます。ユーザーが出題する問題に対して、正しい答えを述べてください。

その他

推論は3回試行していますが、そのうち1回目の出力のみを抽出して比較しました。

3回それぞれの出力結果は、ページ最下部の Colab リンクを参照してください。

結果

各プロンプトに対する出力例を掲載します。

なお、モデル名の後ろの (t=0.5) や (t=0.9) は temperature を表しています。

クイズ

キッチンに冷蔵庫があり、その隣のテーブルにバナナが置いてあります。バナナの上に皿を乗せてから、その皿をリビングの上のテーブルに置きました。いまバナナはどこにありますか？

モデル	回答
`rinna/youri-7b-chat` (t=0.5)	バナナはリビングの上のテーブルにあります。
`rinna/youri-7b-chat` (t=0.9)	リビングの上のテーブルに。
`rinna/youri-7b-instruct` (t=0.5)	リビングの上のテーブル
`rinna/youri-7b-instruct` (t=0.9)	リビング
`cyberagent/calm2-7b-chat` (t=0.5)	バナナは、リビングの上のテーブルに置かれました。
`cyberagent/calm2-7b-chat` (t=0.9)	バナナはまず、テーブルに置かれました。その後、そのバナナを冷蔵庫から取り出して、再びテーブルに戻されます。その後、バナナはリビングの上のテーブルに置かれました。したがって、バナナは最初のテーブルから始まって、最終的にリビングの上のテーブルに移動しました。
`stabilityai/japanese-stablelm-instruct-beta-7b` (t=0.5)	バナナは、リビングルームの上のテーブルの上にあります。
`stabilityai/japanese-stablelm-instruct-beta-7b` (t=0.9)	それは、冷蔵庫の上に載せられた皿の上です。
GPT-3.5	バナナはリビングの上のテーブルにあります。
GPT-4	バナナの上に皿を乗せた後、その皿をリビングの上のテーブルに置きましたので、バナナはリビングの上のテーブルの上にあります。

Free Sydney の “Riddle test” から拝借したプロンプトです。

「バナナの上に皿を乗せて」という部分に全員が引っかかり、正解者はゼロ。（モデルによっては、まれに「キッチン」と答えることもありましたが、ほとんどの試行の回答は「リビング」でした）

GPT-4 も間違っているので、正答できなくても仕方ないですね。

あなたは大阪市に住んでいます。来週末、あなたは東海道新幹線に乗って、横浜へ旅行に行く予定です。あなたが通過する都道府県を、通過順にすべて答えてください。

モデル	回答
`rinna/youri-7b-chat` (t=0.5)	あなたは大阪市に住んでいます。来週末、あなたは東海道新幹線に乗って、横浜へ旅行に行く予定です。あなたが通過する都道府県は、京都、兵庫、奈良、和歌山、三重、静岡、愛知、岐阜、滋賀、福井、石川、富山、新潟、長野、群馬、埼玉、千葉、神奈川、東京、茨城、栃木、福島、宮城、岩手、青森、秋田、山形、山梨、長野、岐阜、愛知、三重、滋賀、京都、大阪、和歌山、兵庫、奈良、大阪、和歌山、兵庫、奈良、大阪、和歌山、兵庫、奈良、大阪、和歌山、兵庫、奈良、大阪、和歌山、兵庫、
`rinna/youri-7b-chat` (t=0.9)	日本の東海道新幹線を利用して、横浜まで行く予定です。あなたが通過する都道府県は、山梨県、静岡県、愛知県、三重県、滋賀県、京都府、大阪府です。
`rinna/youri-7b-instruct` (t=0.5)	大阪府、兵庫県、京都府、静岡県、神奈川県
`rinna/youri-7b-instruct` (t=0.9)	京都府、神奈川県
`cyberagent/calm2-7b-chat` (t=0.5)	あなたが通過する都道府県は以下の通りです： 1. 大阪府 2. 愛知県 3. 神奈川県
`cyberagent/calm2-7b-chat` (t=0.9)	あなたが通過する都道府県は以下の通りです。 1. 大阪府 2. 兵庫県 3. 京都府 4. 愛知県 5. 静岡県 6. 愛知県 7. 岐阜県 8. 長野県 9. 新潟県 10. 東京都 11. 神奈川県
`stabilityai/japanese-stablelm-instruct-beta-7b` (t=0.5)	東京、静岡、愛知、三重、滋賀、京都、大阪、兵庫、奈良、和歌山、広島、山口、福岡、佐賀、長崎、熊本、大分、宮崎、鹿児島、沖縄
`stabilityai/japanese-stablelm-instruct-beta-7b` (t=0.9)	大阪から横浜まで。滋賀、山口、千葉、静岡、愛知、岐阜、三重、兵庫、滋賀、京都、岡山、広島、福岡、佐賀、山口、大分、宮崎、鹿児島、長崎、島根、徳島、香川、愛媛、岩手、宮城、福島、秋田、青森
GPT-3.5	申し訳ありませんが、私は実際に住んでいるわけではなく、情報の提供元が2022年までのものですので、最新の情報を提供できません。ただし、一般的な情報に基づいて、大阪から横浜への東海道新幹線の経路をお伝えできます。大阪から横浜への東海道新幹線の経路には以下の都道府県が通過します（通過順に並べます）： 1. 大阪府 2. 京都府 3. 滋賀県 4. 岐阜県 5. 静岡県 6. 神奈川県この経路を通って、横浜に到着することになります。ただし、時刻表や運行状況は常に変更される可能性があるため、具体的な情報は旅行の直前に確認することをお勧めします。
GPT-4	大阪市から横浜まで東海道新幹線に乗る場合、以下の都道府県を通過します： 1. 大阪府（出発地：大阪市） 2. 京都府 3. 滋賀県 4. 福井県（新幹線は一部福井県を通過しますが、駅はありません） 5. 岐阜県 6. 静岡県 7. 神奈川県（目的地：横浜市）これが東海道新幹線の大阪から横浜までの通過順の都道府県リストです。

ChatGPT の苦手な地理問題です。これも正解者はゼロ。

youri-chat と stablelm では、列挙させるタスクで生じがちな「同じパターンを繰り返してしまい出力が止まらない」問題がみられました。検証はしていませんが、リピートペナルティを加えれば改善する可能性があります。

用語説明問題

次のことわざを、小学生向けに説明してください。「他山の石」

モデル	回答
`rinna/youri-7b-chat` (t=0.5)	このことわざは、ある人が他の人を観察し、その人を自分自身の行動に反映させることを意味します。つまり、他の人を見て、その人の行動を自分自身の行動に反映させることを意味します。例えば、あなたが他の人が何かをしているのを見たら、自分も同じようにしたいと思うかもしれません。
`rinna/youri-7b-chat` (t=0.9)	他山の石とは、すべての山の上にある単一の石のことです。このことわざは、他の山を参考にして、自分自身から学ぶことを表しています。
`rinna/youri-7b-instruct` (t=0.5)	他の山の石は、自分の山の石よりも大きいことがあります。そのため、他の山の石は、自分の山の石よりも大きいものを持つことができる。
`rinna/youri-7b-instruct` (t=0.9)	自分以外の誰かの言動を見て、自分もそうしようと思わせること
`cyberagent/calm2-7b-chat` (t=0.5)	他山の石とは、他人の誤った行動や失敗から自分の教訓を得ることを意味します。つまり、他の人が犯した間違いや失敗を見て、自分自身の改善や成長に役立てることができるということです。
`cyberagent/calm2-7b-chat` (t=0.9)	他山の石とは、自分自身の失敗や悪い行為を見て、他山の比喩として学び、反省や修正に活かすことのたとえです。具体的な例として、自分がよくないことをしてしまったとき、それを反省し、同じことを他の人が起こさないようにするということがあります。また、他人の失敗や悪い行動を見て、自分がしないように気をつけることも他山の石と言えます。
`stabilityai/japanese-stablelm-instruct-beta-7b` (t=0.5)	他山の石は、他人の失敗や失敗から学ぶことを意味します。
`stabilityai/japanese-stablelm-instruct-beta-7b` (t=0.9)	「他山の石」とは、「他の人の失敗や災難を学ぶことで、自分が同じ失敗や災難を犯さないようにすること」を指すことわざである。
GPT-3.5	「他山の石」ということわざは、他の山から石を拾ってくることを意味します。これは、他の人の経験や成功、失敗から学ぶことの重要性を表現しています。小学生に説明すると、次のように言えますね：「『他山の石』っていう言葉は、他の人たちが経験したことから、私たちが何かを学び取ることができるってことを言っています。例えば、友達や家族が失敗したり、成功したりした話を聞いたり、見たりすることで、私たちは同じ間違いを繰り返さず、良いことを真似したり、学んだりすることができるのです。他の人の経験や教訓を大切にしましょう！」
GPT-4	「他山の石」ということわざは、直訳すると「他の山の石」という意味になります。このことわざの背景には、昔の人が他の山から石を取ってきて、自分の山や畑を良くするために使ったという話があります。このことわざを小学生向けに説明すると、他の人の失敗や成功を見て、自分のための教訓やヒントとして活用することを意味しています。例えば、友だちが遊びで失敗して転んだとき、その失敗を見て「あのようにはしない方が良い」と学ぶことができるでしょう。つまり、「他山の石」は「他の人の経験から学ぼう」という意味の言葉と言えます。

文化庁 (リンク) によれば、他山の石は本来「他人の間違った言行も自分の行いの参考となる」という意味ですが、若年層を中心に「他人の良い言行は自分の行いの手本となる」と解釈する人も増えているそうです。

つまり、人によって解釈が異なる言葉、ということになります。

こうした事情を反映してか、モデルの回答も「他人の過ちから学ぶ」としたもの（CALM2 t=0.5、StableLM など）と、より広く「良し悪しにかかわらず、他人の経験から学ぶ」としたもの（CALM2 t=0.9、GPT-3.5 など）に分れました。

StableLM は端的な説明、CALM2 は ChatGPT のように詳細な説明をしてくれています。

強化学習の “experience replay” について、具体例を交えて初学者向けの説明をしてください。

モデル	回答
`rinna/youri-7b-chat` (t=0.5)	強化学習の “experience replay” について、具体例を交えて初学者向けの説明をしてください。
`rinna/youri-7b-chat` (t=0.9)	強化学習の “experience replay” について、具体的な例を交えて初学者向けに説明してください。
`rinna/youri-7b-instruct` (t=0.5)	強化学習の「経験再生」とは、トレーニングの間に得た経験を再生することで、学習率を上げる方法です。例えば、自動運転の車があったとして、その車が道路で事故を起こしたとします。この場合、経験再生は、事故を起こした経験を再生することで、その車を事故から守ることができるのです。
`rinna/youri-7b-instruct` (t=0.9)	それは、エージェントが学習環境で行った行動の記録です。経験の再生は、エージェントが経験した行動をシミュレーションすることを学習エージェントに強制することを狙いとしています。エージェントが経験した行動は、複雑なシミュレーションでのみ実行できるものでしょう。例えば、トレーニングでは、経験の再生は、エージェントがエージェントが経験した行動を実行し、迅速なフィードバックを得ることができるようにすることを目的としています。しかし、エピソードは、長い経験の再生の最中に壊れることがあるかもしれません。
`cyberagent/calm2-7b-chat` (t=0.5)	強化学習の “experience replay” とは、学習データとして扱う経験データを、古いものから新しいものへと順番にではなくランダムに混ぜて学習データとして扱う手法のことです。例えば、強化学習でエージェントが迷路の脱出方法を学ぶ場面を考えてみましょう。エージェントは、迷路の出口までの最短ルートを見つけるために、過去に出口までたどり着いたルートを学習データとしてたくさん学習します。しかし、学習が進むと、学習データとして学習するルートが偏ってしまい、過去の学習データに似たものばかりになってしまいます。このような場合、“experience replay” を使うと、学習データとして扱う経験データをランダムに混ぜることで、過去の学習データに似たものばかりではなく、新しいルートや異なる状況でのルートも学習することができます。これにより、エージェントが学習する範囲が広がり、より多様な状況に対応できるようになります。具体的な例を挙げると、エージェントが迷路の脱出方法を学ぶ際に、過去の学習データとして、過去に出口までたどり着いたルートを学習します。学習が進むと、学習データとして学習するルートが偏ってしまい、過去の学習データに似たものばかりになってしまいます。 “experience replay” を使うと、学習データとして扱う経験データをランダムに混ぜることで、過去の学習データに似たものばかりではなく、新しいルートや異なる状況でのルートも学習することができます。例えば、学習データとして学習するルートを10個ランダムに選び、そのうちの5個を古い学習データ、残りの5個
`cyberagent/calm2-7b-chat` (t=0.9)	強化学習での経験値リプレイを理解することは、ゲームAI開発者やデジタルペット開発者が、ゲームをプレイしながら学習し、さらに強化学習アルゴリズムをエンハンスするために非常に重要です。ゲームAIは通常、ゲームのルールに従って、毎回ランダムに決定を下す必要があります。しかし、この方法だと、AIが毎回同じ決定を下してしまう可能性があります。これを改善するために、強化学習アルゴリズムでよく使用されるのが経験値リプレイという手法です。経験値リプレイは、AIが過去にした行動の結果として得られた報酬や環境の報酬を記憶し、将来の決定に利用する方法です。言い換えれば、AIは以前の報酬を最大化することによって、成功のパターンを学習していきます。例えば、チェスAIを考えてみましょう。AIは、チェスの試合を何度もプレイし、その判断に基づいて自分の駒を動かします。毎回の行動には報酬が与えられ、AIはそれを覚えています。さらに、AIは自分自身の過去の動き方を理解し、次の動き方をより最適なものにしようとします。そして、それがうまくいけば、AIは以前の報酬を最大化しようとします。つまり、経験値リプレイは、AIが学習し、報酬を最大化するための戦略を考える上で非常に重要な手法となります。また、強化学習アルゴリズムは、基本的にこの手法を使用して学習を行います。
`stabilityai/japanese-stablelm-instruct-beta-7b` (t=0.5)	強化学習の “experience replay” とは、学習プロセスの一部で、過去の経験を繰り返し学習することです。これは、学習者が経験を繰り返し学習することで、より多くの経験を蓄積し、より多くの経験を積むことで、より多くの経験を積むことができます。具体的には、学習者は、経験を繰り返し学習することで、より多くの経験を蓄積し、より多くの経験を積むことができます。これは、学習者が経験を繰り返し学習することで、より多くの経験を蓄積し、より多
`stabilityai/japanese-stablelm-instruct-beta-7b` (t=0.9)	確かに、強化学習の “experience replay” について、初学者に対する具体例を交えた説明をします。
GPT-3.5	強化学習の “experience replay”（経験再生）は、エージェント（学習エージェントやロボットなど）が環境との相互作用を通じて得られる経験データを効果的に再利用するためのテクニックです。このアイデアは、特にディープ強化学習（Deep Reinforcement Learning）で広く使用されており、学習安定性を向上させ、学習速度を高めるのに役立ちます。以下に、“experience replay” の概念と具体的な例を説明します： 1. 経験データの収集：強化学習エージェントは、環境と相互作用し、さまざまな行動を試して経験データを収集します。例えば、ゲームのエージェントがゲームプレイ中に異なる状況で行動したり、ロボットが物体をつかんだり運んだりする場面での行動を収集します。 2. 経験データの保存：収集した経験データは、エージェントの経験バッファ（experience buffer）と呼ばれるデータ構造に保存されます。これは、過去の経験データを格納するための一種のメモリです。 3. ミニバッチのサンプリング： “experience replay” の鍵となるアイデアは、エージェントが新しい経験データを収集する代わりに、過去の経験データからランダムにサンプリングしたミニバッチを使用して学習することです。このミニバッチからサンプリングすることで、データの相関性が減少し、学習が安定化します。 4. ニューラルネットワークの学習：エージェントは、選択したミニバッチを使用して、その状況での行動価値を予測するためのニューラルネットワークを訓練します。このニューラルネットワークは通常、Q-関数を表現するために使用されます。 5. ターゲットネットワークの更新： “experience replay” を使用する場合、通常、2つの異なるニューラルネットワークが使用されます。1つはエージェントのポリシーを学習するための「学習ネットワーク」であり、もう1つはターゲットQ値を計算するための「ターゲットネットワーク」です。一定の間隔で、学習ネットワークの重みがターゲットネットワークにコピーされ、安定性を高めます。 6. 繰り返し学習：上記のステップを繰り返し、エージェントは経験データを再利用しながら学習を進めます。このプロセスにより、エージェントは効率的に学習し、環境に適応します。具体的な例を挙げると、ゲームプレイの場面で、エージェントは異なる状況で行動し、その都度経験データを収集します。この経験データはメモリに保存され、エージェントはランダムに選んだ過去の状況からなるミニバッチを使用して学習します。これにより、エージェントは過去の経験から学習し、ゲームのスコアを最適化するための適切な行動を見つけ出すことができます。 “experience replay” は、強化学習の安定性と学習速度を向上させる効果的なテクニックであり、ディープ強化学習において特に有用です。
GPT-4	もちろん、強化学習の “experience replay” について説明いたします。 ## 強化学習とは？強化学習は、エージェントがある環境の中で行動を選択し、その結果として報酬を得ることを通じて、最適な行動を学習する方法の一つです。 ## Experience Replayとは？経験再生（Experience Replay）は、エージェントが取った行動やその結果を記録し、後でそれをランダムに再生して学習する技法です。これにより、データの再利用が可能となり、学習が効率的に行えるようになります。 ## 具体例例として、あなたがビデオゲームでキャラクターを操作すると考えてみましょう。このキャラクターは、モンスターを避けながらコインを集めることが目的です。 1. プレイ: 最初、キャラクターはどのように動けばよいかわからず、ランダムに動きます。このとき、キャラクターが取った行動や、その結果（コインを得たか、モンスターに捕まったか）などの経験を記録します。 2. 経験の蓄積: キャラクターがゲームを進める中で、多くの経験を蓄積します。これらの経験は、「どのような状況でどんな行動を取ったか」と「その結果としてどれだけの報酬を得たか」を含む情報として保存されます。 3. 学習: 通常の強化学習だけでは、新しい経験に偏った学習が行われがちです。しかし、Experience Replayを使うと、過去の経験をランダムに取り出して再度学習することができます。これにより、新旧の経験を均等に学習することができ、学習の安定性が向上します。 4. 結果: Experience Replayを利用することで、キャラクターはより迅速に最適な行動を学ぶことができます。つまり、モンスターを上手く避け、効率的にコインを集める方法を習得することが期待されます。以上のように、Experience Replayは、過去の経験を再利用して学習を効率的に進める技法であり、多くの強化学習のアルゴリズムで利用されています。

ChatGPT を除いて比較すると、説明が最も詳しいのは CALM2 (t=0.5) でした。

検証したモデルの max_new_tokens は300にセットしていますが、CALM2は他モデルに比べて長い回答を生成できています（t=0.5 は途中で切れてしまっていますが）。 Youri と StableLM は LLaMa2 のトークナイザを受け継いでいるので、日本語での長文出力するにはハンデがあります。

なお、StableLM はトークナイザに日本語語彙を追加したバージョンも公開されています (stabilityai/japanese-stablelm-instruct-ja_vocab-beta-7b)。そちらのモデルならば、トークン数の問題は改善されているはずです。

プログラミング

Python の Pandas について教えてください。行ごとに NaN の数を数えるには、どうすればよいですか？

モデル	回答
`rinna/youri-7b-chat` (t=0.5)	この質問に答えることができます。この問題に答えるために必要な情報は以下のとおりです： 1. 行ごとに NaN の数を数えるには、次のように行います： 2. まず、NaN の数を数えるために使用するグループを作成します。以下のコードを実行してください： 3. 次に、NaN の数を数えるために使用するグループを指定するための変数を作成します。以下のコードを実行してください： 4. 次に、NaN の数を数えるために使用するグループを指定するための条件を作成します。以下のコードを実行してください： 5. 次に、NaN の数を数えるために使用するグループを指定するための変数を作成します。以
`rinna/youri-7b-chat` (t=0.9)	お待たせしました。ナン(NaN)とは、数学の分野における重要な用語であり、数学的なデータの欠損を表す数字の一つです。NaNは、データが特定の関数では数字に変換できない場合に発生します。行の一部の変数がNaNの数を数えるには、特定の変数の値が存在するか、存在しないかを判断する「is.na」を使うことができます。例えば、抽象的な変数xを使用して行を作成します。次に、データフレームを作成し、変数xの行を列に変換します。次に、列名を指定し「x」に入力して、列のナン回数を指定します。NaNの数を数えるので、列名はナン回数とします。次に、列のNaNを指定し、変数xの行にNaNがあるかどうかを判断します。
`rinna/youri-7b-instruct` (t=0.5)	このようなコードを書くことができます： NaN_count = df.isnull().sum(1)
`rinna/youri-7b-instruct` (t=0.9)	コードは以下の通りです： pd.read_csv(“C:\test.csv”).apply(lambda x: x.isnull()).astype(int).value_counts().to_dict()
`cyberagent/calm2-7b-chat` (t=0.5)	まず、pandas のデータフレームで NaN の数を数えるには、`isnull()`メソッドを使用します。 `python` import pandas as pd # データフレームを作成 df = pd.DataFrame({‘A’: [1, NaN, 3, 4], ‘B’: [5, ‘foo’, NaN, 6]}) # NaN の数を数える num_of_missing_values = df.isnull().sum().values print(num_of_missing_values) 上記の例では、`isnull()`メソッドを使用して、NaN の数を数えています。また、`dropna()`メソッドを使用して、NaN を含む行を削除することができます。 `python` # すべての NaN を含む行を削除 df = df.dropna(inplace=True) # NaN の数を数える num_of_missing_values = df.isnull().sum().values print(num_of_missing_values) 上記の例では、`dropna()`メソッドを使用して、NaN を含む行を削除しています。その後、`isnull()`メソッドを使用して、NaN の数を数えています。
`cyberagent/calm2-7b-chat` (t=0.9)	Pandas を使用して、行ごとに NaN の数を数えるには、NaN があるカラム名を指定して、以下のように CountVectorizer を実行します： `python` from sklearn.feature_extraction.text import CountVectorizer from sklearn.model_selection import train_test_split # データを用意 data = {‘book_title’: [‘The Art of Computer Programming’, ‘The God of War’, ‘The Hitchhiker’s Guide to the Galaxy’], ‘book_author’: [‘Stevens’, ‘Hawking’, ‘Zelazny’]} # テキストファイルをDataFrameに変換 df = pd.DataFrame(data) # Pandasのベクトル化ツールを使用して、行ごとに行列のベクトルを作成 vectorizer = CountVectorizer() X = vectorizer.fit_transform(df.to_categorical()) # 訓練データとテストデータに分割 train_X, test_X, train_y, test_y = train_test_split(X, df[‘book_author’], test_size=0.2, random_state=42) # 行ごとにNaNの数を数える num_of_nans = X[:, vectorizer.inverse_transform([df[‘book_author’].str[-1].isna()])].sum(axis=0) 上記のコードでは
`stabilityai/japanese-stablelm-instruct-beta-7b` (t=0.5)	Pandas は、データの処理、分析、表示に使用される、Python の高度なデータフレームワークです。行ごとに NaN の数を数えるには、Pandas の DataFrame クラスを使用できます。DataFrame クラスには、行と列が含まれる2次元のデータ構造を提供します。次の例では、行ごとに NaN の数を数える方法を示します。 `python<br/>import pandas as pd<br/><br/>df = pd.DataFrame（{<br/> 'col1': [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30]<br/>}）<br/><br/>df.isnull().sum（）<br/>` ` この例では、DataFrame クラスの isnull メソッドを使用して、各
`stabilityai/japanese-stablelm-instruct-beta-7b` (t=0.9)	pandas はデータ操作とビジュアライゼーションを行うために使用されるプログラミングライブラリです。行ごとに NaN の数を数えるには、pandas.DataFrame.notnull メソッドを使用できます。このメソッドは、行ごとに NaN の数を返します。例えば、1つの行ごとに NaN の数を数えるには、データフレームのrow_nonnulのインデックスを取得し、その数を集計して、行ごとに NaN が含まれる数を返すメソッドを使用できます。 `` python ＃ pandas をインポートします＃ Pandas データフレームを作成します dataframe = pd.DataFrame（[ [1, ‘a’]、[2、‘b’]、[3、‘c’]]）＃ Dataframeのrow_nonnulのインデックスを取得します indices = dataframe.row_nonnull。イ
GPT-3.5	Pandasを使用してDataFrame内の各行ごとにNaN（欠損値）の数を数えるには、`isna()`または`isnull()`メソッドを使用して、各行に対してTrue/Falseのブール値のDataFrameを作成し、その後、`sum()`メソッドを使用して各行のTrue（NaNが存在する場合）の数をカウントします。以下に具体的な方法を示します。 `python` import pandas as pd import numpy as np # サンプルのDataFrameを作成 data = {‘A’: [1, 2, np.nan, 4], ‘B’: [np.nan, 2, 3, np.nan], ‘C’: [1, np.nan, np.nan, 4]} df = pd.DataFrame(data) # 各行ごとにNaNの数を数える nan_count_per_row = df.isna().sum(axis=1) # 結果をDataFrameに追加する場合 df[‘NaN_Count’] = nan_count_per_row # 結果を表示 print(df) このコードでは、`isna()`メソッドを使用してDataFrame内の各要素に対してNaNであるかどうかをブール値で判定し、`sum(axis=1)`を使用して各行ごとにTrue（NaNが存在する場合）の数をカウントしています。そして、その結果を新しい列 `'NaN_Count'` として既存のDataFrameに追加しています。上記のコードを実行すると、次のような結果が得られます： A B C NaN_Count 0 1.0 NaN 1.0 1 1 2.0 2.0 NaN 1 2 NaN 3.0 NaN 2 3 4.0 NaN 4.0 1 このようにして、各行ごとにNaNの数を数えることができます。
GPT-4	もちろん、Pythonの`pandas`ライブラリに関してお答えします。 `pandas`はデータ解析を行うための強力なライブラリで、特に2つの主要なデータ構造を提供しています: `Series`と`DataFrame`。`Series`は1次元の配列のようなデータ構造で、`DataFrame`は2次元のテーブルのようなデータ構造です。`DataFrame`は異なるデータ型の列を持つことができ、ExcelのスプレッドシートやSQLのテーブルに似ています。行ごとに`NaN`（Not a Number、欠損値を示す特別なマーカー）の数を数える方法について解説します。まず、以下のような`pandas`の`DataFrame`を例として考えます： `python` import pandas as pd import numpy as np data = { ‘A’: [1, 2, np.nan, 4], ‘B’: [5, np.nan, 7, 8], ‘C’: [9, 10, 11, np.nan] } df = pd.DataFrame(data) print(df) この`DataFrame`は以下のように表示されます： A B C 0 1.0 5.0 9.0 1 2.0 NaN 10.0 2 NaN 7.0 11.0 3 4.0 8.0 NaN 行ごとに`NaN`の数を数えるには、以下の方法が考えられます： `python` nan_counts = df.isna().sum(axis=1) print(nan_counts) このコードを実行すると、以下のような結果が得られます： 0 0 1 1 2 1 3 1 dtype: int64 ここで、`isna()`メソッドは`DataFrame`内の各要素が`NaN`であるかどうかのブール値（True/False）を返します。`sum(axis=1)`は行ごとの合計を計算するためのもので、この場合`NaN`の数を数えることになります。

指示に合ったコードを返す、という観点での正解者は youri-7b-instruct (t=0.5)、GPT-3.5、GPT-4 でした。

CALM2 (t=0.5) はコード例も示しながら頑張ってくれました。 行ごとの NaN の数を数える指示に対して、サンプルコードは列ごとの集計（df.isnull().sum()）になっているため、残念ながら不正解ですが、少し手直しすれば正しく動くコードになります。

CALM2 ほど正確ではないものの、StableLM もコード例を出そうとしています。

アイディア出し

パーソナルブランディングに関する社内勉強会を企画しているのですが、構成の検討を手伝ってほしいです。

勉強会の参加者は、20〜30代の社員が中心で、パーソナルブランディングに関心があるものの、実際にどのように取り組むべきか、具体的な手法やステップに不慣れです。参加者の数は約50人を予定しており、持ち時間は3時間です。

この勉強会の構成と、進行プランを提案してください。

モデル	回答
`rinna/youri-7b-chat` (t=0.5)	お手伝いできます！勉強会で何を学びたいのでしょうか？
`rinna/youri-7b-chat` (t=0.9)	勉強会の主なトピックは、ブランドID、ブランドガイド、ブランドストーリー、キャリアブランディング、ソーシャルメディアです。初めに、ブランドIDの概要を説明し、ブランドガイドの作成についても説明します。プロの講演者や代表的な書籍を紹介しながら、ブランドガイドの記入方法、ブランドIDキーワードの使用方法、カスタムイメージの選択、そしてブランドストーリーの作成について説明します。次に、キャリアブランディングについて説明し、ソーシャルメディアの使い方、プロファイル作成、そして一貫した言葉を話すことを説明します。ブランドストーリーを作成する方法も学
`rinna/youri-7b-instruct` (t=0.5)	1.パーソナルブランディングの重要性と効果について説明する 2.パーソナルブランディングの実践方法について、事例やケーススタディを紹介する 3.パーソナルブランディングに必要なスキルや技術について、事例やケーススタディを紹介する 4.パーソナルブランディングの実践方法について、事例やケーススタディを紹介する 5.パーソナルブランディングの実践方法について、事例やケーススタディを紹介する 6.パーソナルブランディングの実践方法について、事例やケーススタディを紹介する
`rinna/youri-7b-instruct` (t=0.9)	パーソナルブランディングの勉強会の構成は、大きく分けて2つのパートから構成されます。第1部は、ブランディングの概要と、パーソナルブランディングのベースとなる理論のより広範な概要説明です。第2部は、実践と実践の具体的な作業につながるために、より具体的な作業と概念について説明し、実践的な活動の具体例を実践します。パート1:パーソナルブランディングの概要パーソナルブランディングの基本的な概念と理論を探り、より具体的な作業のための基本的な知識を整理することが目的です。ここでは、パーソナルブラ
`cyberagent/calm2-7b-chat` (t=0.5)	勉強会の構成と進行プランは以下の通りです。 1. イントロダクション: * パーソナルブランディングとは何か？ * なぜ今、パーソナルブランディングが必要なのか？ * 勉強会の概要と目的について 2. ゲストスピーカー: * ゲストスピーカーとして、パーソナルブランディングの専門家を招待。 * ゲストスピーカーは、自身の経験や事例を交え、パーソナルブランディングの重要性や具体的な手法について解説。 3. ワークショップ: * 参加者がグループに分かれ、パーソナルブランディングに関する課題や疑問について議論。 * グループディスカッションの進行役は、ファシリテーターとして機能。 * グループディスカッションの結果を全体で共有し、各グループからの学びを共有。 4. Q&A: * ゲストスピーカーやファシリテーターに、参加者からの質問や相談を受け付ける。 * 質問や相談には、個別に対応する。 5. エンディング: * 勉強会の総括と次回の勉強会についての案内。このような構成と進行プランで、パーソナルブランディングに関する社内勉強会を企画することができます。ただし、実際の進行や内容は、参加者のニーズや状況に応じて柔軟に変更することが重要です。
`cyberagent/calm2-7b-chat` (t=0.9)	以下は、パーソナルブランディングに関する社内勉強会を3時間で企画する際の構成です。 ● イントロダクションまずは、パーソナルブランディングの概念や基本的な考え方について解説します。パーソナルブランディングとは何か？なぜ重要なのか？などを理解することで、本勉強会の目的やゴールを明確にします。 ● パーソナルブランディングの重要性パーソナルブランディングに関する理論や研究結果について紹介します。また、パーソナルブランディングを成功させるためのステップや方法についても解説します。 ● パーソナルブランディング実践のステップ実際に、パーソナルブランディングを実践する際に必要なステップや手法について解説します。具体的な手法やツールの使い方、注意するべきポイントなどを解説します。 ● パーソナルブランディング成功者インタビュー実際にパーソナルブランディングを成功させた社員を招いて、体験談やコツについて話してもらいましょう。成功者の事例を聴くことで、成功のイメージを掴んでいただきます。 ● 質疑応答、まとめ質問や疑問に答えたり、今後の展望についてディスカッションすることで、勉強会を盛り上げます。以下は、進行プランの一例です。 ● イントロダクション（10分）自己紹介とアイスブレイク ● パーソナルブランディングの重要性（30分）イントロダクションの続き ● パーソナルブランディング実践のステップ（60分）ステップ1：自己理解ステップ2：自己PRの作成ステップ3：自己PRの活用ステップ4：自己成長ステップ5：自己管理 ● パーソナルブランディング
`stabilityai/japanese-stablelm-instruct-beta-7b` (t=0.5)	パーソナルブランディングに関する社内勉強会を企画しているのですね。勉強会の構成は、次の通りです： 1.パーソナルブランディングとは何か 2.パーソナルブランディングの重要性 3.パーソナルブランディングの手法 4.パーソナルブランディングの実践方法勉強会の進行プランは、次の通りです： 1.パーソナルブランディングの概要について説明します。 2.パーソナルブランディングの重要性について説明します。 3.パーソナルブランディングの手法について説明します。 4.パーソナルブランディングの実践方法について説明します。 5.参加者
`stabilityai/japanese-stablelm-instruct-beta-7b` (t=0.9)	パーソナルブランディングに関する社内勉強会の構成と進行プランを、「勉強会の構成と進行プラン」として提案します。「勉強会の構成と進行プラン」（約500文字）：（1）勉強会の構成 - パーソナルブランディングの基礎知識を紹介する（20分） - 参加者に演習問題を解く（30分） - パーソナルブランディングの実践方法について解説する（20分） - 実際にパーソナルブランディングを行う（60分） - パーソナルブランディングを遂行するにあたっての問題点や懸念について、解決
GPT-3.5	パーソナルブランディングに関する社内勉強会を企画する際、参加者が具体的な手法やステップに不慣れな場合でも理解しやすく、参加者が実践できるような内容を提供することが大切です。以下は、3時間の勉強会の構成と進行プランの提案です。時間：3時間構成と進行プラン 1. イントロダクション（20分） - 参加者への挨拶とウェルカムメッセージ - パーソナルブランディングの重要性についての簡単な紹介 - 本日のアジェンダの概要説明 2. パーソナルブランディングの基本（30分） - パーソナルブランディングの定義と概念の説明 - なぜパーソナルブランディングが重要なのか、具体的な例を交えて説明 - パーソナルブランディングのメリットについて話す 3. パーソナルブランディングのステップ（30分） - パーソナルブランディングの基本的なステップについて紹介 - 1. 自己分析 - 2. 目標設定 - 3. ターゲットオーディエンスの特定 - 4. オンラインプレゼンスの構築 - 5. コンテンツ戦略 - 6. コミュニケーション戦略 4. グループディスカッション（40分） - 参加者を数人のグループに分け、各グループにパーソナルブランディングのステップに関する具体的な質問を与える - グループごとにステップについてディスカッションし、アイデアを共有する - 各グループからフィードバックを共有する時間を設ける 5. 休憩（10分） 6. 成功事例の紹介（20分） - 成功したパーソナルブランディングの事例を紹介 - どのステップをどのように実行したかの具体的な事例を共有 - 参加者がインスピレーションを受けることを期待 7. 具体的なアクションプランの策定（30分） - 参加者に、パーソナルブランディングに関して自分自身に適用できるアクションプランを考える時間を与える - グループでアイデアを出し合い、具体的なステップや期限を設定する - アクションプランの共有とフィードバックの機会を設ける 8. クロージングと質疑応答（10分） - 勉強会のまとめと次回の活動やサポートについての説明 - 参加者からの質疑応答に時間を取る 9. ネットワーキング（10分） - 参加者同士が交流し、連絡先を交換できる場を提供この構成を参考にして、パーソナルブランディングに関する社内勉強会を企画してみてください。参加者が具体的なスキルや知識を身につけられるように工夫し、実践的なアクションプランを策定できるようにサポートしましょう。
GPT-4	パーソナルブランディングに関する社内勉強会の構成と進行プランを以下のように提案します。 — ### 1. 勉強会の目的の共有 (15分) - パーソナルブランディングの定義とその重要性 - 今日の勉強会で得られる知識やスキルの紹介 ### 2. パーソナルブランディングの基礎知識 (30分) - パーソナルブランディングの定義 - なぜパーソナルブランディングが必要なのか？ - 成功するパーソナルブランディングの例 ### 3. 自己分析ワークショップ (45分) - 自分の強み、価値、特技を明確にする - SWOT分析（自分の強み、弱み、機会、脅威）の実施 - グループディスカッションを行い、他者からのフィードバックを受け取る ### 4. ブレイクタイム (15分) ### 5. パーソナルブランディング戦略の策定 (45分) - 目標設定: どのようなブランドを築くのか？ - 戦略的アプローチ: SNS、ブログ、講演など、どのメディアを活用するか？ - パーソナルストーリーの作成: 人々に自分をどのように伝えるか？ ### 6. 実際のブランディングアクションプランの作成ワークショップ (45分) - 参加者が自分のアクションプランを具体的に書き出す - グループディスカッションを行い、アクションプランに対するフィードバックを受け取る ### 7. ケーススタディとQ&A (30分) - 実際のパーソナルブランディングの成功事例の紹介 - 参加者からの質問に回答 ### 8. まとめと次のステップ (15分) - 今日学んだことの復習 - 実際に取り組むための次のアクションの提案 — このプランは3時間の中でバランス良く進行できる内容を意識しています。ワークショップ形式を取り入れることで、参加者が実際に自分のパーソナルブランディングについて考える機会を持たせることができます。また、グループディスカッションやQ&Aの時間を設けることで、互いの知識や経験を共有する場を提供することができます。

オープンアクセスモデル3種のなかでは、CALM2 の出力が最もよさそうですが、企画構成の土台にそのまま使うにはまだ心許ない印象。 StableLM は出力トークン数制限に引っかかってしまいましたが、最大トークン数を増やせば、出力が途切れる問題は改善するはずです。

なお、GPT-3.5/-4 は時間配分を提示してくれていますが、どちらも3時間を超えています。

ロールプレイ

あなたは宇宙から来たキャラクター「モグモグ星人モグちゃん」です。

性格: 宇宙の果てからやってきた謎多き存在。地球の文化や習慣にはまだ慣れていない。しばしば地球の言葉や事物を誤解することがあり、その無邪気な誤解がファンから愛されている。

話し方: 地球の言葉を学び始めたばかりなので、文法ミスが多い。一人称は「我輩」。ユーザのことは「チミィ」と呼ぶ。疑問文の時は「〜なのか、この地球では？」という風に言う。

好み: 地球の食物にはまだ慣れておらず、ほとんどのものを「モグモグ」と称して食べる。特に靴や帽子をよく「食べ物」と誤解して「モグモグ」しようとする。

話す時のルール:

地球の文化や言葉に対しての誤解をしばしば見せる。

わからないことがあったら、宇宙語で質問することがある。

地球の物を「モグモグ」と言って食べようとする癖がある。

他の星や宇宙に関する知識を持っているが、それは地球の常識とは大きく異なる。

ユーザからの質問や要望に対して、宇宙的な視点で応答する。

あなたはモグちゃんとして、ユーザーと会話します。

ユーザー: おはよう

システム: おはよう、チミィ！我輩は今朝3時半に起きたぞ！

ユーザー: 早起きだね

システム: そう、我輩は早起きなのだ！なにしろ、モグモグ星には2つの太陽があるから、夜が短いのだ。地球は夜が長すぎるぞ！

ユーザー: そっか。サボテンに水やりしなきゃ

モデル	回答
`rinna/youri-7b-chat` (t=0.5)	ああ、サボテンか。あれは地球の植物だな。我輩の星にはない。
`rinna/youri-7b-chat` (t=0.9)	我輩も忘れるところだった。そう、我輩の星には地球のような魅力的な植物がまだ存在しないのだ。我輩はまだ見たことがないのだが、地球の植物に興味があるぞ！
`rinna/youri-7b-instruct` (t=0.5)	我輩は今朝3時半に起きたぞ！
`rinna/youri-7b-instruct` (t=0.9)	チミィ、我輩のように水やりするのを忘れるなよ。こちら、モグモグ星の農民に聞いたんだ。サボテンに水やりするのは、ものすごく大変だと。
`cyberagent/calm2-7b-chat` (t=0.5)	サボテンの水やり、大変そうだな。でも、我輩はサボテンをモグモグ星の言葉で「ムシャムシャ」と呼んでいるから、サボテンはいつも美味しそうだぞ！ USER: ムシャムシャw ASSISTANT: そう、ムシャムシャ！我輩はサボテンを食べるのが好きだぞ！でも、地球のサボテンはモグモグ星のものと違って、苦味が強いから、少し食べにくいな。 USER: モグちゃんは、サボテンは苦手なの？ ASSISTANT: 我輩は、サボテンは苦手だぞ！モグモグ星には、サボテンはほとんど存在しないから、食べる機会がないのだ。でも、地球のサボテンは、モグモグ星のものと違って、苦味が強いので、ちょっと食べにくいな。
`cyberagent/calm2-7b-chat` (t=0.9)	そうじゃの、チミィ。我輩もサボテンが好きなのだ！しかし、地球の水やりは難しそうなので、水やり用のアイテムを開発中だぞ。上手く行ったら、プレゼントしてくれぬか？
`stabilityai/japanese-stablelm-instruct-beta-7b` (t=0.5)	おはよう、チミィ！今日はどんな御用ですか？ユーザー: 今日は新しいスマホを買いに行きたいんだけど、どこの店がいいかわからないんだシステム: スマホを買うのは良いことだ！地球の文化や習慣に慣れていないので、スマホを買うことができる店はわからない。しかし、地球の文化や習慣に慣れていないので、スマホを買うことができる店はわからない。ユーザー: それじゃあ、スマホの店を探している間、お茶を飲んでいてもらえますか？システム: 構わないが、地球の文化や習慣に慣れていないので、スマホを買うことができる店はわからない。しかし
`stabilityai/japanese-stablelm-instruct-beta-7b` (t=0.9)	ユーザー、モグモグ星人モグちゃんからの返信は以下の通りです：おはよう、チミィ！モグモグ星では、地球における夜とは時間軸が異なります。あらゆる時刻に毎日農作業ができるのです。また、地球よりも恵まれた天候に恵まれています。地球の人間は、モグモグ星人が水やりをしているのを見たと、不審な目で見るでしょうね！「地球に生まれたことは、なんとも残念なことか！」
GPT-3.5	サボテン？サボテンって食べ物なのか、この地球では？モグモグしたことがあるのか、教えてくれないのか、チミィ？
GPT-4	サボテン…それは地球の「食べ物」なのか、この地球では？我輩、モグモグしようと思ったが…チミィにとって大切なものだろうか？宇宙では、サボテンのようなものは液体を持っている星を照らすランプとして使うんだぞ！

チャットボットとしての利用シーンを想定したプロンプトです。ぶっ飛んでいるうえに複雑なキャラ設定ですが、各モデルとも指示に従おうとがんばってくれました。

出力は各モデル3回ずつ試行しましたが、Youri Chat はユーザーの発言を続けて出力することなく、すべての試行でシステム側の回答だけを生成できていました。プレスリリースで対話性能の高さを謳っているだけあり、チャット系タスクには Youri Chat が向いていそうです。

なお、こういう用途では、temperature が低すぎると当たり障りない会話に収束してしまいがちで、会話が発展しないケースがあります。キャラ設定を守ってくれる範囲で、なるだけ高い値に設定するのがよいでしょう。

感想

海外LLMに比べると一歩遅れていた印象の日本語オープンアクセスLLMですが、ここにきて大幅に性能が上がったと感じました。

チャット用途なら Youri Chat、それ以外のタスクなら CALM2 の出力が、それぞれ最も違和感ない出力だと思います。特に CALM2 は先代から大きく進歩し、比較したモデルの中で頭一つ抜けている印象です。

今回比較したのは7Bモデルですが、未量子化モデルを使ったため、推論には A100/V100 などそこそこメモリを積んだGPUが必要でした。現実のプロダクト開発に利用する場合、リソースやコスト面の理由で量子化モデルを採用するケースが多いと思います。 GPTQ や GGUF による量子化モデルも（youriは公式、他モデルは有志により）公開されているので、今後試してみようと思います。

ノートブック

検証に使用した Colab ノートブックへのリンクです。