ChatGPTとオープンソースのLlama 2の「格差」（生成AIの学習データ）

2024.02.102024.02.17

オープンソースのLlama 2と商用モデルのChatGPT の違いに、学習データの質と範囲にあります。
この学習データの質・量が、特に専門分野での生成AIの回答精度に影響してくるようです。
腎臓学の多肢選択式テストで性能を比較した研究によると、Llama 2 に比べて ChatGPTがかなりよい成績を示しました。
これは、GPT-4が、非公開の専門的で高品質なデータにアクセスできるのに対し、オープンソースのモデルは公開データに依存しているからだと考えられます。

ChatGPTとオープンソースのLlama 2の「格差」（生成AIの学習データ）

高度なAI開発では、アルゴリズムもだけど、データの確保がかなり大事なんだね。

高性能のAIを手に入れるには、高品質な学習データが必要、と。

ChatGPTとオープンソースのLlama 2の「格差」（生成AIの学習データ）

「GIGO（無意味なデータをいくら入力しても、無意味な結果しか得られない：garbage in garbage out）」という言葉もあります。

学習データには公開できないものもあるので、そこで「格差」が生まれてくるのかもしれせませんね。

1. トレーニングデータの質とアクセス

GPT-4のような商用モデルには、公開されているデータだけでなく、サードパーティから専門的で高品質なデータも提供されています。

これに対し、オープンソースのモデルは、主にパブリックドメインの情報に依存しています。
特に専門分野においては、その質と範囲が限られてしまいます。

目次に戻る

2. Llama 2は医療知識をうまく答えられなかった

医療知識に関する質問に答えさせるテストでは、Llama 2とGPT-4の結果に大きな差が表れました。

Llama 2

Llama 2は、メタ（旧Facebook）によって開発されたオープンソースの言語モデルです。

このモデルは、世界中の多くの研究者や開発者によって自由に使用、改良できるので、多くのイノベーションを生み出す可能性が期待されています。

この研究では、腎臓学に焦点を当て、オープンソースのLLMs（例：Llama2、Koala、Falconなど）と商用モデル（GPT-4とClaude 2）の医学知識とテスト解答能力を比較しました¹。
テストには、アメリカ腎臓学会が提供する腎臓学自己評価プログラム（nephSAP）から抽出された858の多肢選択式の問題が使用されました。

言語モデル	正答率
Llama2	30.6%
Koala	23.8%
Falcon	18.1%
Stable-Vicuna	25.5%
Orca-Mini	17.1%
Claude 2	54.4%
GPT-4	73.3%
ランダム回答の基準	23.8%
人間の合格点	75%

参考：Benchmarking Open-Source Large Language Models, GPT-4 and Claude 2 on Multiple-Choice Questions in Nephrology

Llama2の正答率 30.6%はランダムに回答した場合のスコア23.8％をわずかに上回る程度でした。
それに対して GPT-4は73.3%と、人間の受験者に比肩する高い正答率を示しました。

Llama 2は医療知識をうまく答えられなかった

とはいえ、ChatGPT-4でも、まだ人間の医者には敵わないんだね。

目次に戻る

3. 学習データの争奪戦

この結果から、GPT-4のような高性能モデルは、将来的に医師のトレーニングや診断支援ツールとしての役割を果たすことが期待できます。
一方、Llama 2の結果からは、それには特定の分野における学習データが必要だということもわかります。

GPT-4がこのように高いパフォーマンスを示すのは、OpenAIが専門的で高品質なデータにアクセスできるからだと考えられます。
一般に公開されている情報だけでなく、特定の分野の専門家や研究機関から提供されるものも含まれています。
これが、複雑な問題に対して正確に回答する鍵になっているようなのです。

学習データの争奪戦

生成AIの性能向上には、高品質な医療データへのアクセスが重要なんですね。

こちらもどうぞ。

iOS 18で Siri が賢くなる？生成AIベースのSiriSummarization

iOS 18で Siri が賢くなる？生成AIベースのSiriSummarization

Apple は、次の iOS 18 で「生成AIベースのSiri」へとアップデートしようとしているようです。iPhone単体で文章を要約したり、メッセージへの返答を生成するような機能がテストされています。Siri + 生成AI = ？Siriは、iPhoneの音声アシスタント。音声指示で簡単な操作ができるのが便利な機能です。参考：音声アシスタントと音声入力ただ、質問のパターンが限られているのが、ちょっと残念な点でした。これが「生成AIベース」になれば、もっとより柔軟に回答で...

脳とスマホをBluetooth接続？（Neuralinkのテレパシー）

脳とスマホをBluetooth接続？（Neuralinkのテレパシー）

イーロン・マスク率いるNeuralinkは、考えるだけでPCやスマートフォンを操作できる「テレパシー」という脳インプラント機器を開発中です。「テレパシー」は、人間の脳に埋め込んだ小型のICチップで、Bluetooth接続でコンピューターの入力機器になります（ざっくり言えば、マウスやキーボードの代わりになります）。SFが現実化していくスピードに「ちょっと怖い」気もします。イーロン・マスクってすごいねー。脳インプラント技術「テレパシー」とは？「テレパシー」は、小型のICチップを...

[Google] 検索結果に「生成AI」の回答が出てくる

[Google] 検索結果に「生成AI」の回答が出てくる

Google検索で、検索結果より上にAIの回答が表示されました。AI回答にはリンクもありますが、公式サイト以外になっていることもあるようです。「生成 AIは試験運用中です」Googleで「スマホ教室大津」と検索すると、一番上に生成AIによる回答が出てきました。生成 AI は試験運用中です。詳細回答結果の中には「展開（v）」ボタンがあり、情報源となるウェブサイトへのリンクがありました。ただし、教室の説明をみると、「ジモティー」や「Facebook」。今のところ、公式サイト以外...

（参考）

（補足）

Benchmarking Open-Source Large Language Models, GPT-4 and Claude 2 on Multiple-Choice Questions in Nephrology | NEJM AI

目次に戻る

QRコードを読み込むと、関連記事を確認できます。

ChatGPTとオープンソースのLlama 2の「格差」（生成AIの学習データ）

タイトルとURLをコピーしました