- オープンソースのLlama 2と商用モデルのChatGPT の違いに、学習データの質と範囲にあります。
- この学習データの質・量が、特に専門分野での生成AIの回答精度に影響してくるようです。
- 腎臓学の多肢選択式テストで性能を比較した研究によると、Llama 2 に比べて ChatGPTがかなりよい成績を示しました。
- これは、GPT-4が、非公開の専門的で高品質なデータにアクセスできるのに対し、オープンソースのモデルは公開データに依存しているからだと考えられます。
高度なAI開発では、アルゴリズムもだけど、データの確保がかなり大事なんだね。
高性能のAIを手に入れるには、高品質な学習データが必要、と。
「GIGO(無意味なデータをいくら入力しても、無意味な結果しか得られない:garbage in garbage out)」という言葉もあります。
学習データには公開できないものもあるので、そこで「格差」が生まれてくるのかもしれせませんね。
1. トレーニングデータの質とアクセス
GPT-4のような商用モデルには、公開されているデータだけでなく、サードパーティから専門的で高品質なデータも提供されています。
これに対し、オープンソースのモデルは、主にパブリックドメインの情報に依存しています。
特に専門分野においては、その質と範囲が限られてしまいます。
2. Llama 2は医療知識をうまく答えられなかった
医療知識に関する質問に答えさせるテストでは、Llama 2とGPT-4の結果に大きな差が表れました。
Llama 2は、メタ(旧Facebook)によって開発されたオープンソースの言語モデルです。
このモデルは、世界中の多くの研究者や開発者によって自由に使用、改良できるので、多くのイノベーションを生み出す可能性が期待されています。
この研究では、腎臓学に焦点を当て、オープンソースのLLMs(例:Llama2、Koala、Falconなど)と商用モデル(GPT-4とClaude 2)の医学知識とテスト解答能力を比較しました1。
テストには、アメリカ腎臓学会が提供する腎臓学自己評価プログラム(nephSAP)から抽出された858の多肢選択式の問題が使用されました。
言語モデル | 正答率 |
---|---|
Llama2 | 30.6% |
Koala | 23.8% |
Falcon | 18.1% |
Stable-Vicuna | 25.5% |
Orca-Mini | 17.1% |
Claude 2 | 54.4% |
GPT-4 | 73.3% |
ランダム回答の基準 | 23.8% |
人間の合格点 | 75% |
- Llama2の正答率 30.6%はランダムに回答した場合のスコア23.8%をわずかに上回る程度でした。
- それに対して GPT-4は73.3%と、人間の受験者に比肩する高い正答率を示しました。
とはいえ、ChatGPT-4でも、まだ 人間の医者には敵わないんだね。
3. 学習データの争奪戦
この結果から、GPT-4のような高性能モデルは、将来的に医師のトレーニングや診断支援ツールとしての役割を果たすことが期待できます。
一方、Llama 2の結果からは、それには特定の分野における学習データが必要だということもわかります。
GPT-4がこのように高いパフォーマンスを示すのは、OpenAIが専門的で高品質なデータにアクセスできるからだと考えられます。
一般に公開されている情報だけでなく、特定の分野の専門家や研究機関から提供されるものも含まれています。
これが、複雑な問題に対して正確に回答する鍵になっているようなのです。
生成AIの性能向上には、高品質な医療データへのアクセスが重要なんですね。
(補足)
- Benchmarking Open-Source Large Language Models, GPT-4 and Claude 2 on Multiple-Choice Questions in Nephrology | NEJM AI