【スポンサーリンク】

「ドリフト現象」とは?(漂流するAI)

「ドリフト現象」とは?(漂流するAI)
  • AI(人工知能)は、学習量が多くなればどんどん賢くなると思われています。
  • しかし、実際には学習するほど「おかしな回答」をする「ドリフト現象」があります。
「ドリフト現象」とは?(漂流するAI)

AIの仕組みはとても複雑です。
そのため、AIの一部を良くしようとすると、別の部分の性能が下がってしまうことがあります。

「ドリフト現象」とは?(漂流するAI)

学習するほど賢くなる、という単純なものじゃないんだね。

\記事が役に立ったらシェアしてね/
【スポンサーリンク】

1. 「ドリフト」って何?

ドリフト」とは、利用しているうちに AI の回答精度が下がってしまう現象です。

例えば、こんな感じです:
  • 以前はきちんと答えられていた質問に、突然変な答えをし始める
  • 昔の情報ばかり答えて、最新の情報を反映できない
  • 特定の分野の質問には詳しく答えるのに、別の分野になると急に的外れな回答をする
「ドリフト」って何?

これは、海に浮かぶ船が、風や潮に流されてどんどん目的地から離れていくようなものです。

ドリフト

ドリフト(drift)」という言葉は、本来「漂流」や「ずれ」を意味します。
AI の性能や振る舞いが、時間とともに本来の目的や設定から外れていくことを、海で船が風や潮に流されるイメージで表現しています。

1-1. AIにも「学び直し」

普通、機械学習プロジェクトは次のような流れで進みます。
まずデータを準備し、特徴を抽出し、モデルを訓練して評価します。
モデルの精度が十分になったら、本番環境で使い始めます。

でも実際には、本番環境で使い始めた後も訓練や調整は続きます。
モデルは使い続けると徐々に精度が落ちるので、新しいデータで学習し直す必要があるからです。

AIにも「学び直し」

AIを「現実世界」に繋ぎ留めておかないとダメなんだね。

2. AIがどんどん「迷子」になっていく?

AIがどんどん「迷子」になっていく?

ほんとに時間が経つとAIは「バカ」になるの?

ドリフトについて有名な研究は、2023年のカリフォルニア大学とスタンフォード大学のものです1
ChatGPTの能力が時間とともにどう変わるかを調べました。

研究概要
  • カリフォルニア大学バークレー校とスタンフォード大学の研究チーム
  • GPT-3.5とGPT-4のドリフト現象を検証する
  • 2023年3月と6月のバージョンを比較
  • 数学問題解決、デリケートな質問への回答、意識調査、知識を要する質問、コード生成、医師免許試験、視覚的推論タスクなどの能力を評価
出典:How Is ChatGPT’s Behavior Changing over Time?(PDF)
出典:How Is ChatGPT’s Behavior Changing over Time?(PDF)

すると、GPT-4では、3月バージョンの方が6月バージョンを上回ってしまうタスクも多かったのです。

2-1. モデル自己消費障害

また、2024年にはライス大学の研究チームが生成された画像を元に学習したAIの品質が劣化する現象を報告しています2

出典:[2307.01850] Self-Consuming Generative Models Go MAD
出典:[2307.01850] Self-Consuming Generative Models Go MAD

AIが作り出した人工的なデータを使って、次世代のAIモデルを訓練する過程を繰り返すと、「モデル自己消費障害(Model Autophagy Disorder: MAD)」という循環が起こり、生成モデルの質(精度)や多様性(網羅性)が徐々に低下してしまうのです。

モデル自己消費障害

つまり、AIだけに任せていると、どんどん「純粋」なAIになっていって、現実世界との接点を失ってしまう可能性があるのです。

2-2. なぜドリフトが起こるの?(過学習と部分最適化)

ドリフトの主な原因は以下の3つです。

  1. 過学習
    特定のデータや問題に対して必要以上に詳しくなりすぎてしまうこと
  2. 部分最適化
    ある状況に対して完璧になろうとするあまり、全体のバランスを崩してしまうこと
  3. データの変化
    AIが学習したデータと、実際に使われる環境のデータが違ってくること

学習」とは、経験を通して新しい知識や技術を身につけ、それを別の場面で使える力のことです。
単に情報を覚えるだけではなく、周りの状況に合わせて上手に行動できるようになる過程を指します。

しかし、AIは、特定のデータや問題に対して必要以上に適応してしまうことがあります。
これを「過学習」と呼びます。
ある状況に対して「部分最適化」されてしまい、全体のバランスを崩してしまうのです。

なぜドリフトが起こるの?(過学習と部分最適化)

これは人間でもAIでも起こり得る現象です。

学んだことに固執しすぎると、かえって新しい環境にうまく対応できなくなることがあるんですね。

3. 「データドリフト」と「コンセプトドリフト」

ドリフト」は、データドリフトとコンセプトドリフトの2種類に分類されています。

ドリフトの種類
  • データドリフト
    入力データの特徴が変化すること
  • コンセプトドリフト
    AI が学習すべき概念自体が変化すること

3-1. データドリフトと諸行無常

データドリフト」は、入力データ自体の特徴が変わることです。

  • 機械学習は入力データと予測結果の関係をデータから推測する方法なので、訓練データと本番データの性質が違うと、予測結果も変わってしまいます。
  • また、AIが学習データに含まれる偏り(隠れたバイアス)を学習してしまい、それが時間とともに顕在化することがあります。
  • さらに、「フィードバックループ」の問題があります。
    AIの出力が新しい入力データとなり、それによってAIの行動が変化することがあります。
たとえば
  • スマートフォンの普及により、電話の使い方に関する質問の答えが古くなる
  • 特定の地域のニュース記事だけで学習したAIは、世界の出来事について偏った見方をする
  • ニュース記事を生成するAIが、自分やほかのAIの生成した記事を学習データとして使ってしまうと、徐々に現実とかけ離れた内容を生成するようになる
データドリフトと諸行無常

世の中の情報や傾向は常に変化しています。
AIが学習したデータと、実際に使われる環境のデータが「ズレ」てくると、回答精度が落ちてくるのです。

データドリフトと諸行無常

時間や空間が学習したところから離れていくと、AIは迷ってしまうんだね。

3-2. コンセプトドリフトと価値観の変化

「コンセプトドリフト」とは、AIが学習した概念が時間とともに変化することを指します。
これは、AIが理解しようとしている事柄の意味が、AIの訓練時と比べて変わってしまう現象です。

具体的な例として、SNS上の「迷惑投稿(スパム)」を考えてみましょう。
スパムの定義は時代とともに変化します。
以前は問題なかった投稿が、今では迷惑とみなされることがあります。
そのため、古い基準で作られたAIは、現在のスパムを正しく判断できなくなる可能性があります。

4. AIはどんどん賢くなるわけではない

ドリフトの概念は、AIの学習や性能が必ずしも線形に向上していかないことを示唆しています。

AIの学習曲線は通常、単純な直線ではありません。

  • 初期の急速な向上:
    学習初期には性能が急速に向上することが多い。
  • プラトー期:
    ある程度学習が進むと、性能向上が鈍化する期間がある。
  • 突然の飛躍:
    新しいデータや手法の導入で急に賢くなることもある。
  • 後退期:
    ドリフトにより性能が低下することもある。

AIは便利なツールですが、完璧ではありません。
時々おかしな答えをすることもあります。
だから、AIを使うときは、その答えが本当に正しいかどうか、自分でも考えてみることが大切です。

AIはどんどん賢くなるわけではない

急に賢くなると同じペースでどんどん賢くなるように感じるけど、そういうものでもないんだね。

4-1. ドリフトを見つけて訓練し直している

ドリフトが起きてモデルの精度が下がったら、新しいデータで学習し直す必要があります。
学習し直したら、再び本番環境で使い始めます。

ドリフトを見つけて学習し直す
  1. まずデータを準備し、特徴を抽出し、モデルを訓練して評価します。
  2. 次に本番環境で使い始め、ドリフトを監視します。
  3. ドリフトが見つかったら、新しいデータで学習し直します。
  4. 必要に応じて、データの前処理や特徴抽出の方法も見直します。
ドリフトを見つけて訓練し直している

本番環境でモデルの精度を保つには、ドリフトを見つける仕組みを含めた流れで進めることが必要不可欠です。

ドリフトを見つけて訓練し直している

けっこう、人の手で地道なメンテナンスがされているんだね。

こちらもどうぞ。
「ハルシネーション」とは?
「ハルシネーション」とは?
生成AIの「ハルシネーション」というのは、AIが学習したデータの範囲を超えて、でたらめな答えを出力してしまう現象です。人工知能が幻覚を見ているかのように回答することから名付けられました。

生成AIは「正解のない問題」を聞く道具(検索との違い)
生成AIは「正解のない問題」を聞く道具(検索との違い)
代表的な生成AIとしては、ChatGPT、Copilot、Geminiなどがあります。 すごく当たり前ですが、生成AIは「生成」が必要な作業に役立ちます。 生成AIを「調べもの」に使うと、「遅くて」「的外れ」な回答が多いと感じるかもしれません。しかし、対話を伝え続けると「文脈」が共有され、徐々に意図に沿った回答が得られるようになります。 生成AIは、「正解のない問題」が得意です。反対に「正解がある問題」を調べるには従来の検索エンジンの方が速い面も。 「生成AI」というと、「な...

ChatGPTの「誤動作」(修正し続けるソフトウェア)
ChatGPTの「誤動作」(修正し続けるソフトウェア)
2024年2月20日、ChatGPTは突如として多くのユーザーに対し奇妙な回答をするようになりました。 例えば、単純な質問に対して無関係で意味不明な回答をしたり、エンドレスのループに陥ったりしました。 これらの問題は、大規模言語モデルの言語処理にバグが発生したことが原因でした。 OpenAIは、翌2月21日までに問題を修正しました。 当たり前ですが、どんなシステムも誤動作があります。 業務システムにAIをつなぐことで効率化が期待できる一方、このような不具合への備えも大事だと思...

なるべくChatGPTの不正確な回答に気づくコツは?
なるべくChatGPTの不正確な回答に気づくコツは?
ChatGPTの回答との付き合い方は、インターネット情報と一緒です。つねに誤情報の可能性を念頭において、吟味する必要があります。 とくに、ChatGPTは、暗黙のうちに「答えがある」と考えて回答するので、未知のことへの回答は推測が含まれています。 技術は真新しいけど、リテラシーの基本は一緒だね。 本当に答えがある質問なの?(生成:ジェネレーティブ) ChatGPTに質問するときには、注意しなくてはいけない性質があります。それは、ChatGPTは「質問者の言うことを否定しない」...

対話型AIが「暴走する」とは?【プロンプト・インジェクション】
対話型AIが「暴走する」とは?【プロンプト・インジェクション】
ChatGPTの衝撃で、Microsoftの検索エンジン Bing にも会話AI機能が追加されました。 しかし、Bing AI には、「特殊な質問の仕方」をすると、Microsoftの非公開の設定を漏らしてしまう「脆弱性」が見つかりました。 そのほかにも、会話内で「混乱」して、虚偽や侮辱の発言をしてしまう問題点も。そこで、いったん会話回数を制限することになりました。 急激なアクセスで、システムの改善が追いつかなかったようですね。 「本来、禁止されていることをしてしまう」という...

(補足)

  1. How Is ChatGPT’s Behavior Changing over Time?(PDF)
  2. [2307.01850] Self-Consuming Generative Models Go MAD
QRコードを読み込むと、関連記事を確認できます。

「ドリフト現象」とは?(漂流するAI)
【スポンサーリンク】
タイトルとURLをコピーしました