【基本】生成AIの「記憶の鮮度」を管理するコツ(コンテクストウィンドウ)

【基本】生成AIの「記憶の鮮度」を管理するコツ(コンテクストウィンドウ)
  • 生成AIから目的に適った回答を得るには、詳細で具体的なプロンプトを与えるのが大切です。
  • ただし、生成AIには一度に参照できる情報量に限界があり、会話が長くなるにつれ「脈絡のない答え」が増えてきます。
  • 適切なタイミングでチャットを仕切り直して、「記憶の鮮度」を維持する工夫が有効です。
【基本】生成AIの「記憶の鮮度」を管理するコツ(コンテクストウィンドウ)

生成AIの基本的な性質について話したいと思います。
最も伝えたいことは「プロンプトとチャットの長さ」という考え方です。

YouTube動画でも話しています。

sns_share_buttons
\記事が役に立ったらシェアしてね/
【スポンサーリンク】

1. 生成AIとの会話の分量は長くなる

生成AIは一つ一つの指示(プロンプト)がかなり長くても理解できるようになっています。
むしろ、キーワードや短い文では「ありきたりの答え」しか返ってきません。

チャットを進めていくコツは、3つあります。

効果的な生成AIプロンプト 生成AIの特性 ・詳細な指示(長いプロンプト)を理解できる ・キーワードや短文では一般的な回答のみ 詳細なプロンプト 具体的な要件 制約条件 例示と文脈 形式の指定 対話の反復 フィードバック 修正指示 回答の洗練 理解の深化 役割の設定 専門家視点 特定の立場 目的の明確化 出力形式の指定 質の高いAI生成コンテンツ 効果的なプロンプトで一般的な回答から専門的な回答へ
  1. 厳密で詳細なプロンプトを構成する
  2. チャットの往復を繰り返していく
  3. 役割を与える(プリセット プロンプト)
生成AIとの会話の分量は長くなる

一度で答えを得ようとせず、やり取りの中で答えに近づいていけばいいんだね。
ゴルフみたい。

生成AIとの会話の分量は長くなる

反対に、厳密なプロンプトが役立つのは、スライド作りなど決まった作業を繰り返し依頼する場合です。

プロンプトエンジニアリング

AIから最適な回答を引き出すための指示文の設計技術を「プロンプトエンジニアリング」といいます。
明確な指示、具体例の提示、ステップバイステップの思考要求など、様々なテクニックを含みます。
適切にプロンプトを設計すると、AIの回答品質を大幅に向上できることがあります。

2. 生成AIは徐々に「疲れる」

ただし、ある程度チャットを続けていると、回答の内容が乱れてきます。
脈絡のない文章が混ざってくるのです。

生成AIの記憶制限 AIは長い会話で「疲れる」 長時間のチャットで回答の質が低下し、脈絡のない文章が混入する コンテクストウィンドウ • AIの「作業記憶」- 会話で参照できる情報量の範囲 • 古い情報から順に「忘れられる」 トークン制限:8K~100K (モデルによる) 新しい会話 忘れる 対策:新しいチャットを始める・重要情報を繰り返す・要約を活用 人間の会議と同様に、AIも「休憩」が必要

一つのチャットでやりとりが長く続くと情報量が増え、「AIの頭の中がとっ散らかって」いきます。
そこで、適切なタイミングで新しいチャットを始める必要があります。

生成AIは徐々に「疲れる」

会議でも40分ぐらいで休憩時間を取った方がいいけど、なんか似ているね。

2-1. 記憶を整理するタイミング

「AIの記憶の鮮度」を維持するためには、必要に応じて会話を新しく始めたり、重要な情報を繰り返したりする工夫が必要です。

かんたんなコツは、新しいチャットに移行する前に、そこまでのやり取りをまとめさせることです。
この文章をコピーして新しいチャットの冒頭に送ると、かんたんに「会話の継承」ができます。

記憶を整理するタイミング

今のAIの能力では、この記憶の違いを自分で管理できないようです。
そのため、私たち人間が意識してAIの「記憶」を整理してあげると、AIをうまく活用できます。

3. コンテクストウィンドウとトークン制限

この理由を技術的に補足すると、生成AIには、一度の会話で参照できる情報量の範囲があるからです。
この範囲は「コンテクストウィンドウ(Context Window)」といい、会話履歴やユーザーの指示内容などを含んだ「AIの作業記憶」と言えます。

コンテクストウィンドウとトークン制限 コンテクストウィンドウ(AIの作業記憶) ・一度の会話で参照できる情報量の範囲 ・会話履歴とユーザー指示を含む ・長時間の会話では古い情報から忘れられる 人間の記憶との類似点 長期記憶 短期記憶 事前学習 コンテクスト トークン制限の技術的要因 ・メモリ制限:8K~100Kトークン ・計算量:文章長の二乗で増加 ・注意機構(Attention)の特性 ・AIモデルの設計上の制約 重要な指示は繰り返し伝える・適切なタイミングで会話を区切る コンテクストウィンドウのサイズはトークン制限によって決まり、会話の長さに限界をもたらす

コンテクストウィンドウには限界があり、長いの会話になるにつれ過去の情報が「薄められて」いきます。
例えば、会話の初めに与えた重要な制約や指示が、長いやり取りの後に無視されることがあります。

コンテクストウィンドウとトークン制限

これは人間でいえば、短期記憶と長期記憶の違いに似ています。
事前学習データは、長期記憶のように長く保存されますが、コンテクストウィンドウは、短期記憶のように一時的なものです。

3-1. トークン制限と注意機構

ちなみに、コンテクストウィンドウの「サイズ」を規定するのは、AIモデルの「トークン制限」です。

文章や単語は「トークン(token)」という単位に分割され、モデルによって8K~100Kトークン程度の制限があります。

トークン制限が生じる理由は

  • AIが動いているコンピュータの「メモリ」に限りがある
    たとえば、スマホやパソコンのメモリがいっぱいになるとアプリが重くなるのと同じ。
  • 単語同士の関係を計算する処理は文章量の二乗のペースで増える
    AIが文章を理解する仕組み「注意機構(Attention)」では、文章の二乗に比例して計算量が増えてしまいます。
トークン制限と注意機構

生成AIサービスの有料プランは、このトークン制限を大きくしているんだね。

トークン制限と注意機構

「人工知能はすべての情報を記憶している」と考えますが、人間の記憶のようにふだんは「活性化していない」状態にすることで、現実的な時間で処理できるようにしています。

トランスフォーマー

トランスフォーマー」は、自然言語処理の革新的なニューラルネットワークアーキテクチャです。
2017年に「Attention is All You Need」論文で紹介され、自己注意機構(self-attention)を核心技術として、単語間の関係性を並列処理できます。

GPT、BERT、T5などの現代的な言語モデルの基盤となっており、現在の生成AIの中核技術です。

こちらもどうぞ。
「Perplexity」の意味は「困惑度」(言語モデルの予測精度)
「Perplexity」の意味は「困惑度」(言語モデルの予測精度)
Perplexityは言語モデルが次の単語を予測する際の確信度を示す指標です。Perplexity値が小さいほど予測精度が高く、大きいほどモデルがデータセットに対して困惑している状態を表します。訓練データと検証データのPerplexity値を比較することで、モデルの学習状態や過学習の有無を確認できます。ラテン語の「per-plexus」もともと「Perplexity」は「困惑」という意味の言葉です。語源はラテン語の「perplexus」、「編み込まれた」「込み入った」に由来し...

Claudeの予期せぬ容量制限(unexpected capacity constraints)
Claudeの予期せぬ容量制限(unexpected capacity constraints)
Claudeの使用中に「予期せぬ容量制限」によるエラーが発生しました。ただ、「新しいチャット」を開き直すと通常通り回答が表示されました。あまり頻繁に起こるようなら、サーバの処理能力が足りなくなってきているの可能性があります。AIサービスの利用増加に対応する処理能力を確保するには有料プランの値上げが必要で、そういう兆候なのかもしれません。「Due to unexpected capacity costraints,」Claude 3.5 Sonnetを使っていたら、「Conte...

SVGインフォグラフィック作成プロンプトの開発過程
SVGインフォグラフィック作成プロンプトの開発過程
インフォグラフィックを効率的に作成するためのSVGプロンプト開発過程を紹介します。スタイル一元管理やテキスト配置の最適化により、視認性の高いデザインが実現できます。反復的な改善プロセスを通じて、情報伝達と視覚的魅力を両立させたプロンプトを開発できました。生成AIで情報をスライドに変換する生成AIは、文章だけでなくスライドも作ることができます。Claude 3.7 Sonnet にプロンプトを与え文章を送信すると、約45秒ほどで SVG(ベクター画像)を生成してくれました。今回...

Transformerモデルと「自然言語」(GPTが「スマホの次」だった)
Transformerモデルと「自然言語」(GPTが「スマホの次」だった)
Transformerがもっと強力になったら、個々のアプリもいらなくなるかも。たとえば、時間を聞いて、その場で時計盤の画像を生成して見せくれるなら、極端な話 時計も時計アプリもいらなくなっちゃう。すでに、そういう次元じゃないかもしれないけど。あとは、電気代の問題ですね。Transformerモデルがすごいのは、「自己注意機構」でテキスト内の単語間関係を分析できるようになったこと。旧来のモデルと比べ、効率的に文脈全体を把握できるようになったのが成長の背景です。翻訳や要約といった...
トークン制限と注意機構
QRコードを読み込むと、関連記事を確認できます。

【基本】生成AIの「記憶の鮮度」を管理するコツ(コンテクストウィンドウ)
タイトルとURLをコピーしました