- かつて Microsoft Office 97には、イルカの対話型ヘルプが搭載されていました。
- この機能の名前は「カイル」、英語名は「Clippit」。
そう、名前が最新AI機能「Copilot」に酷似しています。 - 「Copilot」と「Clippit」のレーベンシュタイン距離は「5」。
一般的な7文字の英単語の間の平均 約8.4 に比べて、かなり小さい値になっています。
「レーベンシュタイン」言いたいだけでしょ。
「だからどうした?」って話ではあるけど、Microsoft的にはあのイルカさんには思い入れがあったのかな。
1. 唐突に出てきた「副操縦士」
最近、Microsoftは「Copilot」という生成AI機能を、さまざまなアプリケーションに組み込んでいます。
ブラウザやMicrosoft Office、OSそのものにまで、Copilotボタンをつけて、その文脈上での応答ができるようにしています。
「Copilot」は「副操縦士」という意味ですが、どこかで見覚えがあります。
そう、「Clippit」です。
2. 「カイル、お前だったのか」
Microsoft Office 97から2007まで搭載されていたイルカの姿をした対話型ヘルプ機能がありました。
それは「カイル(Clippit)」という名前でした。
イルカのキャラクターの吹き出しに操作方法や機能に関する質問をすると、音声で回答し、画面上で様々なアクションを実行して見せる。
ところが、「使いにくい、邪魔になる」という意見も多く、2007年以降のバージョンからは廃止されました。
しかし、カイルには根強いファンもいて、AI技術の発展により類似機能が復活する可能性もあると噂されていました。
Copilotに「お前を消す方法」と言っても、自分のことと認識しないところが面白いね。
そういえば、すっかり忘れていたけど、つい こないだまで「Cortanaさん」もいた。
2-1. レーベンシュタイン距離
「Copilot」と「Clippit」の類似性は、偶然のものなのでしょうか。
その確率を計算してみます。
単語の類似性を測る指標の一つに「レーベンシュタイン距離」があります。
「Copilot」と「Clippit」の「レーベンシュタイン距離」を計算すると「5」です。
7文字の英単語に限定して平均距離をざっと計算すると、約 8.4。
つまり、「Copilot」と「Clippit」の7文字の英単語の距離としては、かなり小さいと言えそうです。
「レーベンシュタイン距離」は、一方の単語を他方に変換するのに必要な文字の挿入、削除、または置換の最小回数を意味します
import matplotlib.pyplot as plt
# Adjust the number of samples for demonstration
num_samples = 1000 # Reduced from 10000 for practical reasons
# Reset the distances list for this new sample
distances = []
for _ in range(num_samples):
word1, word2 = random.sample(filtered_words, 2)
distance = levenshtein_distance(word1, word2)
distances.append(distance)
# Plot the distribution of Levenshtein distances
plt.figure(figsize=(10, 6))
plt.hist(distances, bins=range(min(distances), max(distances) + 1), alpha=0.7, color='blue', edgecolor='black')
plt.title('Distribution of Levenshtein Distances for 1000 Samples')
plt.xlabel('Levenshtein Distance')
plt.ylabel('Frequency')
plt.xticks(range(min(distances), max(distances) + 1))
plt.grid(axis='y', alpha=0.75)
plt.show()
2-2. レーベンシュタイン距離以上に
でも、8.6%なら、まあ偶然なんじゃない?
ところが、同じレーベンシュタイン距離のほかの単語と比較してみると、Copilotの類似度は突出しているように感じます。
一般的な言葉で「C」で始まる7文字の英単語をざっと並べると、
- classic – 距離: 5
- closest – 距離: 5
- climate – 距離: 5
- circuit – 距離: 5
- charity – 距離: 6
- closely – 距離: 6
- compete – 距離: 6
- consist – 距離: 6
- convict – 距離: 6
- concert – 距離: 6
「Copilot」ほどは「Clippit」に似ている単語はないのですよね。
3. どうして「似ている」と感じるの?
「Clippit」と「Copilot」はいずれも7文字で構成されており、共通する文字が複数含まれています。
それが、レーベンシュタイン距離以上に似ている感覚につながっています。
- 文字構成の類似性
- 文字の配置
- 発音の類似性
例えば、「c」で始まり、「p」や「i」、「t」などの文字が両単語に含まれています。
しかも、両単語は「c」で始まり、「t」で終わるという共通の配置を持っています。「p」の位置が比較的近いことも類似性を感じさせる一因となっています。
また、「Clippit」と「Copilot」は、発音時に口の動きや発声が部分的に類似しています。特に「p」の音が強調される点で共通しており、聞こえ方にも類似性があります。
ここまで似ていると、偶然ではないのかもね。