迷惑メールフィルターは、様々な手法を組み合わせて迷惑メールを判定します。
しかし、どうしても見逃しや隔離しすぎの判定ミスがあります。
これは、プログラムは個人の価値判断を完璧には代行できないことが本質的な原因です。
AIに「丸投げ」したらいいのに。
自動車の自動運転のように、人間を「補助」するのが主な役割なんだね。
YouTube動画でも話しています。
1. 代表的な迷惑メールの判定方法と限界
たくさん届く迷惑メールをすべて目を通して判断するのは大変。
そこで、メールシステムには迷惑メールを自動判定する仕組みが用意されています。
「迷惑メールフィルター」です。
1-1. リスト管理(ブラックリスト)
迷惑メール送信元やドメインが既にわかっていれば、ブラックリストに登録しブロックします。
一方、信頼できる送信元をホワイトリストに登録し、確実に受信できるようにします1。
リストの管理が必要であり、新しい送信元への対応が遅れる可能性があります。
1-2. ルールベースの判定
特定のキーワード、パターン、送信元IPアドレスなどのルールに基づいて判定します。
ルールを定期的に更新しないと、新しい種類の迷惑メールに対応できません。
1-3. 機械学習による判定
過去の迷惑メールと非迷惑メールのデータから学習し、統計的に判定します。
メールの内容を分析し、迷惑メールでよく使われるパターンを検出します。
例えば、不自然な文面、過剰なHTMLタグ、不適切な画像などが該当します。
ユーザーごとに学習データを保持でき、新しい迷惑メールの傾向に自動的に適応できます。
巧妙に偽装された迷惑メールを見抜くのは難しい場合があります。
学習データが不十分だと誤判定が増える可能性があります。
2. そもそも迷惑メールには「ゆらぎ」がある(グレーゾーン)
しかし、迷惑メールフィルターを有効にしても、受信箱に届く迷惑メールを「根絶」することはできません。
また、必要な予約確認のメールなどが「迷惑メール」フォルダに入ってしまうこともあります。
これは、本質的には、人間と自動判定プログラムには「ずれ」があるからです。
- 迷惑メールの送信者は人間です。
フィルターを回避するために様々な手口を考案します。
例えば、テキストの一部を画像化する、ランダムな文字列を挿入するなどの手法があります。
特に、新種の迷惑メールは、フィルターのルールや学習データに含まれていないため、検出が難しい場合があります。 - メールの受信者も人間です。
ニュースレターや広告メールなど、受信者によって必要かどうかの判断が分かれるメールもあります。
同じメールでも、ある人にとっては有用な情報で、別の人にとっては迷惑メールと感じることがあります。
あまりフィルターの感度を厳しくし過ぎると、必要なメールまで迷惑メールと誤判定される可能性が増えてしまいます。 - フィルターは主に英語で開発されることが多いです。
ため、他の言語や文化圏特有の迷惑メールに対応しきれない可能性があります。
これらの理由から、迷惑メールフィルターは完璧ではありません。
ただ、適切に設定すれば、迷惑メールの大部分を防ぐことができます。
また、ユーザー自身が迷惑メールの可能性があるメールを慎重に扱うことも重要です。
(補足)
- 近年は、「ブラックリスト」「ホワイトリスト」という表現について、色に善悪概念を持ち込むことは不適切だ、とする意見もあるようです。「ブラックリスト」や「ダミー」はNGワードなのか 英語圏で進む「インクルージョン」な表現とは | 気になる英語気になる日本語 | 東洋経済オンライン(2021/04/13)それに対しては異論もあります – Blacklistは差別用語ではない #GitHub – Qiita (2020年07月30日)