スパムフィルターの英語名詞「スパム」は、ドイツ語の「Abfall」と訳すことができます。本来は缶詰の肉のことを指します。IT部門では、これは、受信者の要求なしに配信される未承諾の電子メッセージを指します。彼らは通常、広告を含んでいます。ハンブルクの統計ポータル「Statista」の調査によると、2014年の世界のスパムメール数は280億通。これはスパムフィルタの助けを借りて解決される世界的な問題であり、具体的には、不要なメッセージはコンピュータプログラムによって整理されるべきです。このような迷惑メールの発信者はスパマーと呼ばれ、そのプロセスはスパミングやスパムと呼ばれています。
スパムフィルタの適用領域
古典的には、スパムフィルターの使用は、迷惑メールの選別に限定されていました。この目的のために、アルゴリズムの助けを借りて、電子メールプログラムとメールサーバのモジュールを構築した。しかし、インターネット上での広告の重要性が高まってきたこともあり、新しいプログラムではフィルタリングページも用意されています。具体的には、WebブラウザやWiki、ブログなどにもスパムフィルタが使われています。
スパムフィルタの作業方法
スパムフィルターは、メールに直接関係する情報をピックアップします。これは、メールの内容自体にもなりますが、発信元のチェックも限られた範囲で可能です。3つの方法が確立されてきました。
(a)の ブラックリスト方式.ブラックリストとは、不要な連絡先の代名詞である「ブラックリスト」のことです。内容的には、このようなリストは、特定の表現やキーワードをリストアップしています。アルゴリズムは、メールを検索してこれらのキーワードを見つけた場合、メールを選別します。同じ手順を送信者にも拡張することができます。ブラックリスト方式で動作する多くのスパムフィルタは、すでに大規模なデータベースを持っています。ユーザーは、個人的なニーズに応じてこのデータベースを拡張することができます。
b) ベイズフィルター法ベイズフィルタ法は確率論に基づく手法であり、特に初期にはユーザーの協力が必要です。正しく設定すれば、ブラックリスト方式より優れています。この方式では、ユーザーは受信したメールを スパム スパムか非スパムかを分類する。ベイジアンフィルタは、アルゴリズムに一切介入することなく、バックグラウンドでルールを学習する。約1,000通の自己仕分けを行った後、フィルタが単独で動作するようになります。また、ベイジアンフィルタは、その後の再ソートの過程でも学習を続けている。
(C)の データベース ベースのソリューションです。特に広告メールには、特定のコンタクトにつながることを目的とした様々なデータが含まれています。これには、何よりもまず ウェブサイト と電話番号を入力してください。データベースベースのソリューションは、アルゴリズムを使用してこの情報を検索します。見つかった場合は、メールが整理されます。このような手続きの成功率は非常に良いと言えるでしょう。広告メールは何度も何度もデザインを変更することができるため、数に制限はありませんが、特定のデータは常に同じままです。
スパムフィルタのエラー率
スパムメールは昔に比べてますます巧妙になってきています。その結果、スパムフィルタアプリケーションは進化しなければなりません。これには努力とコストが伴いますので、プロバイダによっては、どのようなサービスでも料金を請求されることがあります。また、プログラムによるソートはエラー率を伴いますが、これはトレーニングにより低減することができます。誤検知はスパムメールが通常の受信箱に届いた場合、誤検知は通常のメールがスパムと勘違いされた場合です。最適化対策により、誤陰性検出のエラー率は10~1%にまで低下するが、誤陽性検出はゼロに向かう傾向にある。
よく知られているスパムフィルタは以下のようなものです。 スパムアサシンは、ほとんどの電子メールプロバイダで使用されています。