Angļu valodas lietvārdu "spam" surogātpasta filtrā var atveidot ar vācu valodas vārdu Abfall. Sākotnēji tas nozīmē gaļas konservi. IT nozarē tas attiecas uz nevēlamiem elektroniskajiem ziņojumiem, t. i., tie tiek piegādāti, neskatoties uz to, ka saņēmējs to nav vēlējies. Lielākoties tajos ir ietverta reklāma. Saskaņā ar Hamburgā bāzētā statistikas portāla Statista pētījumu 2014. gadā visā pasaulē tika saņemti 28 miljardi surogātpasta vēstuļu. Tā ir globāla problēma, kas tiek risināta ar surogātpasta filtra palīdzību, proti, nevēlamās ziņas ir jāsašķiro ar datorprogrammas palīdzību. Šādu nevēlamu vēstuļu sūtītāju sauc par surogātpasta izplatītāju, procesu sauc par surogātpasta sūtīšanu jeb spammingu.
Surogātpasta filtra piemērošanas jomas
Tradicionāli surogātpasta filtru izmantoja tikai nevēlamu e-pasta vēstuļu šķirošanai. Šim nolūkam ar algoritmu palīdzību tika izveidoti e-pasta programmu un pasta serveru moduļi. Tomēr, tā kā reklāmas nozīme internetā pēdējā laikā ir arvien pieaugusi, jaunākās programmas arī filtrē lapas. Īpaši surogātpasta filtri tiek izmantoti arī tīmekļa pārlūkprogrammās, viki un emuāros.
Spama filtra darba metodes
Surogātpasta filtri atlasa informāciju, kas ir tieši saistīta ar vēstuli. No vienas puses, tas var būt pats pasta saturs, bet ierobežotā mērā var pārbaudīt arī ziņojuma sūtītāju. Ir ieviestas trīs metodes:
a) Melnā saraksta metode. Melnais saraksts ir "melnais saraksts", kas ir nevēlama kontakta sinonīms. Satura ziņā šādā sarakstā ir uzskaitītas noteiktas frāzes un atslēgvārdi. Algoritms meklē e-pasta vēstuli, meklējot šos atslēgvārdus; ja algoritms tos atrod, e-pasta vēstule tiek šķirota. Šo pašu procedūru var attiecināt arī uz sūtītāju. Daudzi surogātpasta filtri, kas darbojas saskaņā ar melnā saraksta metodi, jau satur plašu datubāzi. Lietotāji var to daļēji paplašināt atbilstoši savām vajadzībām.
b) Bejasa filtra metode. Bajesa filtra metode ir balstīta uz varbūtību teoriju un prasa lietotāja sadarbību, īpaši sākumā. Ja tā ir pareizi iestatīta, tā ir labāka par melnā saraksta metodi. Izmantojot šo metodi, lietotājam ir jāidentificē saņemtās vēstules kā Spams klasificēt surogātpastu vai nesurogātpastu. Bajesa filtrs apgūst noteikumus fonā bez jebkādas iejaukšanās algoritmos. Pēc aptuveni 1000 patstāvīgi šķirotu vēstuļu filtrs darbojas patstāvīgi. Bayesian filtrs turpina mācīties arī turpmākās atkārtotās šķirošanas laikā.
c) Datubāze balstīti risinājumi. Reklāmas e-pasta vēstulēs jo īpaši ir ietverti dažādi dati, ar kuriem būtu jāveido konkrēts kontakts. Tas galvenokārt attiecas uz URL adresi, kurā ir Tīmekļa vietne un tālruņa numuru. Uz datubāzēm balstītie risinājumi izmanto algoritmus, lai meklētu šo informāciju. Ja tie tiek atrasti, sūtījumi tiek sašķiroti. Šādu metožu veiksmīguma rādītājs ir ļoti labs. Tiesa, reklāmas vēstules var pārveidot atkal un atkal, tātad neierobežotā skaitā, tomēr daži dati vienmēr paliek nemainīgi.
Kļūdu īpatsvars su su surogātpasta filtru
Surogātpasta vēstules pagātnē ir kļuvušas arvien sarežģītākas. Tāpēc surogātpasta filtru lietojumprogrammai ir jāturpina attīstīties. Tas ir saistīts ar pūlēm un izmaksām, tāpēc daži pakalpojumu sniedzēji par iespējamo pakalpojumu iekasē maksu. Turklāt šķirošana, izmantojot programmas, ir saistīta ar kļūdu īpatsvaru, ko tomēr var samazināt, izmantojot apmācību. Viltus negatīva atklāšana ir tad, ja surogātpasta vēstules nonāk parastajā iesūtnē; savukārt viltus pozitīva atklāšana ir tad, ja parastas vēstules tiek sajauktas ar surogātpastu. Optimizācijas pasākumi samazina kļūdaini negatīvās atpazīšanas kļūdu līmeni līdz desmit līdz vienam procentam, savukārt kļūdaini pozitīvās klasifikācijas tendence ir nulle.
Labi zināms surogātpasta filtrs, piemēram. SpamAssassinko izmanto lielākā daļa e-pasta pakalpojumu sniedzēju.