Zer da Bayesiar Spam iragazketa buruz jakin behar duzu?

by Heinz Tschabitscher

Aurki itzazu estatistikak nola gorde zure sarrera-ontzia garbi

Bayesian spam iragazkiak kalkulatzen du bere edukien araberako spam mezua probabilitatea kalkulatzeko. Eduki-oinarritutako iragazki sinpleek ez bezala, Bayesian spam iragazkiak mezu baztergarrietatik eta posta elektronikoz ikasten du, spam aurkako spam sistema oso sendoa, moldagarria eta eraginkorra lortzen duena, eta hori guztia onena faltsua da.

Zabor-posta elektronikoa nola aitortu duzu?

Pentsa ezazu nola spam detektatzen duzun. Begira azkar bat nahikoa izaten da. Badakizu zein spam sortzen den, eta badakizun zein den posta ona.

Posta ona bezalako spam mezuak probabilitatea ingurukoa da ... zero.

Edukia oinarritutako iragazkientzako puntuak ez dira egokitu

Ez litzateke handia izango spamaren iragazki automatikoak automatikoki funtzionatu balu bezala?

Eduki-oinarritutako spam iragazkien puntuazioa saiatu ezazu hori. Hitz eta bestelako spam ezaugarri tipikoak bilatzen dituzte. Elementu bereizgarri bakoitza puntuazio bat esleitzen zaie, eta mezu osoaren spam mezu bat partiturak banan-banan kalkulatzen ditu. Puntuazio-iragazki batzuek posta zilegizkoaren ezaugarriak ere badituzte, mezuaren azken puntuazioa jaistea.

Puntuazio iragazkiak hurbilketa egiten du, baina hainbat desabantaila ere baditu:

Ezaugarrien zerrenda spamaren (eta posta ona) iragazkiaren ingeniarientzat erabilgarri dago. Spam tipikoa den edonork eskuratzeko modu ona lortzeko, posta elektronikoko ehunka helbide elektronikoetan jaso behar da. Honek iragazkien eraginkortasuna ahultzen du, batez ere posta pertsonaren ezaugarriak desberdinak izango diren bakoitzean , baina ez da kontuan hartuko.
Hurbilago daude harrian kokatutako ezaugarriak . Zaborrak egokitzeko ahalegina egiten bada (eta iragazkiak posta ona bezalako spam mezuak bilatzea), iragazkiaren ezaugarriak eskuz aldatu behar dira, ahalegina are handiagoa izan dadin.
Hitz bakoitzari esleitutako puntuazioa estimazio onean oinarritzen da seguruenik, baina oraindik ere arbitrarioa da. Ezaugarrien zerrenda bezala, ez da spam-aren mundu aldakorrera egokitu, ezta norberaren beharren arabera ere.

Bayesian Spam iragazkiak Tweak beraiek, Better eta Better lortzean

Bayesian spam iragazkiak eduki-oinarritutako iragazkien puntuazio motak dira. Haien hurbilketek huts egiten dute spam-iragazkien puntuazio sinpleen arazoen aurrean, baina, hala ere, oso modu erradikalean egiten du. Puntuazio iragazkien ahultasuna ezaugarriak eta haien puntuazioak eskuz eraikitako zerrendan daude, zerrenda ezabatzen da.

Horren ordez, Bayesian spam iragazkiak zerrenda bera osatzen dute. Egokiena spam gisa sailkatu dituzun mezu elektronikoen (handi) sorta batekin hasten zara, eta beste posta sorta bat. Iragazkiek bai begiratzen dute bai zilegizko posta eta zaborrak aztertzea, spam-en agertzen diren hainbat ezaugarri probabilitatea kalkulatzeko eta posta onean.

How Bayesian Spam Filter mezu elektroniko bat aztertzen du

Bayesiar spam iragazkiak dituen ezaugarriak hauek izan daitezke:

mezuaren gorputzean hitzak, noski, eta
Bere goiburuak (bidaltzaileak eta mezuen bideak , adibidez!), baina baita ere
Beste alderdi batzuk, esate baterako, HTML / CSS kodea (koloreak eta bestelako formatuak), edo are gehiago
hitz bikoteak, esaldiak eta
meta-informazioa (esaldi jakin bat agertzen denean, adibidez).

Hitz bat, "Cartesian" adibidez, inoiz ez da spam-en agertzen, sarritan jaso duzun mezu elektroniko legitimoan, "Cartesian" adierazten duen probabilitatea zero gertu dago. "Tonerra", ordea, soilik agertzen da, eta sarritan, spam-en. "Tonerra" spamaren aurkako probabilitate handia dauka, ez 1 (% 100) baino beherago.

Mezu berri bat iristen denean Bayesiar spam iragazkiak aztertzen du, eta mezu osagarria spamaren bidez kalkulatzen da banakako ezaugarriak erabiliz.

Eman ezazu mezu bat "Cartesian" eta "toner" bezalakoak dituela. Hitz hauei bakarrik ez diegu argi oraindik ez dugula spam edo postaz fidatzen. Beste ezaugarri batzuk (espero eta seguruenik) iragazkiak mezuak spam gisa edo posta on gisa sailkatzeko aukera ematen duen probabilitatea adierazten du.

Bayesian Spam Iragazkiak automatikoki irakurtzeko gai da

Orain sailkapen bat dugula, mezu hori iragazkia gehiago prestatzeko erabil daiteke. Kasu honetan, bai "Cartesiar" posta ona adierazten duen probabilitatea murriztu egiten da ("Cartesian" eta "toner" duten mezuak spam gisa aurkitzen badira), edo "toner" esparruko probabilitatea baztertuz gero, berrikusi egin behar da.

Auto-egokitze teknika hau erabiliz, Bayesian iragazkiak bere kabuz eta erabiltzaileen erabakiak (nahitaez zuzentzen du iragarkiaren arabera). Bayesiako iragazteak duen egokitzeaz gain, posta elektronikoaren erabiltzaile indibidualenak ere eraginkorrak dira. Jende gehienak spam antzeko ezaugarriak izan ditzakeen arren, zilegizko postak guztiz desberdinak dira.

Nola sor ditzakete zaborrak Bayesiako iragazkientzako?

Posta zilegizkoaren ezaugarriak oso garrantzitsuak dira Bayesiar spam iragazketa prozesura, spam gisa. Iragazkiak erabiltzaile bakoitzarentzat prestatuta badago, zaborrontziek are zailagoak izango dituzte denek (edo jende gehienak) spam-iragazkien inguruan lan egiteko, eta iragazkiak ia-ia guztiak zaborrontzira egokitu daitezke.

Zaborrontziek Bayesiako iragazki ongi entrenatuak igaroko dituzte iragarkiak mezu elektronikoak arruntera joaten diren bezain erraz ikusten badituzte.

Zaborrak ez dira normalean ohiko mezu elektronikoak bidaltzen. Eman iezaguzu hau mezu elektroniko horiek ez dituztela mezu baztergarri gisa funtzionatzen. Beraz, aukerak ez dira egitean posta arrunt eta aspergarria spam iragazkiak iraganeko modu bakarra bihurtzeko.

Zaborrak modu arruntean bilatzeko mezu elektronikoak badira, ordea, gure inbox-ak berriro ere spam ugari ikusiko ditugu, eta posta elektronikoa egun Bayesian (edo are okerragoa) zen bezain frustrante izan daiteke. Gainera, merkaturatu egin beharko lukete spam gehienak, eta, beraz, ez du luzaro iraungo.

Adierazle indartsuak Akilesen Bayesiar Spam Filter bihur daiteke. orpo

Salbuespen bat nabarmentzen da zaborrontziei Bayesiako iragazkien bidez lan egiteko, nahiz eta ohiko edukiarekin. Bayesiar estatistiken izaera da, mezu askotan maiz agertuko den hitz edo ezaugarri bat esanguratsua izan daiteke iragarkiaren urdaiazpikoa izendatzen den mezuak spam gisa bilatzea.

Zaborrontziek zure ziur-suaren posta-hitzak zehazteko modu bat aurkitzen badute, HTML itzuliko ordainagiriak erabiliz, zein mezu ireki dituzun, adibidez, ikusteko, horietako bat junk mail batean ere sartu ahal izango duzu eta baita ongi- Bayesiako iragazkia prestatua.

John Graham-Cumming-k probatu egin du bi Bayesiako iragazkiek elkarren aurka egiten dutela, eta "txarra" iragazten duten mezuei egokitzeko moldatzen den "txarra". Lanak dioenez, prozesua denbora asko eta konplexua da. Ez dugu uste gertatzen ari denaren zati handi bat ikusiko dugula, gutxienez ez da eskala handian, eta pertsonen posta elektronikoko ezaugarriak ez diren neurrira. Zaborrontziek agian (saiatu) erakundeen gako batzuk bilatzea (agian IBM-en "Almaden" bezalako zerbait agian).

Normalean, spam-a beti (nabarmen) posta arruntetik desberdina izango da edo ez da spam-a izango.

Beheko lerroa: Erresistentzia Bayesiarren Erresistentzia bere ahultasuna izan daiteke

Bayesian spam iragazkiak eduki oinarritutako iragazkiak dira :

Bakoitzak bereziki prestatuta daude norbanakoen posta elektronikoaren erabiltzaileei spam eta posta ona aitortzeko, oso eraginkorrak eta zailak baitira zaborra egokitzeko.
etengabe eta ahalegin handirik gabe edo eskuzko azterketarik egin gabe, zaborrontziaren azken trikimailuetara egokitu .
kontuan hartu erabiltzaile banakako posta ona eta positibo faltsuen tasa oso baxua izatea .
Zoritxarrez, bada Bayesian anti-spam iragazkiak itsu konfiantza eragiten badute, noizbehinkako akatsak larriak ere egiten ditu . Negatibo faltsuen aurkako efektua (posta arruntaren antzekoa den spam-a) potentziala da, erabiltzaileak trabarik eta frustratzeko.