Ano ang Dapat Mong Malaman Tungkol sa Bayesian Spam Filtering

by Heinz Tschabitscher

Alamin kung paano nakatutulong ang mga istatistika na panatilihing malinis ang iyong inbox

Kinakalkula ng mga spam filter ng Bayesian ang posibilidad ng isang mensahe na spam batay sa mga nilalaman nito. Hindi tulad ng simpleng mga filter na nakabatay sa nilalaman, ang pag-filter ng spam ng Bayesian ay natututo mula sa spam at mula sa mahusay na mail, na nagreresulta sa isang mahusay, mapagbagay at mahusay na diskarte sa anti-spam na, pinakamaganda sa lahat, halos walang anumang mga positibong positibo.

Paano Mo Nakikilala ang Junk Email?

Isipin kung paano mo nakita ang spam . Madalas sapat ang mabilis na sulyap. Alam mo kung ano ang hitsura ng spam, at alam mo kung ano ang hitsura ng mabuting mail.

Ang posibilidad ng spam na mukhang mahusay na mail ay nasa paligid ... zero.

Pagmamarka ng Mga Filter na Nilalamang Batay sa Nilalaman Huwag Iangkop

Hindi ba magiging maganda kung nagtrabaho na rin ang mga filter ng awtomatikong spam, masyadong?

Ang pagmamarka ng mga spam filter na batay sa nilalaman ay subukan lang iyan. Naghahanap sila ng mga salita at iba pang mga katangian na tipikal ng spam. Ang bawat elemento ng katangian ay nakatalaga ng isang puntos, at isang marka ng spam para sa buong mensahe ay nakalkula mula sa indibidwal na mga marka. Ang ilang mga scoring filter ay naghahanap din ng mga katangian ng lehitimong mail, na nagpapababa ng pangwakas na marka ng mensahe.

Ang diskarte ng scoring filter ay gumagana, ngunit mayroon din itong maraming mga kakulangan:

Ang listahan ng mga katangian ay binuo mula sa spam (at ang mahusay na mail) na magagamit sa mga inhinyero ng filter. Upang makakuha ng isang mahusay na kaalaman sa tipikal na spam na maaaring makuha ng sinuman, ang mail ay dapat na kolektahin sa daan-daang mga email address. Pinapahina nito ang kahusayan ng mga filter, lalo na dahil ang mga katangian ng mahusay na mail ay naiiba para sa bawat tao , ngunit hindi ito isinasaalang-alang.
Ang mga katangian na hahanapin ay mas marami o mas mababa sa bato . Kung ang mga spammer ay nagsisikap na umangkop (at gawin ang kanilang spam na mukhang mahusay na mail sa mga filter), ang mga katangian ng pag-filter ay dapat na manu-manong tweaked - isang mas malaking pagsisikap.
Ang iskor na nakatalaga sa bawat salita ay marahil ay batay sa isang mahusay na pagtatantya, ngunit ito ay pa rin arbitrary. At tulad ng listahan ng mga katangian, hindi ito umaangkop sa pagbabago ng mundo ng spam sa pangkalahatan o sa mga pangangailangan ng isang indibidwal na gumagamit.

Ang Mga Filter ng Bayesian Spam ay nag-tweak sa Kanilang Sarili, Pagkuha ng Mas mahusay at Mas Mabuti

Ang mga spam filter ng Bayesian ay isang uri ng pagmamarka ng mga filter na nakabatay sa nilalaman, masyadong. Gayunpaman, ang kanilang diskarte ay nawala sa mga suliranin ng mga simpleng scoring filter ng spam, gayunpaman, at ginagawa ito nang radikal. Dahil ang kahinaan ng mga filter sa pagmamarka ay nasa listahan ng mga katangian at ang kanilang mga marka ng manu-manong itinatakda, ang listahan na ito ay inalis.

Sa halip, ang mga filter ng spam ng Bayesian ang nagtatayo ng kanilang sarili. Sa isip, magsimula ka sa isang (malaki) na grupo ng mga email na inuri mo bilang spam, at isa pang pangkat ng mahusay na mail. Ang mga filter ay tumingin sa parehong at pag-aralan ang lehitimong mail pati na rin ang spam upang kalkulahin ang posibilidad ng iba't ibang mga katangian na lumalabas sa spam, at sa mahusay na mail.

Paano Tinitingnan ng isang Bayesian Spam Filter ang isang Email

Ang mga katangian ng isang Bayesian spam filter ay maaaring tumingin sa maaaring:

ang mga salita sa katawan ng mensahe, siyempre, at
ang mga header nito (mga nagpapadala at mga path ng mensahe , halimbawa!), ngunit din
iba pang mga aspeto tulad ng HTML / CSS code (tulad ng mga kulay at iba pang pag-format), o kahit na
pares ng salita, parirala at
meta impormasyon (kung saan lumilitaw ang isang partikular na parirala, halimbawa).

Kung ang isang salita, "Cartesian", halimbawa, ay hindi lilitaw sa spam ngunit madalas sa lehitimong email na natanggap mo, ang posibilidad na ang "Cartesian" ay nagpapahiwatig ng spam ay malapit sa zero. Ang "Toner", sa kabilang banda, ay lilitaw nang eksklusibo, at madalas, sa spam. Ang "Toner" ay may napakataas na posibilidad na matagpuan sa spam, hindi mas mababa sa 1 (100%).

Kapag dumating ang isang bagong mensahe, ito ay sinuri ng spam filter ng Bayesian, at ang posibilidad ng kumpletong mensahe na spam ay kinakalkula gamit ang mga indibidwal na katangian.

Ipalagay ang isang mensahe ay naglalaman ng parehong "Cartesian" at "toner". Mula sa mga salitang ito lamang ay hindi pa malinaw kung mayroon tayong spam o legit mail. Ang ibang mga katangian ay (malamang at pinaka-malamang) ay nagpapahiwatig ng isang posibilidad na nagpapahintulot sa filter na pag-uri-uriin ang mensahe bilang alinman sa spam o mabuting mail.

Ang mga Bayesian Spam Filter Maaari Matuto nang Awtomatiko

Ngayon na mayroon kami ng isang pag-uuri, ang mensahe ay magagamit upang sanayin ang filter mismo. Sa kasong ito, alinman sa posibilidad ng "Cartesian" na nagpapahiwatig ng mahusay na mail ay binababa (kung ang mensahe na naglalaman ng parehong "Cartesian" at "toner" ay natagpuan na spam), o ang posibilidad ng "toner" na nagpapahiwatig ng spam ay dapat na muling isaalang-alang.

Gamit ang auto-adaptive na diskarteng ito, ang mga filter ng Bayesian ay maaaring matuto mula sa kanilang sarili at sa mga desisyon ng gumagamit (kung siya ay manu-manong nagwawasto ng pagkakamali ng mga filter). Ang adaptability ng Bayesian filtering ay tinitiyak din na ang mga ito ay pinaka-epektibo para sa indibidwal na user ng email. Bagama't ang karamihan sa spam ng tao ay may mga katulad na katangian, ang lehitimong mail ay naiiba para sa lahat.

Paano Makakakuha ang mga Spammers ng mga Nakaraang Bayesian Filters?

Ang mga katangian ng lehitimong mail ay mahalaga rin sa proseso ng pag-filter ng Bayesian spam bilang spam. Kung partikular na sinanay ang mga filter para sa bawat user, ang mga spammer ay magkakaroon ng mas mahirap na oras na nagtatrabaho sa paligid ng lahat ng tao (o kahit karamihan ng mga tao) na mga filter ng spam, at ang mga filter ay maaaring umangkop sa halos lahat ng spammers na subukan.

Gagawa lamang ng mga spammer ang mga sinanay na mga filter ng Bayesian kung gagawin nila ang kanilang mga mensahe sa spam na ganap na kagaya ng ordinaryong email na maaaring makuha ng lahat.

Ang mga spammer ay hindi karaniwang nagpapadala ng mga ordinaryong email. Ipagpalagay natin na ito ay dahil ang mga email na ito ay hindi gumagana bilang junk email. Kaya, malamang na hindi nila gagawin ito kapag ang mga ordinaryong, mayamot na mga email ay ang tanging paraan upang gawin itong nakaraang mga spam filter.

Kung ang mga spammer ay lumipat sa halos lahat ng mga ordinaryong mga email, gayunpaman, makakakita kami ng maraming spam sa aming Mga Inbox, at ang email ay maaaring maging nakakabigo dahil sa mga araw ng pre-Bayesian (o mas masahol pa). Gayunpaman, nasira din ang merkado para sa karamihan ng mga uri ng spam, at sa gayon ay hindi magtatagal ng mahabang panahon.

Malakas na Mga tagapagpahiwatig Maaaring maging isang Achilles & # 39; s Filter ng Bayesian Spam Sakong

Ang isang eksepsiyon ay maaaring perceived para sa mga spammer upang gumana ang kanilang paraan sa pamamagitan ng mga filter ng Bayesian kahit na sa kanilang karaniwang nilalaman. Ito ay sa likas na katangian ng mga istatistika ng Bayesian na ang isang salita o katangian na napakadalas na lumilitaw sa mahusay na mail ay maaaring maging makabuluhan sa pagbukas ng anumang mensahe mula sa pagtingin tulad ng spam sa pag-rate bilang hamon ng filter.

Kung ang mga spammer ay makahanap ng isang paraan upang matukoy ang iyong mga sigurado na sunog na mga salita sa pamamagitan ng paggamit ng mga resibo ng HTML return upang makita kung aling mga mensahe ang iyong binuksan, halimbawa-, maaari nilang isama ang isa sa mga ito sa isang junk mail at maaabot ka sa pamamagitan ng isang mahusay na pag- sinanay na filter ng Bayesian.

Sinubukan ni John Graham-Cumming ito sa pamamagitan ng pagpapaalam sa dalawang mga filter ng Bayesian laban sa isa't isa, ang "masamang" isa na nakikibagay sa kung aling mga mensahe ang natagpuan upang makuha ang "magandang" filter. Sinasabi niya ito ay gumagana, kahit na ang proseso ay nakakalasing at kumplikado. Sa tingin namin ay hindi namin makita ang marami sa nangyayari, hindi bababa sa hindi sa isang malaking sukat, at hindi na iniayon sa mga katangian ng mga indibidwal na email. Ang mga spammer ay maaaring (subukan) malaman ang ilang mga keyword para sa mga organisasyon (tulad ng "Almaden" para sa ilang mga tao sa IBM marahil?) Sa halip.

Karaniwan, ang spam ay palaging magiging (makabuluhang) naiiba mula sa regular na mail o hindi ito magiging spam, bagaman.

Ang Bottom Line: Ang Bayesian Filtering & # 39; s Strength Maaari Maging ang kahinaan nito

Ang mga spam filter ng Bayesian ay mga filter na nakabatay sa nilalaman na:

ay partikular na sinanay upang makilala ang spam at mahusay na mail ng bawat user ng email , na ginagawang mas epektibo at mahirap na umangkop sa para sa mga spammer.
ay maaaring patuloy at walang labis na pagsisikap o pag-aaral ng manu-manong umangkop sa mga pinakabagong trick ng mga spammers.
kunin ang mabuting mail ng indibidwal na account sa account at magkaroon ng isang napakababang rate ng maling mga positibo .
Sa kasamaang palad, kung ito ay nagiging sanhi ng bulag na tiwala sa mga filter na anti-spam ng Bayesian, ito ay nagbibigay ng mas malubhang pagkakamali sa paminsan - minsang pagkakamali . Ang kabaligtaran ng epekto ng mga maling negatibo (spam na mukhang eksakto tulad ng regular na mail) ay may potensyal na abalahin at biguin ang mga gumagamit.