Pag-uuri sa Data Mining

Ang klasipikasyon ay isang pamamaraan ng pagmimina ng data na nagtatalaga ng mga kategorya sa isang koleksyon ng data upang makatulong sa mas tumpak na mga hula at pagtatasa. Tinatawag ding paminsan-minsan na tinatawag na Decision Tree , ang pag-uuri ay isa sa ilang mga pamamaraan na inilaan upang gawin ang pagtatasa ng napakalaking mga dataset na epektibo.

Bakit Classification?

Napakalaki ng mga database ay nagiging pamantayan sa mundo ngayon ng "malaking data." Isipin ang isang database na may maramihang mga terabytes ng data-isang terabyte ay isang trilyong byte ng data.

Ang Facebook ay nag-iisa crunches 600 terabytes ng mga bagong data sa bawat isang araw (bilang ng 2014, ang huling oras na ito iniulat ang mga panoorin). Ang pangunahing hamon ng malaki data ay kung paano upang magkaroon ng kahulugan nito.

At ang dami ng dalisay ay hindi lamang ang problema: ang malaking data ay may kaugaliang magkakaiba, walang balangkas at mabilis na pagbabago. Isaalang-alang ang data ng audio at video, mga post sa social media, 3D data o geospatial data. Ang ganitong uri ng data ay hindi madaling ikategorya o organisado.

Upang matugunan ang hamon na ito, ang isang hanay ng mga awtomatikong pamamaraan para sa pagkuha ng kapaki-pakinabang na impormasyon ay binuo, kasama ng mga ito ang pag- uuri .

Paano Gumagana ang Pag-uuri

Sa panganib ng paglipat ng masyadong malayo sa tech-usap, sabihin talakayin kung paano gumagana ang pag-uuri. Ang layunin ay upang lumikha ng isang hanay ng mga panuntunan sa pag-uuri na sasagutin ang isang tanong, gumawa ng desisyon, o mahulaan ang pag-uugali. Upang magsimula, isang set ng data ng pagsasanay ay binuo na naglalaman ng isang tiyak na hanay ng mga katangian pati na rin ang malamang na resulta.

Ang trabaho ng algorithm ng pag-uuri ay upang matuklasan kung paanong ang naitakda ng mga katangian ay umaabot sa konklusyon nito.

Sitwasyon : Marahil ay sinusubukan ng isang kumpanya ng credit card na matukoy kung aling mga prospect ang dapat makatanggap ng isang alok ng credit card.

Ito ay maaaring maging set ng data ng pagsasanay:

Pagsasanay ng Data
Pangalan Edad Kasarian Taunang kita Alok ng Credit Card
John Doe 25 M $ 39,500 Hindi
Jane Doe 56 F $ 125,000 Oo

Ang mga haligi ng "tagahula" Edad , Kasarian , at Taunang Kita ay tumutukoy sa halaga ng "katangiang taghula" na Alok ng Credit Card . Sa isang hanay ng pagsasanay, kilala ang katangian ng prediksyon. Pagkatapos ay sinusubukan ng algorithm ng pag-uuri upang matukoy kung paano naabot ang halaga ng katangian ng taghula: anong relasyon ang umiiral sa pagitan ng mga taghula at ng desisyon? Ito ay bubuo ng isang set ng mga panuntunan sa prediksyon, kadalasan ay isang KUNG / pahayag, halimbawa:

KUNG (Edad> 18 O Edad <75) AT Taunang Kita> 40,000 THEN Credit Card Offer = oo

Malinaw, ito ay isang simpleng halimbawa, at ang algorithm ay nangangailangan ng isang mas malaking data sampling kaysa sa dalawang talaan na ipinapakita dito. Dagdag dito, ang mga patakaran ng prediksyon ay malamang na mas kumplikado, kabilang ang mga sub-rule upang makuha ang mga detalye ng katangian.

Susunod, ang algorithm ay binigyan ng isang "hula hanay" ng data upang pag-aralan, ngunit ang hanay na ito ay wala ang katangian ng prediksyon (o desisyon):

Data ng Predictor
Pangalan Edad Kasarian Taunang kita Alok ng Credit Card
Jack Frost 42 M $ 88,000
Mary Murray 16 F $ 0

Tinutulungan ng data ng prediksyon na matantiya ang katumpakan ng mga panuntunan sa hula, at ang mga patakaran ay pagkatapos ay tweaked hanggang isinasaalang-alang ng developer ang mga hula na epektibo at kapaki-pakinabang.

Mga Araw sa Araw ng Mga Halimbawa ng Pag-uuri

Pag-uuri, at iba pang mga diskarte sa pagmimina ng data, ay sa likod ng marami sa aming pang-araw-araw na karanasan bilang mga mamimili.

Maaaring gamitin ng mga hula ng panahon ang pag-uuri upang mag-ulat kung ang araw ay maulan, maaraw o maulap. Maaaring pag-aralan ng medikal na propesyon ang mga kondisyon ng kalusugan upang mahulaan ang mga resulta ng medikal. Ang isang uri ng pamamaraan ng pag-uuri, Naive Bayesian, ay gumagamit ng kondisyong posibilidad na ikategorya ang mga email sa spam. Mula sa pagtuklas ng pandaraya sa mga alok ng produkto, ang pag-uuri ay nasa likod ng mga eksena araw-araw na pag-aaral ng data at paggawa ng mga hula.