Ano ang ibig sabihin ng k-Clustering?

Pagmimina ng data gamit ang algorithm ng k-ibig sabihin

Ang k- means clustering algorithm ay isang pagmimina ng data at kagamitan sa pag-aaral ng makina na ginagamit sa mga obserbasyon ng kumpol sa mga grupo ng mga kaugnay na obserbasyon nang walang anumang naunang kaalaman sa mga relasyon na iyon. Sa pamamagitan ng sampling, nagtatangka ang algorithm na ipakita kung saan ang kategorya, o kumpol, ang data ay nabibilang sa, sa bilang ng mga kumpol na tinukoy ng halaga k.

Ang algorithm ng k- ay isa sa pinakasimpleng pamamaraan ng pag-cluster at karaniwan itong ginagamit sa medikal na imaging, biometrics, at mga kaugnay na larangan. Ang bentahe ng k- ay nangangahulugan ng clustering na ito ay nagsasabi tungkol sa iyong data (gamit ang unsupervised form nito) sa halip na ikaw ay magtuturo sa algorithm tungkol sa data sa simula (gamit ang pinangangasiwaang paraan ng algorithm).

Minsan tinutukoy ito bilang Lloyd's Algorithm, lalo na sa mga computer science circle dahil ang karaniwang algorithm ay unang iminungkahi ni Stuart Lloyd noong 1957. Ang terminong "k-means" ay likha noong 1967 ni James McQueen.

Paano ang k-ay nangangahulugan ng Mga Algorithm Function

Ang algorithm ng k- ay isang algorithm ng ebolusyon na nakakuha ng pangalan nito mula sa paraan ng operasyon nito. Ang mga algorithm ay nagtatakda ng mga obserbasyon sa mga grupo ng k , kung saan ipinagkaloob ang k bilang isang parameter ng pag-input. Pagkatapos nito ay nagtatalaga ng bawat pagmamasid sa mga kumpol batay sa kalapitan ng pagmamasid sa kahulugan ng kumpol. Ang ibig sabihin ng ibig sabihin ng cluster ay recomputed at ang proseso ay nagsisimula muli. Narito kung paano gumagana ang algorithm:

  1. Ang algorithm ay nagkataon na pumipili ng mga puntos bilang unang mga cluster center (ang ibig sabihin nito).
  2. Ang bawat punto sa dataset ay itinalaga sa closed cluster, batay sa distansya ng Euclidean sa pagitan ng bawat punto at bawat kumpol na sentro.
  3. Ang bawat cluster center ay recomputed bilang ang average ng mga puntos sa cluster na iyon.
  4. Ulitin ang mga hakbang 2 at 3 hanggang magkatipon ang mga kumpol. Maaaring tukuyin ang pagkakaiba ng pagkakaiba-iba depende sa pagpapatupad, ngunit karaniwan ay nangangahulugan na walang mga obserbasyon baguhin ang mga kumpol kapag ang mga hakbang 2 at 3 ay paulit-ulit, o ang mga pagbabago ay hindi gumagawa ng isang materyal na pagkakaiba sa kahulugan ng mga kumpol.

Pagpili ng Bilang ng mga Klusters

Ang isa sa mga pangunahing disadvantages sa k- ay nangangahulugan clustering ay ang katotohanan na dapat mong tukuyin ang bilang ng mga kumpol bilang isang input sa algorithm. Tulad ng idinisenyo, ang algorithm ay hindi kakayahang matukoy ang angkop na bilang ng mga kumpol at nakasalalay sa gumagamit upang makilala ito nang maaga.

Halimbawa, kung mayroon kang isang pangkat ng mga tao na dapat na clustered batay sa pagkakakilanlan ng binary gender bilang lalaki o babae, ang pagtawag sa algorithm ng k- gamit gamit ang input k = 3 ay magpipilit sa mga tao sa tatlong kumpol kung dalawang lamang, o isang Ang input ng k = 2, ay magbibigay ng mas natural na magkasya.

Katulad nito, kung ang isang pangkat ng mga indibidwal ay madaling clustered batay sa estado ng bahay at tinatawag mo ang k- paraan algorithm sa input k = 20, ang mga resulta ay maaaring masyadong pangkalahatan upang maging epektibo.

Para sa kadahilanang ito, madalas na isang magandang ideya na mag-eksperimento sa iba't ibang mga halaga ng k upang matukoy ang halaga na pinakamahusay na nababagay sa iyong data. Maaari mo ring hilingin na tuklasin ang paggamit ng iba pang mga algorithm sa pagmimina ng data sa iyong paghahanap para sa kaalaman sa makina.