Zer da k-ren klusterizazioa?

Datuen meatzaritza k-bitarteko algoritmoarekin

K- esan nahi du klusterizazio algoritmoa datu-meatzaritza eta makina-ikasketetarako tresna da, behaketa-taldeen behaketa klusterrei esker, harreman horiekin aurreko ezagutzarik gabe. Laginketa bidez, algoritmoak kategoria horretan edo klusterretan dauden datuak erakusten ditu, balioak k zehazten dituen kluster kopuruarekin .

K- bitarteko algoritmoa clusteratze teknikarik sinpleena da, eta irudi medikoetan, biometrian eta erlazionatutako arloetan erabiltzen da. K- baliabideen abantaila klusterizatzea da zure datuei buruz (bere jarraipenik gabeko inprimakia erabiliz) baizik eta algoritmoa azaltzea (algoritmoaren gain kontrolatutako inprimakia erabiliz).

Lloyd Algoritmo bezala aipatzen da batzuetan, bereziki informatika zirkuluetan, Stuart Lloyd-ek 1957an proposatutako lehen algoritmo estandarraren arabera. James McQueen-ek 1967an asmatu zuen "k-baliabideak" terminoa.

Nola funtzionatzen du k-bitarteko algoritmo funtzioak?

K- bitarteko algoritmoa bere eragiketaren metodoa izendatzen duen eboluzio algoritmoa da. Algoritmoaren klusterrak behatu egiten dira k taldeetan, non k sarrera parametro gisa ematen den. Ondoren, behaketa bakoitza klusterreko batez besteko hurbiltasunetik hurbil dagoen klusterrei esleitzen zaie. Klusterraren batezbestekoa berriz kalkulatzen da eta prozesua berriro hasten da. Hemen algoritmoa nola funtzionatzen duen:

  1. Algoritmoa arbitrarioki hautatzen du k puntu hasierako kluster zentro gisa (bitartekoak).
  2. Datu multzoaren puntu bakoitza itxia den klusterrari esleitzen zaio, puntu bakoitzaren eta klusterren zentro bakoitzaren arteko Euclidean distantzia oinarritzat hartuta.
  3. Klusterraren zentro bakoitza kluster horren puntuen batezbestekoa den bezala birkalkatzen da.
  4. Urratsak 2 eta 3 errepikatu klusterrak konbergentzia arte. Konbergentzia ezberdina izan daiteke ezarpenaren arabera, baina normalean esan nahi du behaketek ez dutela klusterrak aldatzen 2 eta 3. urratsei errepikatzen direnean edo aldaketak ez dutela klusterren definizioan materiala desberdina izan.

Klusterren kopurua hautatzea

Klusterraren bidez k-ren desabantailei nagusietako bat klusterra algoritmora sartzeko moduan zehaztu beharra da. Diseinatu gisa, algoritmoa ez da kluster kopuru egokia zehazteko gai, eta erabiltzaileari horren arabera aldez aurretik identifikatu behar da.

Adibidez, gizonezko edo emakumezkoaren bitar identitate binarioan oinarritutako jendea biltzeko talde bat izan bazenuen , ingelesez k = 3 algoritmoaren bidez deitzen zitzaion, k = 3 jendeak hiru kluster bihurtuko zituenean, bi edo gehiago k = 2 sarrera , egokiagoa izango litzateke.

Era berean, gizabanako talde bat modu erraz batean bilduta egon zen etxearen egoeran oinarrituta eta ingelesez k = algoritmoa k = 20 deitzen bazenitu , emaitzak oso orokorrak izan litezke eraginkorrak izateko.

Horregatik, askotan ideia ona da k balio ezberdinekin esperimentatzea, zure datuak ondoen egokitzen dituen balioak identifikatzeko. Bestalde, beste datu-meatzaritzako algoritmoen erabilera aztertu nahi duzu makinen ikasitako ezagutzaren bila.