Datuen metagarren sailkapena

Sailkapena datu-meatzaritza teknika bat da, kategoriak datu-bilduma bat esleitzeko aurreikuspen eta azterketa zehatzagoak egiteko. Zenbait deitu ere deitzen zaio Erabakia zuhaitza , sailkapena datu multzo oso handiak aztertzea helburu duten hainbat metodoren artean.

Zergatik sailkapena?

Datu-base oso handiak "datu handiak" gaurko munduan arau bihurtu dira. Imajinatu datu-baseko terabyte datu-basea duen datu-basea, bat-batekoa, triloko datu byte bat da.

Facebookek 600 eguneko datu berri guztiak egun bakarrarekin konbinatzen ditu (2014rako, specs horiek berridatzi zuen azken aldian). Datu handien erronka nagusia zentzua nola da.

Bolumena ez da arazo bakarra: datu handiak ere anitza, ez egituratuak eta azkar aldatzen dira. Demagun audio eta bideo datuak, gizarte-mezu elektronikoak, 3D datuak edo datu geoespazialak. Datu mota hauek ez dira erraz sailkatzen edo antolatzen.

Erronka horri aurre egiteko, informazio baliagarria ateratzeko metodo automatiko desberdinak garatu dira, horien artean sailkapena .

Nola sailkatu lanak

Luzeegi joateko arriskuan dauden teknologiei buruz, eztabaidatu nola sailkatzen diren lanak. Helburua da galdera-erantzun bat, erabakiak hartzeko edo aurreikusitako portaera aurreikusteko sailkapen-arauak sortzea. Hasteko, prestakuntza-datu multzo bat garatzen da, atributu-multzo jakin bat eta litekeena baita emaitza.

Sailkapen algoritmoa aztertzea da nola lortzen duen atributu multzo horren ondorioa.

Eszenarioa : Agian kreditu-txarteleko enpresak kreditu-txartelen eskaintza jaso behar duen irtenbideak zehazten saiatzen ari da.

Hau izan daiteke prestakuntza-datuak:

Prestakuntza datuak
izena Adina Generoa Urteko diru-sarrerak Kreditu txartelaren eskaintza
John Doe 25 M $ 39.500 Ez
Jane Doe 56 F $ 125.000 Bai

"Predictor" zutabeak Adina , Generoa eta Urteko Errenta " Kreditu txartelaren eskaintza " "predictor attribute" balioa zehazten ditu. Prestakuntza multzo batean, aurrezarriaren atributua ezagutzen da. Sailkapen algoritmoa zehazten du predictor atributuaren balioa nola lortu duen: zer iragarpen eta erabaki artean dauden harremanak? Aurreikuspen-arauen multzo bat garatuko du, normalean IF / THEN adierazpen bat, adibidez:

IF (adina> 18 OR adina <75) eta urteko diru-sarrerak> 40.000 THEN kreditu txartelaren eskaintza = bai

Jakina, adibide sinplea da, eta algoritmoak datu handiagoak laginketzea beharko luke, hemen agertzen diren bi erregistro baino. Gainera, aurreikuspen arauak konplexuagoak izango dira, azpi-arauek atributuaren xehetasunak ateratzeko.

Hurrengoa, algoritmoa datuen "iragarpen multzoa" ematen zaio aztertzeko, baina multzo honek ez du iragarpenaren atributua (edo erabakia) falta.

Predictor Data
izena Adina Generoa Urteko diru-sarrerak Kreditu txartelaren eskaintza
Jack Frost 42 M $ 88.000
Mary Murray 16 F $ 0

Predictor data honek aurreikuspenen arauen zehaztasuna kalkulatzen laguntzen du, eta arauak tweaked dira garatzaileek iragarpenak eraginkorra eta erabilgarria jotzen arte.

Eguneroko Egunaren sailkapen adibideak

Sailkapena eta bestelako datuen meatzaritza teknikak kontsumitzaile gisa gure eguneroko esperientzia askoz atzean daude.

Eguraldi iragarpenak sailkapenaren erabilera egiteak egun euritsua, eguzkitsua edo laino izango den ala ez jakiteko balio dezake. Medikuntza profesionalak mediku-emaitzak aztertu ditzake osasun-baldintzetan. Klase sailkapen mota bat, Naive Bayesian, baldintzazko probabilitatea erabiltzen du spam mezuak sailkatzeko. Produktuen eskaintza iruzurretan detektatzeko, sailkapenean eguneroko eszenak eguneratzen dira datuak aztertuz eta iragarpenak ekoizten.