Gerichte zakenvrouw die naar het projectiescherm kijkt

Het gebruik van classificatie bij datamining

Classificatie is een dataminingtechniek die categorieën toewijst aan een verzameling gegevens om te helpen bij nauwkeurigere voorspellingen en analyses. Classificatie is een van de vele methoden die bedoeld zijn om de analyse van zeer grote datasets effectief te maken.

Waarom classificatie?

Zeer grote databases worden de norm in de hedendaagse wereld van grote gegevens. Stel je een database voor met terabytes aan gegevens – een terabyte is er één biljoen bytes aan gegevens. Alleen Facebook verwerkt elke dag 600 terabytes aan nieuwe gegevens (vanaf 2014, de laatste keer dat het deze specificaties rapporteerde). De belangrijkste uitdaging van big data is hoe je er betekenis aan kunt geven.

En niet alleen het volume is het enige probleem: big data is ook vaak divers, ongestructureerd en snel veranderend. Denk aan audio- en videogegevens, posts op sociale media, 3D-gegevens of geospatiale gegevens. Dit soort gegevens is niet gemakkelijk te categoriseren of te ordenen.

Om deze uitdaging aan te gaan, is er een reeks automatische methoden ontwikkeld voor het extraheren van nuttige informatie, waaronder: classificatie.

Heldenafbeeldingen/Getty Images

Hoe classificatie werkt

Het doel van een analist is om een ​​reeks classificatieregels te creëren die een vraag beantwoorden, een beslissing nemen of gedrag voorspellen. Om te beginnen wordt een set trainingsgegevens ontwikkeld die een bepaalde set attributen en de waarschijnlijke uitkomst bevatten. De taak van het classificatie-algoritme is om te ontdekken hoe die set attributen tot zijn conclusie komt.

Overweeg een creditcardmaatschappij die probeert te bepalen welke prospects een creditcardaanbieding moeten ontvangen.

De trainingsgegevens van het bedrijf kunnen zijn:

Naam Leeftijd Geslacht Jaarlijks inkomen Creditcardaanbieding
John Doe 25 M $39.500 Nee
Jane Doe 56 F $ 125.000 Ja
Trainingsdata

De voorspellingskolommen Leeftijd,Geslacht,en Jaarlijks inkomen bepaal de waarde van het “predictor attribuut” Creditcardaanbieding. In een trainingsset is het predictorattribuut bekend. Het classificatie-algoritme probeert vervolgens te bepalen hoe de waarde van het predictorattribuut is bereikt: welke relaties bestaan ​​er tussen de voorspellers en de beslissing? Het zal een reeks voorspellingsregels ontwikkelen, meestal een IF/THEN-statement.

Het is duidelijk dat dit een eenvoudig voorbeeld is en het algoritme zou een veel grotere gegevenssteekproef nodig hebben dan de twee records die hier worden getoond. Verder zijn de voorspellingsregels waarschijnlijk veel complexer, inclusief subregels om attribuutdetails vast te leggen.

Vervolgens krijgt het algoritme een “voorspellingsset” van gegevens om te analyseren, maar deze set mist het voorspellingsattribuut (of beslissing):

Naam Leeftijd Geslacht Jaarlijks inkomen Creditcardaanbieding
Jack Frost 42 M $ 88.000
Mary Murray 16 F $ 0
Voorspellergegevens

Deze voorspellingsgegevens helpen de nauwkeurigheid van de voorspellingsregels te schatten en de regels worden vervolgens aangepast totdat de ontwikkelaar de voorspellingen effectief en nuttig vindt.

Dagelijkse voorbeelden van classificatie

Classificatie en andere technieken voor datamining vormen de basis voor een groot deel van onze dagelijkse ervaring als consument. Weersvoorspellingen gebruiken classificatietechnieken om te rapporteren of de dag regenachtig, zonnig of bewolkt zal zijn. De medische professie analyseert gezondheidstoestanden om waarschijnlijke medische resultaten te voorspellen. Een type classificatiemethode, Naïef Bayesiaans, gebruikt voorwaardelijke waarschijnlijkheid om spam-e-mails te categoriseren.

Leave a Reply

Your email address will not be published. Required fields are marked *