Wat betekent Data Mining?
Data Mining is het proces van het analyseren van verborgen patronen in data vanuit verschillende perspectieven om die gegevens om te zetten in bruikbare informatie. Data wordt verzameld en samengebracht in gemeenschappelijke ruimtes, zoals datawarehouses, en algoritmen voor datamining zoeken naar patronen die bedrijven kunnen gebruiken om betere beslissingen te nemen. Zoals beslissingen die helpen om kosten te besparen, inkomsten te verhogen of klanten beter van dienst te zijn.
Data Mining staat ook bekend als data datadelving of gegevensdelving. Het is van cruciaal belang bij business intelligence om datagestuurde beslissingen te nemen.
Techopedia legt uit wat Data Mining is
De belangrijkste stappen in een Data Mining proces zijn:
- Data extractie, transformatie en laden in een datawarehouse
- Data opslaan en beheren in multidimensionale databases
- Data toegankelijk maken voor bedrijfsanalisten met behulp van toepassingssoftware
- Geanalyseerde data presenteren in gemakkelijk te begrijpen vormen, zoals grafieken
De eerste stap in datamining is het verzamelen van relevante gegevens die cruciaal zijn voor het bedrijf. Bedrijfsdata is transactionele, niet-operationele of metadata. Transactionele gegevens hebben betrekking op dagelijkse activiteiten zoals verkoop, voorraad en kosten. Niet-operationele gegevens zijn normaal gesproken prognoses, terwijl metagegevens zich bezighouden met logisch databaseontwerp. Patronen en relaties tussen gegevenselementen kunnen vaak relevante informatie opleveren voor het verbeteren van bedrijfsprocessen. Organisaties met een sterke focus op consumenten hebben te maken met dataminingtechnieken die een duidelijk beeld geven van verkochte producten, prijs, concurrentie en klantdemografie.
De retailgigant Walmart stuurt al zijn relevante informatie naar een datawarehouse met terabytes aan data. Deze gegevens zijn gemakkelijk toegankelijk voor leveranciers, zodat ze aankooppatronen van klanten kunnen identificeren. Met behulp van dataminingtechnieken kunnen ze patronen genereren over winkelgewoonten, de dagen waarop het meest wordt gewinkeld, de producten waar het meest naar wordt gezocht en andere inzichten.
De tweede stap in datamining is het selecteren van een geschikt algoritme – een mechanisme dat een dataminingmodel produceert. De algemene werking van het algoritme bestaat uit het identificeren van trends in een set gegevens en het gebruiken van de output voor het defini?ren van parameters. De populairste algoritmen voor datamining zijn classificatie algoritmen en regressie algoritmen, die worden gebruikt om relaties tussen gegevenselementen te identificeren. Grote databaseleveranciers zoals Oracle en SQL integreren algoritmen voor datamining, zoals clustering en regressiebomen, om aan de vraag naar datamining te voldoen.