Tiedonlouhinta (Data Mining) tarkoittaa prosessia, jossa analysoidaan piilotettuja datan kuvioita eri n?k?kulmista, jotta t?m? data voidaan muuttaa hy?dylliseksi ja usein toiminnalliseksi tiedoksi. Data ker?t??n ja koostetaan yhteen paikkaan, kuten tietovarastoihin, ja tiedonlouhinta-algoritmit etsiv?t erilaisia kuvioita, joita yritykset voivat k?ytt?? tekem??n parempia p??t?ksi?
Toimivan liiketoiminnan kannalta on t?rke?? pysty? tekem??n tietoon perustuvia p??t?ksi?, jotka auttavat leikkaamaan kustannuksia, lis??m??n tuloja tai palvelemaan asiakkaita paremmin.
Tiedonlouhintaa kutsutaan my?s tiedon l?yt?miseksi tai tiedon l?yd?n prosessiksi. Se on kriittinen liiketoimintatiedon alueella datavetoisten p??t?sten tekemiseksi.
Tiedonlouhinta – miten sit? tehd??n?
Tiedonlouhinta on monitieteinen ala, jossa pyrit??n etsim??n syy-seuraussuhteita eri muuttujien kesken. Se on erityisen arvokasta nykyp?iv?n?, kun pyrit??n tutkimaan suuria tietom??ri? eli niin sanottu big dataa.
Tiedonlouhinnan prosessiin kuuluvat seuraavat vaiheet:
- Datan poiminta, muuntaminen ja tallentaminen tietokantaan
- Datan s?ilytt?minen ja hallinta moniulotteisissa tietokannoissa
- Datan tarjoaminen analyytikoille erilaisten ohjelmistojen avulla
- Analysoitujen tietojen esitt?minen helposti ymm?rrett?viss? muodoissa, kuten graafeina.
Tiedonlouhinnan ensimm?inen askel on ker?t? liiketoiminnalle kriittist? tietoa esimerkiksi sen omistamista tietokannoista. Nyky??n tietoa ker?t??n netiss? monista eri l?hteist?, jotka yhdess? muodostavat valtavia m??ri? j?rjestelm?t?nt? tietoa.
Yrityksen data voi olla joko transaktionaalista, operatiivista tai metatietoa. Transaktionaalinen data k?sittelee p?ivitt?isi? toimintoja, kuten myyntej?, varastoja ja kustannuksia. N?m? ovat sin?ns? t?rkeit? ja hyvin tuttuja tapoja ker?t? tietoja liiketoiminnan kohteena olevista kuluttajista.
Operatiivinen data on yleens? ennusteita, kun taas metatieto keskittyy loogiseen tietokannan suunnitteluun. Tietoelementtien v?liset kuviot ja niiden suhteet voivat usein tuottaa olennaista tietoa liiketoimintaprosessien parantamiseksi. Jos jokin liiketoiminnan osa ei toimi optimaalisella tavalla, sit? voidaan tiedonlouhinnan avulla parantaa huomattavasti.
Asiakaskeskeiset organisaatiot k?sittelev?t dataa tarjoamalla selkeit? kuvia myydyist? tuotteista, hinnoista, kilpailusta ja asiakkaista. T?ss? kohdin tiedon oikeanlainen louhinta sek? sen analysoiminen saattaa antaa merkitt?v??kin kilpailuetua kohdemarkkinoilla.
Esimerkiksi v?hitt?iskaupan j?ttil?inen Walmart l?hett?? kaiken olennaisen tiedon tietovarastoon, jossa sill? on k?yt?ss? teratavujen edest? dataa. T?m? data on helposti saatavilla kaikille sen toimitusketjuun osallistuville toimijoille. N?in koko prosessia voidaan muuttaa tehokkaammaksi, kun asiakkaiden k?ytt?ytymisest? saadaan tarkempaa dataa.
Yrityksen toimihenkil?t voivat tuottaa erilaisia kuvioita ostotottumuksista, kuten t?rkeist? p?ivist?, eniten haetuista tuotteista ja muista vastaavanlaisista ilmi?ist?. Juuri t?h?n tiedonlouhintatekniikat tarjoavat arvokkaita ty?kaluja.
Tiedonlouhinnan toinen vaihe on sopivan algoritmin valitseminen – mekanismi, joka tuottaa mallin datan louhimista varten. Algoritmin yleinen toimintaperiaate saattaa perustua trendien tunnistamiseen tai muuhun vastaavaan. Ajan saatossa algoritmeja voidaan my?s kehitt?? entist? paremmiksi, kun niiden toiminnasta saada lis?tietoja.
Tiedonlouhinnassa suosittuja algoritmeja ovat luokittelualgoritmit ja regressioalgoritmit, joita k?ytet??n datan elementtien v?listen suhteiden tunnistamiseen. Suuret tietokantasovellusten toimittajat, kuten Oracle ja SQL, sis?llytt?v?t palveluihinsa tiedonlouhintaan liittyvi? algoritmeja vastatakseen asiakkaiden vaatimuksiin.