Wat is een dataset?
Een dataset is een gestructureerde verzameling gegevenspunten met betrekking tot een bepaald onderwerp. Een verzameling gerelateerde datasets wordt een database genoemd.
Gegevenssets kunnen in tabelvorm of niet in tabelvorm voorkomen. Gegevenssets in tabelvorm bevatten gestructureerde gegevens die zijn georganiseerd door rijen en kolommen. Datasets zonder tabellen bevatten ongestructureerde gegevens tussen haakjes.
Gegevenssets kunnen ook worden gecategoriseerd op basis van het type informatie dat ze bevatten. Populaire soorten datasets zijn onder andere:
- Numeriek – gegevens worden uitgedrukt in getallen en niet in natuurlijke taal.
- Bivariaat – bevat twee soorten verwante gegevens.
- Multivariaat – bevat drie of meer dan drie typen verwante gegevens.
- Categorisch – gegevensvariabelen kunnen een of twee waarden hebben.
- Correlatie – waarden in de gegevensreeks hebben een relatie met elkaar.
Techopedia verklaart dataset
In de computerwereld is de term dataset ontstaan bij IBM mainframes, waar de betekenis vergelijkbaar was met die van bestand. Tegenwoordig wordt de term vaak geassocieerd met big data analytics, machine learning (ML) en kunstmatige intelligentie (AI).
Machine learning
Er zijn grote datasets nodig om algoritmen voor machine learning te trainen. Na de initi?le training worden aanvullende datasets gebruikt om te controleren op overfitting en om het vermogen van het model om nieuwe gegevens nauwkeurig te interpreteren te valideren.
Datasets voor het trainen van algoritmen voor machine learning kunnen intern worden gemaakt of worden verkregen uit een datasetarchief. Als er geen grote datasets beschikbaar zijn, kunnen datawetenschappers kleinere datasets gebruiken die door middel van willekeurige steekproeven zijn gemaakt.
Gemiddelde, mediaan, modus
De labels gemiddelde, mediaan en modus zijn metingen van de centrale tendens van een dataset. Het concept van centrale tendens is om de inhoud van een grote dataset weer te geven met een enkele waarde die de middelste verdeling van de dataset aangeeft.
Het gemiddelde wordt gevonden door alle getallen in de gegevensreeks op te tellen en de som te delen door het aantal waarden in de reeks. De mediaan is de middelste waarde van een gegevensverzameling die is gerangschikt van minst naar hoogst. De modus is het getal dat het vaakst voorkomt in een gegevensreeks.