Wat zijn Big Data?
Big data is een overkoepelende term die wordt gebruikt om extreem grote datasets te beschrijven die moeilijk te verwerken en analyseren zijn in een redelijke hoeveelheid tijd met behulp van traditionele methoden.
Big data bestaat uit gestructureerde, ongestructureerde en semigestructureerde gegevens. Het wordt formeel gekarakteriseerd door de vijf V’s: volume, snelheid, verscheidenheid, waarheidsgetrouwheid en waarde.
- Volume beschrijft de enorme schaal en grootte van datasets die terabytes, petabytes of exabytes aan gegevens bevatten.
- Snelheid beschrijft de hoge snelheid waarmee enorme hoeveelheden nieuwe gegevens worden gegenereerd.
- Verscheidenheid beschrijft het brede assortiment van datatypes en -formaten die worden gegenereerd.
- Waarheidsbevinding beschrijft de kwaliteit en integriteit van de gegevens in een extreem grote dataset.
- Waarde beschrijft het vermogen van de gegevens om te worden omgezet in bruikbare inzichten.
Voorbeelden
Big data is afkomstig van een grote verscheidenheid aan bronnen in verschillende branches en domeinen. Hieronder staan enkele voorbeelden van bronnen voor grote datasets en de soorten gegevens die ze bevatten.
Big Data Bron | Beschrijving |
Klantgegevens | Gegevens verzameld via CRM-systemen, waaronder klantprofielen, verkoopgegevens en interacties met klanten. |
E-commerce transacties | Gegevens gegenereerd door online retailplatforms, waaronder bestellingen van klanten, productgegevens, betalingsinformatie en beoordelingen van klanten. |
Financi?le transacties | Gegevens verkregen uit banksystemen, creditcardtransacties, aandelenmarkten en andere financi?le platforms. |
Overheids- en publieke gegevens | Gegevens van overheidsinstanties, volkstellingsgegevens, gegevens over openbaar vervoer en weergegevens. |
Gezondheids- en medische dossiers | Gegevens uit elektronische pati?ntendossiers (EHR’s), medische beeldvorming, draagbare gezondheidsapparatuur, klinische proeven en pati?ntmonitoringsystemen. |
Apparaten voor het Internet of Things (IoT) | Gegevens verzameld van verschillende IoT-apparaten zoals intelligente sensoren, slimme apparaten, draagbare apparaten en aangesloten voertuigen. |
Onderzoek en wetenschappelijke gegevens | Gegevens van onderzoeksexperimenten, academische studies, wetenschappelijke observaties, digital twin simulaties en genomic sequencing. |
Sensornetwerken | Gegevens verzameld van omgevingssensoren, industri?le machines, verkeerscontrolesystemen en andere draadloze sensornetwerken. |
Sociale mediaplatformen | Gegevens gegenereerd door sociale mediaplatforms zoals Facebook, Twitter, Instagram en LinkedIn, waaronder berichten, opmerkingen, ‘vind ik leuk’-berichten, shares en gebruikersprofielen. |
Web- en mobiele toepassingen | Gegevens die door gebruikers worden geproduceerd tijdens interactie met websites, mobiele apps en online diensten, waaronder klikken, paginaweergaves en gebruikersgedrag. |
Het Belang
Big data is belangrijk omdat het patronen, trends en andere inzichten kan onthullen die kunnen worden gebruikt om datagestuurde beslissingen te nemen.
Vanuit een zakelijk perspectief helpt big data organisaties om de operationele effici?ntie te verbeteren en middelen te optimaliseren. Door bijvoorbeeld grote datasets te comgineren en te gebruiken om klantgedrag en markttrends te analyseren, kan een e-commercebedrijf beslissingen nemen die leiden tot meer klanttevredenheid, loyaliteit en, uiteindelijk, inkomsten.
Vooruitgang in open-source tools die grote datasets kunnen opslaan en verwerken hebben big data analytics aanzienlijk verbeterd. De actieve gemeenschappen van Apache, bijvoorbeeld, hebben het vaak makkelijker gemaakt voor nieuwkomers om big data te gebruiken om echte problemen op te lossen.
Soorten Big Data
Big Data kan worden onderverdeeld in drie hoofdtypen: gestructureerde, ongestructureerde en semigestructureerde gegevens.
- Gestructureerde big data: Deze zijn sterk georganiseerd en volgen een vooraf gedefinieerd schema of formaat. Ze worden meestal opgeslagen in spreadsheets of relationele databases. Elk gegevenselement heeft een specifiek gegevenstype en is gekoppeld aan vooraf gedefinieerde velden en tabellen. Gestructureerde gegevens worden gekenmerkt door hun consistentie en uniformiteit, waardoor ze gemakkelijker kunnen worden opgevraagd, geanalyseerd en verwerkt met traditionele databasemanagementsystemen.
- Ongestructureerde big data: Deze hebben geen vooraf gedefinieerde structuur en kunnen al dan niet duidelijke relaties leggen tussen verschillende gegevensentiteiten. Het identificeren van patronen, sentimenten, relaties en relevante informatie in ongestructureerde gegevens vereist meestal geavanceerde AI-tools zoals Natural Language Processing (NLP), begrijpen van Natural Language Understanding (NLU) en computervisie.
- Semigestructureerde big data: bevat elementen van zowel gestructureerde als ongestructureerde gegevens. Ze hebben een gedeeltelijke organisatiestructuur, zoals XML- of JSON-bestanden, en kunnen logbestanden, sensorgegevens met tijdstempels en metagegevens bevatten.
In de meeste gevallen zijn de gegevens van een organisatie een mix van alle drie de gegevenstypen. Een grote dataset voor een e-commerce leverancier kan bijvoorbeeld gestructureerde data bevatten van klantdemografische gegevens en transactiegegevens, ongestructureerde data van feedback van klanten op sociale media en semigestructureerde data van interne e-mailcommunicatie.
Uitdagingen
De evolutie van big data sinds het begin van deze eeuw is een achtbaanrit van uitdagingen gevolgd door oplossingen.
In het begin was een van de grootste problemen met de enorme hoeveelheden gegevens die op internet werden gegenereerd, dat traditionele databasemanagementsystemen niet waren ontworpen om de enorme hoeveelheid gegevens op te slaan die bedrijven produceerden toen ze digitaal gingen werken.
Rond dezelfde tijd werd de verscheidenheid aan gegevens een aanzienlijke uitdaging. Naast de traditionele gestructureerde gegevens, introduceerden sociale media en het IoT semi-gestructureerde en ongestructureerde gegevens. Als gevolg daarvan moesten bedrijven manieren vinden om deze gevarieerde datatypes effici?nt te verwerken en analyseren, nog een taak waarvoor traditionele tools niet geschikt waren.
Naarmate de hoeveelheid gegevens toenam, groeide ook de hoeveelheid onjuiste, inconsistente of onvolledige informatie.
Het duurde niet lang voordat de nieuwe toepassingen van extreem grote datasets een aantal nieuwe vragen opriepen over dataprivacy en informatiebeveiliging. Organisaties moesten transparanter zijn over welke gegevens ze verzamelden, hoe ze die beschermden en hoe ze die gebruikten.
Ongelijksoortige datatypes moeten meestal worden gecombineerd tot één consistent formaat voor data-analyse. De verscheidenheid aan datatypes en -formaten in grote semi-gestructureerde datasets vormt nog steeds een uitdaging voor data-integratie, -analyse en -interpretatie.
Een bedrijf moet bijvoorbeeld gegevens uit een traditionele relationele database (gestructureerde gegevens) combineren met gegevens uit berichten op sociale media (ongestructureerde gegevens). Het proces om deze twee soorten gegevens om te zetten in een uniform formaat dat kan worden gebruikt voor analyse kan tijdrovend en technisch moeilijk zijn.
De vooruitgang op het gebied van machine learning (ML) en kunstmatige intelligentie (AI) heeft geholpen om veel van deze uitdagingen aan te pakken, maar ze zijn niet zonder hun eigen problemen.
Tools voor Big Data
Om met grote datasets om te gaan die een mix van datatypes bevatten, zijn gespecialiseerde tools en technieken nodig die op maat gemaakt zijn voor het verwerken van diverse dataformaten en gedistribueerde datastructuren. Populaire tools zijn onder andere:
Azure Data Lake: Een cloudservice van Microsoft die bekend staat om het vereenvoudigen van de complexiteit van het opnemen en opslaan van enorme hoeveelheden gegevens.
Beam: Een open-source uniform programmeermodel en een set API’s voor batch- en streamverwerking binnen verschillende big data frameworks.
Cassandra: Een open-source, zeer schaalbare, gedistribueerde NoSQL-database die is ontworpen voor het verwerken van enorme hoeveelheden gegevens op meerdere servers.
Databricks: Een uniform analyseplatform dat datatechniek en datawetenschap combineert voor het verwerken en analyseren van enorme datasets.
Elasticsearch: Een zoek- en analyse-engine die snel en schaalbaar zoeken, indexeren en analyseren van extreem grote datasets mogelijk maakt.
Google Cloud: Een verzameling van big data tools en services aangeboden door Google Cloud, zoals Google BigQuery en Google Cloud Dataflow.
Hadoop: Een veelgebruikt open-source framework voor het verwerken en opslaan van extreem grote datasets in een gedistribueerde omgeving.
Hive: Een open-source tool voor datawarehousing en SQL-achtige query’s die bovenop Hadoop draait om query’s en analyses van grote datasets te vergemakkelijken.
Kafka: Een open-source gedistribueerd streaming platform dat real-time gegevensverwerking en messaging mogelijk maakt.
KNIME Big Data Extensions: Integreert de kracht van Apache Hadoop en Apache Spark met KNIME Analytics Platform en KNIME Server.
MongoDB: Een documentgeori?nteerde NoSQL-database die hoge prestaties en schaalbaarheid biedt voor big data-toepassingen.
Pig: Een open-source high-level dataflow scripttaal en executieraamwerk voor het verwerken en analyseren van grote datasets.
Redshift: Amazons volledig beheerde dataopslagdienst op petabyte-schaal.
Spark: Een open-source gegevensverwerkingsengine die snelle en flexibele analyse- en gegevensverwerkingsmogelijkheden biedt voor extreem grote datasets.
Splunk: Een platform voor het zoeken, analyseren en visualiseren van door machines gegenereerde gegevens, zoals logbestanden en gebeurtenissen.
Tableau: Een krachtige tool voor datavisualisatie waarmee gebruikers inzichten uit grote datasets kunnen verkennen en presenteren.
Talend: Een open-source tool voor data-integratie en ETL (Extract, Transform, Load) die de integratie en verwerking van extreem grote datasets vergemakkelijkt.
Big Data en AI
Big Data is nauw verbonden met de vooruitgang in kunstmatige intelligentie zoals generatieve AI omdat tot voor kort AI-modellen gevoed moesten worden met enorme hoeveelheden trainingsgegevens zodat ze konden leren hoe ze patronen moesten detecteren en accurate voorspellingen konden doen.
In het verleden was het axioma “Big data is voor machines. Small data is voor mensen.” werd vaak gebruikt om het verschil tussen big data en small data te beschrijven, maar die analogie gaat niet langer op. Naarmate AI- en ML-technologie?n zich blijven ontwikkelen, neemt de behoefte aan big data om sommige soorten AI- en ML-modellen te trainen af, vooral in situaties waarin het verzamelen en beheren van big data sets tijdrovend en duur is.
In veel praktijkscenario’s is het niet haalbaar om grote hoeveelheden gegevens te verzamelen voor elke mogelijke klasse of elk mogelijk concept dat een model kan tegenkomen. Daarom is er een trend om modellen op basis van big data te gebruiken voor pre-training en kleine datasets om ze te verfijnen.
De verschuiving van big data naar het gebruik van kleine data om AI- en ML-modellen te trainen wordt gedreven door verschillende technologische ontwikkelingen, waaronder transfer learning en de ontwikkeling van zero-shot, one-shot en few-shot leermodellen.