Elke dag maken we met elkaar 2,5 triljoen bytes aan gegevens. Een triljoen is een miljoen tot de 3e macht, dus 1.000.000.000.000.000.000. Iedereen heeft een eigen definitie van Big Data, maar ik denk dat we met zijn allen wel kunnen concluderen dat deze enorme set van diverse gegevens Big Data genoemd mag worden.

Vrijwel iedereen heeft het tegenwoordig over Big Data. Het is een hot topic waar iedereen graag over mee wil praten. Op internet en bij vrijwel ieder congres wordt er gesproken over succesverhalen (en mislukkingen). Hierdoor zijn er in de loop van tijd mythes over dit onderwerp ontstaan. Hieronder zal ik enkele van deze mythes toelichten.

 

MYTHE 1: BIG DATA APPLICATIES ZIJN OP ZICHZELF STAAND

Niet waar. Big Data applicaties bevatten uiteraard veel diverse gegevens, maar even zo belangrijk (en misschien nog wel belangrijker) zijn de analytische tools die gebruikt kunnen worden om de data te visualiseren en ook daadwerkelijk nuttige informatie uit deze bak met gegevens te halen. De kunst is om het signaal uit het geluid te halen en daar is meer voor nodig dan alleen een grote database. Aorta Business Intelligence biedt diverse analytische tools om het signaal uit het geluid te filteren.

Daarnaast is het belangrijk om Big Data te combineren met je bestaande gemodelleerde data in je data warehouse. Het is leuk en interessant om te grasduinen op Big Data, maar als je de informatie uit deze enorme data set niet kunt relateren aan je eigen situatie (lees eigen gemodelleerde data) dan is de waarde van deze informatie een stuk beperkter.

Een voorbeeld:
Elke dag verzamelen verschillende bedrijven, zoals het KNMI gegevens over het weer. Verschillende meetpunten verspreid over het land registreren elke milliseconde de temperatuur. Al deze gegevens bij elkaar kunnen we Big Data noemen.

Kledingwinkels kunnen veel informatie uit deze Big Data bron halen. Stel je eens voor dat je een kledingwinkel hebt en een Business Intelligence applicatie die in de tijd laat zien wat de verkopen zijn. Het is voor deze kledingwinkel, en voor elke andere winkel, belangrijk om te kunnen verklaren waarom dat bepaalde dingen gebeuren. Als we weerinformatie en verkoopinformatie combineren kunnen we misschien beter verklaren, waarom we in bepaalde tijden meer of minder verkopen en kunnen we hier in de toekomst op anticiperen.

We kunnen zelfs nog een stap verder gaan en statistiek gebruiken om de personeelsplanning en de voorraad te optimaliseren op basis van de weer- en verkoopinformatie.

“De kunst is om het signaal uit het geluid te halen”

 

MYTHE 2: DE ENIGE NIEUWE BEGROTINGSPOSTEN ZIJN HARDWARE EN SOFTWARE

Niet waar. Natuurlijk is het belangrijk om rekening te houden met de hardware en software. Plan altijd vooruit en houdt rekening met grotere hoeveelheden data. Pas hier het geheugen, CPU, opslag enzovoorts op aan.

De techniek is niet het probleem. Er zijn genoeg tools om Big Data bronnen te ontsluiten, op te slaan, te beheren en te visualiseren. De uitdaging is om de juiste mensen met goed analytisch denkvermogen achter de knoppen te zetten. Het ontsluiten, opslaan van data en het visualiseren is belangrijk, maar als je er vervolgens de verkeerde mensen achter zet zal er geen nuttige informatie uit komen. Schakel daarom nooit je hersens uit door te denken “De tool geeft mij het antwoord wel”. Zo werkt het helaas niet… 

“Schakel nooit je hersens uit”

 

MYTHE 3: BIG DATA APPLICATIES HEBBEN GEEN OF WEINIG PERFORMANCE TUNING NODIG

Niet waar. Ja, Big Data applicaties worden verkocht als extreem snel. De belofte van de techniek is om snel en eenvoudig grote hoeveelheden data te analyseren. Deze belofte wordt vaak waargemaakt, maar dat betekent niet dat er nooit geen optimalisatie nodig is.

De sleutel tot Big Data prestaties ligt in de gegevens zelf. Hoe meer gegevens nodig zijn om je business vragen te beantwoorden, hoe meer optimalisatie nodig is om de performance goed te houden. Hetzelfde geldt voor het aantal Big Data bronnen. Hoe meer bronnen je nodig hebt, hoe meer optimalisatie gewenst is.

Een andere uitdaging is het bulk laden van gegevens in de Big Data applicatie. Wanneer de hoeveelheid data toeneemt, zullen ook de laadtijden toenemen. Dit is uiterst I/O intensief en ook hier zal rekening mee gehouden moeten worden.

Als laatste zullen query’s altijd geoptimaliseerd moeten worden. Zeker bij grote hoeveelheden complexe en diverse data sets is het belangrijk om de query’s zo compact mogelijk te maken om de performance goed te houden.

 

SAMENVATTING

Big Data applicaties bestaan niet in een vacuüm. Om de maximale waarde uit Big Data te halen is het belangrijk om de gegevens te combineren met je gemodelleerde data uit je data warehouse om zo meer context te geven aan het eindresultaat. Zet de juiste mensen achter de tools en laat ze altijd hun hersens gebruiken.

De techniek zal nooit met het juiste antwoord komen. Dat zal je altijd nog zelf moeten vinden.