Haal meer uit je data met een ETL-tool
De opkomst van big data heeft ervoor gezorgd dat bedrijven enorm veel informatie verzamelen over hun (potentiële) klanten en websitebezoekers. Een van de grootste uitdagingen hierbij is het consolideren van deze data en hier inzichten uit verwerven. Een ETL-tool verzamelt en integreert data uit verschillende bronnen, zodat je er makkelijk mee kan werken.

Wat is een ETL-tool?
Laten we beginnen bij het begin: ETL staat voor Extract, Transform & Load. Een ETL-tool zorgt ervoor dat data uit verschillende datasets wordt geëxporteerd, getransformeerd naar een universele structuur, en ingeladen kan worden in een data-warehouse, een BI-tool of een visualisatietool. Voorbeelden van ETL-tools zijn Funnel en Stitch.
Extract: data ophalen uit verschillende platformen
Stel jezelf de vraag: welke tools of platformen gebruiken wij als bedrijf om te engageren met onze (potentiële) klanten? Vaak komen hier tientallen tools naar boven, die niet communiceren met elkaar.
Tijdens deze fase wordt er een keuze gemaakt uit de datasets die je wil combineren. Dit zou bijvoorbeeld jouw CRM kunnen zijn, samen met Google Analytics-data. De ETL-tool verbindt met beide datasets en gaat de data ophalen, klaar om getransformeerd te worden.
Transform: data omzetten naar een universeel formaat
De volgende stap is het omzetten van de data naar een universeel formaat, zodat er snel en eenvoudig op gerapporteerd kan worden. Er bestaan verschillende transformatietypes, die elk hun meerwaarde hebben:
-
Cleaning: het opkuisen van data, zoals “Man” naar “M” omzetten.
-
Format revision: het omzetten van formaten, vaak gebruikt voor tijd- en datumvelden.
-
Summarisation: de informatie uit verschillende datasets, zoals bijvoorbeeld online en offline omzet, samenvoegen.
-
Derivation: business rules toepassen op bestaande statistieken, om bijvoorbeeld de omzet zonder BTW te berekenen.
Afhankelijk van de noden van jouw bedrijf kunnen deze transformatietechnieken worden toegepast, om zo de data klaar te maken voor de volgende fase.
Load: verzamelde data inladen
De laatste stap is het inladen van de data in een bepaalde tool. Zoals eerder aangehaald kan dat een data-warehouse, BI-tool of visualisatietool zijn. Dat hangt af van wat je bereiken met de geaggregeerde datasets.
Hou er rekening mee dat het inladen van data tijd kost, zeker als je heel je database opnieuw gaat opbouwen. Het is daarom aan te raden om voor een incrementele load te kiezen. Dat betekent dat de ETL-tool eerst checkt welke data hij al heeft, waarna hij enkel de nieuwe data gaat ophalen.

Uitdagingen van ETL
Terwijl ETL een relatief gemakkelijke oplossing lijkt voor jouw bedrijfsnoden, is dat in de praktijk vaak niet het geval. Er zijn verschillende zaken waardoor jouw ETL-project vertraging kan oplopen, of boven budget kan uitkomen:
Onderhoud op lange termijn
Naarmate je meer data gaat verzamelen via nieuwe tools, zullen er nieuwe connecties moeten gelegd worden. Het vergt tijd om deze nieuwe verbindingen met jouw bestaande datasets te integreren en die integratie moet grondig getest worden.
Het onderhoud van deze connecties wordt vaak onderschat, en kan ervoor zorgen dat je project vertraging oploopt. Voorzie daarom voldoende ruimte (zowel planningsgewijs als budgettair) voor het onderhoud van de bestaande connecties.
Schaalbaarheid
Hoe meer jouw bedrijf afhankelijk wordt van data, hoe meer data er door een ETL-tool moet verwerkt worden. Als de infrastructuur hier niet op voorzien is, moet die volledig worden herzien. Hou er dus rekening mee dat jouw ETL-tool schaalbaar moet zijn.
Transformatie naar een data-driven bedrijf
In elk bedrijf zal er ooit de realisatie komen dat het ad hoc samenvoegen van datasets geen structurele oplossing is. Vooraleer er een ETL-tool kan aangekocht worden, moet er gekeken worden naar de huidige en toekomstige noden van het bedrijf.
-
Waar kunnen de interne bedrijfsprocessen geoptimaliseerd worden?
-
Hoe kunnen we tijd vrijmaken bij bepaalde afdelingen die zich baseren op data?
-
Waar lopen interne processen vaak vertraging op door een tekort aan inzichten?
Een ETL-infrastructuur opzetten
De volgende stap is het opzetten van jouw ETL-infrastructuur. Hou hierbij rekening met onderstaande zaken:
-
Welke informatie moet er opgehaald worden? Waar bevindt de data zich momenteel?
-
Waar gaat mijn data ingeladen worden, en door welke personen zal ze gebruikt worden?
-
Hoe vaak moet mijn data geüpdatet worden? Moet dit in realtime gebeuren, of is een wekelijkse update voldoende?
Hou er zeker rekening mee dat de huidige infrastructuur in de toekomst uitgebreid moet kunnen worden. Het zou zonde zijn om een serieus kapitaal te investeren, om dan een jaar later tot het besef te komen dat de huidige oplossing niet meer voldoet.
Het ETL-proces managen
De laatste stap is het managen van het hele proces. De data die wordt ingeladen moet zo accuraat mogelijk zijn, en heeft dus enkele mechanismen nodig om ervoor te zorgen dat de instroom van data blijft lopen.
Richt hiervoor een monitoringsysteem in, zodat fouten in het proces opgespoord kunnen worden. Nadat er een fout ontdekt wordt, is het cruciaal om terug te kunnen schakelen naar een correcte versie van de data. Om fouten te voorkomen, kan het handig zijn om op regelmatige basis de data te testen op accuraatheid.
Kort samengevat
ETL staat voor Extract, Transform & Load. Een ETL-tool zorgt ervoor dat data uit verschillende datasets wordt geëxporteerd, getransformeerd naar een universele structuur, en ingeladen kan worden in een data-warehouse, een BI-tool of een visualisatietool.
Er bestaan verschillende transformatietypes: cleaning, format revision, summarisation en derivation.
Er zijn verschillende zaken waardoor jouw ETL-project vertraging kan oplopen, of boven budget kan uitkomen, namelijk onderhoud op lange termijn en schaalbaarheid.
Als je een ETL-infrastructuur wil opzetten moet je rekening houden met waar de data zich op dit moment bevindt, waar ze ingeladen gaat worden en hoe vaak ze geüpdatet moet worden.