16 december 2021
Data warehouses en data lakes zijn beide data repositories, ontworpen voor het onderbrengen van grote hoeveelheden data die traditionele relationele databases niet aankunnen, maar ze verschillen in
vijf hoofdgebieden. In dit gedeelte zullen we de verschillen uitleggen, maar welke past het beste bij uw behoeften? Laat het ons weten!
1. Gegevenstypen
Data warehouses slaan gestructureerde procesgegevens op uit een beperkt aantal specifieke bronnen, zoals transactionele systemen, operationele databases en applicaties. Data lakes slaan zowel
gestructureerde en ongestructureerde gegevens uit meer bronnen, waaronder sensoren, websites, bedrijfsapps en mobiele apps.
2. Doel.
Data warehouses slaan gegevens op die klaar zijn voor analyse, zoals in business intelligence, batch reporting en data visualisatie.
Zeer geschikt voor gebruikers met beperkte technische kennis. Data lakes slaan big data analytics op voor machine learning, predictive analytics en data discovery, een goede pasvorm voor
data wetenschappers en analytics experts.
3. Vastleggen van gegevens.
Magazijnen verzamelen gegevens uit meerdere relationele bronnen, terwijl "lakes" gegevens verzamelen uit meerdere bronnen die verschillende vormen van gegevens bevatten.
4. Normalisatie van de gegevens.
Zowel data warehouses als lakes gebruiken gedenormaliseerde schema's. Warehouses gebruiken echter schema on right, terwijl lakes schema on read gebruiken. Schema on write is hun
traditionele "one size fits all"-aanpak, maar gegevens worden steeds meer gedeeld tussen mensen met verschillende rollen en belangen. Er wordt meer nadruk gelegd op de
flexibeler schema bij lezen.
5. Voordelen.
Data warehouses slaan historische gegevens uit vele bronnen op één plaats op, en gegevens worden geclassificeerd met de gebruiker in gedachten voor toegankelijkheidgemak. Data lakes bewaren gegevens in hun
native formaat, wat datawetenschappers flexibiliteit biedt bij data-analyse en modelontwikkeling.