113 lines
2.5 KiB
Plaintext
113 lines
2.5 KiB
Plaintext
Data lakes |
|
|
Espen Langbråten, Chief Data Officer Europris |
|
|
------------------------------------------------+
|
|
espen.langbraten@europris.no
|
|
|
|
Datavarehus
|
|
BI
|
|
Data Mart
|
|
ETL
|
|
Star Schema
|
|
Normalisering/denormalisering
|
|
SQL
|
|
NoSQL
|
|
...
|
|
|
|
+-------------------------------+
|
|
| Hemmeligheten bak data lakes |
|
|
| |
|
|
| Aldri om teknologi |
|
|
| Alltid om arkitektur |
|
|
+-------------------------------+
|
|
|
|
Data lake er IKKE et datavarehus
|
|
|
|
Gartner IT Glossary = zzz
|
|
|
|
Hovedgrunnen til data varehus = En kilde til sannheten.
|
|
|
|
Schema on write: Strengt dataformat for å legge til info
|
|
Denormalized data: Denormalisert fra en normalisert datamodell
|
|
Preaggregering: Man vil ofte preaggregere noe av data det er spurt ofte på
|
|
Laget for rapportering: Alt for å få fancy rapporter å gi til management
|
|
|
|
---------------------------------
|
|
|
|
Data Mart
|
|
|
|
Database med metadata som omhandler produktene.
|
|
|
|
--------------------------------
|
|
|
|
Ord laget av James Dixon (CTO, Pentho)
|
|
|
|
Motpost mot Data Mart.
|
|
|
|
--------------------------------
|
|
|
|
Konsulenthusene & rådgiverhusene slo seg på trenden
|
|
|
|
Big data
|
|
|
|
En eksplosjon av buzz words og feilaktie definishoner av big data, data lakes og digitalisering
|
|
|
|
Ekstremt tech fokus.
|
|
|
|
--------------------------------
|
|
|
|
Big data er de store mengdene med data som man kan lagre (før var lagring dyrt)
|
|
|
|
BIG DATA ER BARE DATA
|
|
|
|
IBM (2017): 90% av alle data som finnes, er laget de siste 2 år.
|
|
|
|
--------------------------------
|
|
|
|
V³ - Variety - Volume - Velocity
|
|
V⁵ - Veracity - Value - Volume - Variety - Velocity
|
|
|
|
Volume er ikke viktig
|
|
Variety er viktig
|
|
Velocity er også viktig
|
|
Value er øverste prioritet
|
|
|
|
ERP \ / Grafer og annet ledelsen
|
|
Sys X -+----- Staging ----- Datavarehus -----+- Relex
|
|
Sys Y / \ Nettside
|
|
|
|
|
|
Datalakes er bare glorifiserte staging områder
|
|
|
|
|
|
JSON og lignende er dominerende når det kommer til API
|
|
|
|
Datalake er et system eller repo med rådata, gjerne rotete og vanskelig å strukturere.
|
|
Alt. ERP, video, bilder, weblogger, etc.
|
|
Yellow elephant - Hadoop er programmet som gjør det alt mulig å sortere disse data i nær sanntid
|
|
|
|
Hadoop er et filsystem, distribuert.
|
|
Lagret instantly, og duplisert over clusteret.
|
|
Skriv og les - lynraskt
|
|
|
|
Data lake blir fort data swamp
|
|
Bruk gode rettningslinjer for å strukturere input
|
|
Ikke ta en "kjekt å ha"
|
|
Bruk robust arkitektur
|
|
|
|
ALLTID LETTERE Å LEGGE TIL ENN Å FJERNE
|
|
|
|
--------------------------------
|
|
|
|
Europris: struktur
|
|
|
|
Butikk og Grossist
|
|
|
|
Kundeklubb:
|
|
Customer info
|
|
Loyalty
|
|
Basket analysis
|
|
|
|
Det store bildet:
|
|
Unike online og offline tilbud på handlingsmønster
|
|
|