it-og-informasjonssystemer/IS-100/2019-10-21.E.Langbråten.txt

113 lines
2.5 KiB
Plaintext

Data lakes |
Espen Langbråten, Chief Data Officer Europris |
------------------------------------------------+
espen.langbraten@europris.no
Datavarehus
BI
Data Mart
ETL
Star Schema
Normalisering/denormalisering
SQL
NoSQL
...
+-------------------------------+
| Hemmeligheten bak data lakes |
| |
| Aldri om teknologi |
| Alltid om arkitektur |
+-------------------------------+
Data lake er IKKE et datavarehus
Gartner IT Glossary = zzz
Hovedgrunnen til data varehus = En kilde til sannheten.
Schema on write: Strengt dataformat for å legge til info
Denormalized data: Denormalisert fra en normalisert datamodell
Preaggregering: Man vil ofte preaggregere noe av data det er spurt ofte på
Laget for rapportering: Alt for å få fancy rapporter å gi til management
---------------------------------
Data Mart
Database med metadata som omhandler produktene.
--------------------------------
Ord laget av James Dixon (CTO, Pentho)
Motpost mot Data Mart.
--------------------------------
Konsulenthusene & rådgiverhusene slo seg på trenden
Big data
En eksplosjon av buzz words og feilaktie definishoner av big data, data lakes og digitalisering
Ekstremt tech fokus.
--------------------------------
Big data er de store mengdene med data som man kan lagre (før var lagring dyrt)
BIG DATA ER BARE DATA
IBM (2017): 90% av alle data som finnes, er laget de siste 2 år.
--------------------------------
V³ - Variety - Volume - Velocity
V⁵ - Veracity - Value - Volume - Variety - Velocity
Volume er ikke viktig
Variety er viktig
Velocity er også viktig
Value er øverste prioritet
ERP \ / Grafer og annet ledelsen
Sys X -+----- Staging ----- Datavarehus -----+- Relex
Sys Y / \ Nettside
Datalakes er bare glorifiserte staging områder
JSON og lignende er dominerende når det kommer til API
Datalake er et system eller repo med rådata, gjerne rotete og vanskelig å strukturere.
Alt. ERP, video, bilder, weblogger, etc.
Yellow elephant - Hadoop er programmet som gjør det alt mulig å sortere disse data i nær sanntid
Hadoop er et filsystem, distribuert.
Lagret instantly, og duplisert over clusteret.
Skriv og les - lynraskt
Data lake blir fort data swamp
Bruk gode rettningslinjer for å strukturere input
Ikke ta en "kjekt å ha"
Bruk robust arkitektur
ALLTID LETTERE Å LEGGE TIL ENN Å FJERNE
--------------------------------
Europris: struktur
Butikk og Grossist
Kundeklubb:
Customer info
Loyalty
Basket analysis
Det store bildet:
Unike online og offline tilbud på handlingsmønster