Data lakes | Espen Langbråten, Chief Data Officer Europris | ------------------------------------------------+ espen.langbraten@europris.no Datavarehus BI Data Mart ETL Star Schema Normalisering/denormalisering SQL NoSQL ... +-------------------------------+ | Hemmeligheten bak data lakes | | | | Aldri om teknologi | | Alltid om arkitektur | +-------------------------------+ Data lake er IKKE et datavarehus Gartner IT Glossary = zzz Hovedgrunnen til data varehus = En kilde til sannheten. Schema on write: Strengt dataformat for å legge til info Denormalized data: Denormalisert fra en normalisert datamodell Preaggregering: Man vil ofte preaggregere noe av data det er spurt ofte på Laget for rapportering: Alt for å få fancy rapporter å gi til management --------------------------------- Data Mart Database med metadata som omhandler produktene. -------------------------------- Ord laget av James Dixon (CTO, Pentho) Motpost mot Data Mart. -------------------------------- Konsulenthusene & rådgiverhusene slo seg på trenden Big data En eksplosjon av buzz words og feilaktie definishoner av big data, data lakes og digitalisering Ekstremt tech fokus. -------------------------------- Big data er de store mengdene med data som man kan lagre (før var lagring dyrt) BIG DATA ER BARE DATA IBM (2017): 90% av alle data som finnes, er laget de siste 2 år. -------------------------------- V³ - Variety - Volume - Velocity V⁵ - Veracity - Value - Volume - Variety - Velocity Volume er ikke viktig Variety er viktig Velocity er også viktig Value er øverste prioritet ERP \ / Grafer og annet ledelsen Sys X -+----- Staging ----- Datavarehus -----+- Relex Sys Y / \ Nettside Datalakes er bare glorifiserte staging områder JSON og lignende er dominerende når det kommer til API Datalake er et system eller repo med rådata, gjerne rotete og vanskelig å strukturere. Alt. ERP, video, bilder, weblogger, etc. Yellow elephant - Hadoop er programmet som gjør det alt mulig å sortere disse data i nær sanntid Hadoop er et filsystem, distribuert. Lagret instantly, og duplisert over clusteret. Skriv og les - lynraskt Data lake blir fort data swamp Bruk gode rettningslinjer for å strukturere input Ikke ta en "kjekt å ha" Bruk robust arkitektur ALLTID LETTERE Å LEGGE TIL ENN Å FJERNE -------------------------------- Europris: struktur Butikk og Grossist Kundeklubb: Customer info Loyalty Basket analysis Det store bildet: Unike online og offline tilbud på handlingsmønster