Frans Drijver is Technical Director en BI architect bij Inergy, het bedrijf waar hij al bijna veertien jaar werkt. Hij heeft de data en analytics wereld zien verschuiven van on-premise naar de cloud en daarmee ook de mogelijkheden zien toenemen. Er is in de cloud (bijna) oneindige schaalbaarheid, lage onderhoudskosten en steeds weer nieuwe gave concepten. In dit interview legt Frans uit waarom hij een fan is van Snowflake.
Wat is Snowflake?
Het Snowflake dataplatform is speciaal gebouwd voor de cloud en toonaangevend in zijn soort. Snowflake draait op Microsoft Azure, Amazon Web Services en Google Cloud Platform. Frans: “Inergy biedt volledig beheer aan op het datawarehouse en de applicaties. Wij garanderen dat de informatie die het datawarehouse aanlevert beschikbaar en accuraat is. Zo weet jij als klant dat je ook echt blind kan varen op de managementinformatie die het datawarehouse ter beschikking stelt.”
Wanneer kwam je voor het eerst in aanraking met Snowflake?
“Het eerste dat ik met Snowflake heb gedaan, was het uitvoeren van een proof-of-concept voor een klant van Inergy. Het doel van deze klant was om meer inzicht te krijgen in het koopgedrag van hun klanten. Het gaat dan al snel om miljoenen records die je als input kan gebruiken. In dit specifieke geval ging het om kassabonnen in XML-formaat.”
“Ik heb gekeken of het laden van deze miljoenen bonnen mogelijk was en hoe deze te bevragen waren via SQL. Het laden bleek zoals verwacht geen probleem vanwege de hoge performance van Snowflake. Het laden van 10 miljoen bonnen kostte maar enkele minuten. Dat had ik nog niet eerder zo snel gezien.”
“Dat je geen aparte, veelal complexe software meer nodig hebt om de XML-kassabonnen te veranderen in een helder tabelformaat is echt super uniek. Je bent dus veel flexibeler. Je kan data in Snowflake laten landen ongeacht de structuur. Dat geeft optimale flexibiliteit. Wil je later nog een veldje toevoegen, dan zijn de impact en de kosten veel lager. Dus de time to market voor informatieproducten is veel korter dan bij andere technologieën.”
Whitepaper
Referentiearchitectuur data- en analyticsplatform met Snowflake
In deze whitepaper bespreken we de aandachtspunten rondom het inrichten van een dataplatform met Snowflake. Wat wil je uit het dataplatform halen? Wat wil je er vervolgens mee doen? Wij helpen je graag op weg.
Was je meteen enthousiast?
“Ja! Ik heb al heel wat databases van dichtbij gezien in mijn carrière, maar Snowflake voelde gelijk anders.”
Waarom voelde het dan zo anders?
“Ten eerste de scheiding tussen storage (de opslag van je data) en compute (de rekenkracht om die data te bewerken en te bevragen). Snowflake heeft daardoor een heel slim afrekenmodel: je betaalt nooit te veel, maar alleen voor de werkelijk gebruikte rekenkracht. Je kan gemakkelijk opschalen als het moet, bijvoorbeeld bij zware workloads, en het systeem kan gewoon “uit” als er geen activiteit is. Maar je data blijft op disk. Normaal als je een server uit zet ben je de data kwijt. Bij Snowflake is dat niet zo. Data blijft altijd beschikbaar. Superslim!”
Wat is er nog meer uniek aan Snowflake?
“Cloning en time travel. Met cloning maak je gemakkelijk een kopie van een tabel (of een ander database-object), zonder impact op de rest van het systeem. Het terugzetten van een productieomgeving naar bijvoorbeeld test is echt een fluitje van een cent. Dat was vroeger wel anders.”
“Bij het analyseren van incidenten of het ontwikkelen van nieuwe features voor het dataplatform, biedt time travel ook uitkomst. Door middel van time travel laat je gemakkelijk de stand van een tabel of database zien op een willekeurig moment in de tijd. En dat tot negentig dagen geleden. Dit is echt zo’n feature waarvoor ik mezelf af en toe nog in mijn arm moet knijpen dat het werkelijk kan.”
“Onze klanten worden er ook blij van: de reactietijd bij incidentanalyses is korter omdat het makkelijk is om te overzien hoe de data zich heeft ontwikkeld gedurende de afgelopen periode.”
“Tot slot is de integratie met de public cloud ook een uitkomst. De database is ook te beheren via het geïntegreerde codeplatform van onder andere Microsoft (Azure Pipelines).
Naast dat we met Azure Pipelines de database kunnen beheren via code, is data op onder andere Azure Blob Containers en Amazon S3 buckets ook direct opvraagbaar via Snowflake. Dus ook als je jouw data extern hebt staan, kan je die toch direct bevragen.”
Snowflake is cloudagnostisch. Wat houdt dat in?
“Snowflake draait op zowel Microsoft Azure, AWS als Google Cloud Platform. Dat is voor onze klanten heel fijn, want zij kunnen hiermee kiezen voor de cloud die ze willen. Maar ook voor onze ontwikkelaars en beheerders is het een uitkomst. Zo richten we onze dienstverlening optimaal in voor Snowflake, ongeacht het cloudplatform wat er onder ligt.”
Je komt uit de tijd dat er alleen nog on-premise datawarehouses waren en je hebt al een aantal Netezza migraties gedaan bij klanten. Wat zijn daar jouw belangrijkste tips voor mensen die hier mee bezig zijn?
“Omdat Netezza (IBM PureData System for Analytics) end-of-life is zijn we al onze klanten aan het migreren naar de cloud. Een migratie naar de cloud bestaat uit een aantal onderdelen, waaronder een datamigratie en een ETL-migratie. Hoewel de ETL-migratie vaak de langste doorlooptijd heeft, is een datamigratie niet te onderschatten. Het kopiëren van enkele terabytes aan data naar Snowflake is een operatie die veel nauwkeurigheid benodigd. Want je komt er niet alleen met het neerzetten van de data, je wilt ook valideren dat de data compleet is.”
“Dit doen wij bij Inergy door het uitvoeren van macrovalidaties voor alle tabellen. Dit is bijvoorbeeld het tellen van het aantal rijen, het aantal lege rijen, maar bijvoorbeeld ook een sommering van alle waarden. Zo hebben wij een compleet beeld van de juistheid van de data.”
Lees meer:
De weg van Frans naar het Snowflake SnowPro Advanced diploma.
Een nieuwe feature binnen Snowflake is het zowel kunnen importeren van structured als unstructured data. Wat wil dat zeggen?
“Heel simpel gezegd zorgt het ervoor dat al je data op één plek beschikbaar is. Je gebruikt Snowflake echt als het eindstation voor alle belangrijke bedrijfsdata. Nu je middels Snowpark (de bibliotheek van Snowflake die intuïtieve API’s voor het opvragen en verwerken van gegevens in een gegevenspijplijn biedt) ook Java- en Pythonfuncties rechtstreeks op je data kan uitvoeren, zijn de mogelijkheden helemaal eindeloos.”
De verschillende soorten data: Structured data: tekst in tabelvorm Semi-structured data: tekst niet in tabelvorm Unstructured data: geen tekst, maar bijvoorbeeld plaatjes en muziek
Met Snowflake zou het delen van data ook makkelijk zijn. Wat is jouw ervaring daarmee?
“Dat is inderdaad heel prettig. Ik zal een voorbeeld geven. Stel, je bent een logistiek vervoerder en de klanten waarvoor jij kleding verzendt willen graag inzicht in de data om daarmee hun klanten nog beter te kunnen bedienen. Dat kan nu heel makkelijk. Want ook al staat de data niet bij jouw klant, je verleent ze gemakkelijk toegang tot bepaalde datasets. Datasharing binnen Snowflake maakt dit heel gemakkelijk mogelijk.”
Waarom Inergy?
Inergy helpt organisaties al meer dan 20 jaar om alle waarde uit hun data te halen. Samen met ruim 150 collega’s zetten wij ons 24/7 in om impact te maken met jouw data. Wij bieden full service, non-stop datamanagement, advanced analytics en dashboarding op basis van de meest effectieve en efficiënte technologieën van dit moment. We zijn officieel Microsoft Gold Partner en Snowflake Select Partner. Daarnaast zijn we ISAE3402 en ISO 27001 gecertificeerd waardoor jouw data gegarandeerd veilig is.
Wil je meer weten? Neem dan vrijblijvend contact met ons op en één van onze specialisten neemt binnen één werkdag contact met je op.