Snel naar content
laptop met veel informatie in de vorm van grafieken erop

R analytics in Tableau

Zoals wellicht bekend kun je in Tableau ook R code uitvoeren (via Rserve).

Waarom zou je dit willen, een R-Tableau integratie? Mijn ervaring tot nu toe met data exploratie, data visualisatie en (interactieve) dashboarding is dat je ergens moet beginnen, en snel iets concreets moet laten zien aan de stakeholders. Dan pas gaat het leven, wordt men enthousiast, komen er vervolg vragen en worden er middelen beschikbaar gesteld. Tableau leent zich m.i. erg goed voor dergelijke toepassingen.
Wellicht geldt dat ook voor het toepassen van analytics? Hieronder twee eenvoudige praktische voorbeeld use-cases.

Wat heb je nodig? Een (lokaal of op een server) draaiende Rserve, met de benodigde R packages geïnstalleerd (in dit geval: rpart, kmeans, rpart.plot, rattle, RColorBrewer).

Churn prediction: decision tree

Casus: je wilt voorspellen welke klanten een groot risico hebben binnen een bepaalde periode weglopen

Dit kun je doen door een decision tree model te creëren (trainen).
Hiervoor heb je een dataset nodig met historische gegevens op klant-niveau waarvan bekend is of deze klanten (in de periode erna) zijn weggelopen of niet. Deze dataset moet een of meerdere velden bevatten waarvan je vermoedt dat deze van invloed kunnen zijn op het al dan niet churnen van de klant. (De ‘kwaliteit’ van de variabelen is overigens zeer belangrijk voor de bruikbaarheid, niet te veel null-values, etc.)
Deze dataset kun je gebruiken om het algoritme het model te laten trainen en daarmee een classification tree genereren. De tree laat zien welke variabelen van invloed zijn op de te predicten value (churn ja/nee).
Voor dit voorbeeld heb ik een example dataset gebruikt van een telecom bedrijf.
Hieronder een screenshot van een heel eenvoudige tree:

Op zichzelf kan dit al een waardevolle inzichten opleveren. Hieruit blijkt bijvoorbeeld dat klanten met een maandelijks opzegbaar abonnement véél vaker zijn weggelopen dan degene met een contractduur van 1-2 jaar. Dit is natuurlijk zeer voor de hand liggend, maar wanneer het model is opgebouwd met tientallen variabelen kun je op deze manier patronen herkennen die je anders niet waren opgevallen. Bijvoorbeeld dat klanten die naast DSL ook een betaald security-pakket afnemen relatief vaak weglopen; misschien krijgen ze dit security-pakket er bij een concurrent gratis bij een DSL abo waardoor ze overstappen?

Dit model kun je ook gebruiken om een voorspelling te doen voor je huidige klanten. Ik heb een test dataset in Tableau geladen waarvan de outcome al wel bekend is, om zo te kunnen bekijken hoe het model presteert.

Zoals uit bovenstaande viz blijkt ziet is de voorspelling in ieder geval vaker goed dan fout 😉. (De rijen zijn de actuals, de gekleurde blokjes zijn de predicted values.) Indien gewenst kan getracht worden het model betrouwbaarder te krijgen door met de parameters te spelen, meer training data er doorheen te jagen, betere (samengestelde/geaggregeerde) variabelen te gebruiken, of misschien wel door een ander algoritme te kiezen.

Customer clustering: kmeans

Casus: je wilt je klanten segmenteren om zo een beter inzicht te verkrijgen, en bepaalde klantclusters gerichter kunt targetten met een marketing campagne.

Hiervoor kun je gebruik maken van het kmeans algoritme.  (Zie deze post van Rick voor meer uitleg over dit algoritme.)

Op vergelijkbare manier kun je het in een Tableau calculated field stoppen:

De gevonden clusters kun je vervolgens verder gaan analyseren. Hieruit blijkt bijvoorbeeld dat een van de clusters bestaat uit klanten die al lange tijd niets meer besteld hebben, en dat van de klanten met de hoogste profit-ratio er zich een groot deel in dit cluster bevindt.

   

Door Mark Griepsma

Blijf op de hoogte

De auteur

Inergy
Inergy

Wij eten, drinken en ademen data – en wat je ermee kan doen. Dat delen we graag met jou. Meer weten over Inergy? Neem contact met ons op via 0348 45 76 66 of info@inergy.nl.

Meer berichten

Alle berichten

Superperformance met Snowflake & DirectQuery in Power BI

Superperformance met Snowflake & DirectQuery in Power BI

Optimalisatie van Power BI met DirectQuery (DQ) op Snowflake is dé oplossing voor snel, kostenefficiënt en AVG-proof werken in Power BI. Lees in deze (blog) longread alles over de geweldige werkwijze die Inergy heeft ontwikkeld in Snowflake. 

Lees verder

Hoe bereik je efficiëntie en samenwerking in het P&C proces?

Hoe bereik je efficiëntie en samenwerking in het P&C proces?

Het schrijven van P&C publicaties is een terugkerende taak waarbij de hele organisatie gedisciplineerd moet werken. Zonder discipline heb je weinig aan versiebeheer en van de workflow met deadlines komt dan niks terecht. In deze blog hebben we het over discipline en versiebeheer. Hoe komen ze samen in het proces van het schrijven binnen LIAS.

Lees verder

Tips voor veilig online shoppen

Tips voor veilig online shoppen

Online shoppen biedt ons het gemak van winkelen vanuit huis, met een eindeloze selectie aan leuke kleding, schoenen, accessoires en spullen voor in huis. Met slechts een paar klikken kunnen we dit enorme assortiment aan producten vinden en bestellen. Ondanks dit gemak, is het belangrijk om ons bewust te zijn van potentiële risico’s die gepaard gaan met online shoppen.

Lees verder