Big Data – big opportunies

Authors: Servaas Houben

pdf: AD big data 6 juni 2017

Publisher, publication date: AD, 2017-06 

——————————————————————————————————————————

Door de successen van zoekmachines zoals Google, en online verkoop bedrijven als Booking.com en Amazon.com is er steeds meer aandacht komen te liggen op het vergaren van klantendata. Door klantgedrag te bestuderen en op basis daarvan de klant bepaalde prikkels te geven, kan de consument in een denkrichting (nudge) gestimuleerd worden1. Echter door het enthousiasme over Big Data zijn discussies over het gebruik en de geschiktheid ervan naar de achtergrond gedreven: is Big Data voor iedere industrie een must-have of hangt dit van omgevingsfactoren? Hoe geschikt is de verzekerings- en pensioensector voor het toepassen van Big Data? Bestaan er binnen deze sectoren verschillen in de toepasbaarheid van Big Data? En hoe kan Curacao als relatief kleine samenleving ook de vruchten van Big Data plukken?

Inductie versus deductie

Sherlock Holmes gaf op typerende wijze weer hoe belangrijk data kan zijn:

“Data! Data! Data!” he cried impatiently. “I can’t make bricks without clay.”, Sherlock Holmes in The Adventure of the Copper Beeches

Echter het gebruik van data brengt ook aanzienlijke beperkingen met zich mee omdat omgevingsfactoren in de tussentijd zijn gewijzigd. Zoals Heraclitus reeds in 400 voor Christus opmerkte “Men kan niet twee maal in dezelfde rivier stappen” omdat zowel de rivier als de mens die erin stapt niet identiek is. Wetenschap is hierdoor een combinatie van zowel data onderzoek (inductie) als logica/principes (deductie) waarbij beide elementen niet zonder elkaar kunnen:

  • Inductie met bijvoorbeeld de kloppende conclusie: de zon komt zolang ik leef al op in het oosten, dus zal de zon ook morgen in het oosten opkomen;
  • Inductie met verkeerde conclusie: ik zie altijd andere mensen sterven dan ikzelf, dus ik ben onsterfelijk;
  • Deductie met kloppende conclusie: alle mensen zijn sterfelijk, dus Socrates is sterfelijk;
  • Deductie met verkeerde conclusie: ik pas in mijn jas, mijn jas pas past in mijn tas, dus ik pas in mijn jas

Data en beliefs zijn dus onlosmakelijk met elkaar verbonden.

Big Data applicaties

De Oxford dictionary definieert Big Data als volgt:

Extremely large data sets that may be analysed computationally to reveal patterns, trends, and associations, especially relating to human behaviour and interactions.

Predictive analytics2 is een van de gebieden waarbij Big Data voor verzekeraars een uitkomst biedt. Op basis van schade data kunnen verzekeraars vaststellen welke factoren een positieve en negatieve impact hebben op schadeverwachting voor auto verzekeringen: over het algemeen maken jongeren meer schade dan ouderen maar ook aspecten als woonlocatie, geslacht, of beroep kunnen de schadelast beinvloeden. Verzekeraars delen hun klanten dan in verschillende groepen in met bepaalde kenmerken en een bepaalde schadelast:

Tree

Figuur 1: voorbeeld klanten groepen

Big Data beperkingen

Ondanks de hype rondom Big Data, was het jaar 2016 een tegenvaller omdat veel voorspellingen anders bleken uit te vallen dan voorspeld: zowel de Brexit, Amerikaanse verkiezingen en Colombia referendum leiden tot andere resultaten dan de polls voorspeld hadden. Kennelijk is het peilen van voorkeuren en gevoelens op een specifiek meetmoment bijzonder lastig.

Een andere beperking van Big Data is dat het ongeschikt is voor het voorspellen van nieuwe trends of het doorbreken van een bestaande trend. Het klassieke voorbeeld dat Taleb3 in zijn Black Swan boek behandeld is het gewicht van een kalkoen die een duidelijke trend laat zien tot enkele dagen voor Thanksgiving:

Turkey

Figuur 2: het gewicht van een kalkoen

Net zoals bij polls over verkiezingsuitslagen, kunnen ook andere trends ruw verstoord worden:

  • New economy: eind jaren 90 leefde het idee dat de nieuwe internet en online networking economie zou leiden tot een diensten-economie met eeuwige groei, lage inflatie, en lage werkeloosheid. Die trend hield bijna een decennium aan maar de dotcom bubble begin 2000 maakte hier een abrupt einde aan;
  • Groei Sovjet Unie4: de econoom Samuelson voorspelde in 1961 in zijn boek Economic Principles dat het BBP van de Sovjet Unie groter zou zijn dan die van de VS in de jaren 1984-1997, terwijl in 1961 het BBP van de Sovjet Unie maar 50% van de VS was. Echter, de Sovjet Unie is nooit verder gekomen dan 55%;
  • Enron: het bedrijf Enron werd door het business tijdschrift Fortune zes maal op rij uitgeroepen tot het meest innovatieve Amerikaanse bedrijf. De laatste keer dat Enron deze prijs ontving, was in 2001 kort voordat het bedrijf faillissement moest aanvragen.

De beschikbaarheid van (correcte) data heeft een grote invloed op het gedrag van mensen: als niet iedereen toegang heeft tot dezelfde data gegevens zullen mensen andere beslissingen nemen. De groei cijfers van de Sovjet Unie konden door westerse economen niet op waarheid worden gechecked waardoor Samuelson tot de verkeerde projecties en conclusies kwam. Data is alleen relevant als de context en de correctheid ervan klopt anders bestaat het risico op data manipulatie.

Het success van small data

Het gebrek aan data, wat vaak voor Curacao een uitdaging is, kan ook zijn voordelen hebben: het is eenvoudiger een kleinere dataset te checken, en verstoringen en afwijkingen ten opzichte van de trends worden gemakkelijker opgemerkt. Verder kan de beperkte ervaringsdataset uitgebreid worden met CBS data, en wereldwijde data bijvoorbeeld van de world bank. Aan de hand van deductie principes van sterfte modellering kan toch met beperkte data een goed beeld gecreëerd worden van de huidige en toekomstige trends. Ook heeft data beperkingen het voordeel dat mensen zich meer bewust zijn rondom de onzekerheid van data en projecties.

Uiteindelijk is de kwaliteit en beschikbaarheid van data doorslaggevend: je kunt wel veel data hebben, maar dit betekent niet dat de juiste factoren worden gemeten of dat de data een correcte weerspiegeling is van de situatie zoals de verkiezingen hebben aangetoond. Ook moet data wijd beschikbaar zijn, zodat het door verschillende mensen met variërende achtergronden getoetst kan worden. Data die niet getoetst kan worden is onderhevig aan bepaalde heersende beliefs. Bekend voorbeeld is hiervan de griep prik in Nederland: alhoewel de effectiviteit van de grip prik nooit onomstotelijk is vastgesteld6 (Cochrane review), is het algemene gevoel dat het te veel risico met zich mee brengt om de prik niet voor te schrijven.

Big Data en Curacao

Ook Curacao vergaart data bijvoorbeeld door twee maal per jaar een conjunctuur enquete te doen. In deze enquete worden bedrijven gevraagd hun mening te geven over het ondernemings klimaat. Sinds sinds 10-10-10 zijn de uitkomsten van de enquete pessimistisch. Helaas gaat de enquete niet verder in op de onderliggende factoren waarom ondernemers pessimistisch zijn: komt dit door een stroeve arbeidsmarkt, bureaucratie, export- en importheffingen of andere factoren? Doordat onduidelijk is welke factoren bijdragen aan een positief ondernemingsklimaat, dat ondernemers stimuleert uit te breiden, personeel aan te nemen, en te innoveren, is het voor beleidsmakers onmogeiljk om hierin te faciliteren.

Curacao heeft verder ook al talrijke rapporten ontvangen (TAC, National Development plan) waarin beleids aanbevelingen staan. Het TAC rapport geeft bijvoorbeeld inzicht in de concurrentie positie van Curacao vergeleken met andere eilanden. Waar deze rapporten vaak te kort in schieten is de implementatie fase. Het National Development Plan constateert bijvoorbeeld dat het niveau van Engels op Curacao onvoldoende is om internationaal zaken te doen. Echter ontbreekt de stap naar de implementatie: dient Engels via scholing (vanaf een vroegere leeftijd) of via het openbare leven (tv, radio, politiek) gepromoot te worden? Als scholing de beste optie is, heeft Curacao wel voldoende leerkrachten van het juiste niveau om dit tot stand te brengen? Is er voldoende les- en oefen-materiaal beschikbaar? Hoe worden de resultaten naderhand gemeten zodat naderhand getest kan worden of de doelstellingen zijn gehaald? Door gebrek aan data wordt zowel het beleid als het testen van het succes van beleid natte vinger werk.

Behalve een taak bij de bedrijven, ligt er ook een taak bij de overheid om investeringsprojecten en andere politieke beleidsbeslissingen met behulp van data analyse te kunnen onderbouwen. Tijdens de verkiezingen kunnen politieke partijen momenteel beloftes doen, die niet via een onafhankelijke instantie getest kunnen worden. Hierdoor ontstaat er veelal een te optimistisch beeld waarbij veel lusten aan de bevolking worden wegggeven, zonder daarbij de lasten te vermelden. De oprichting van een onafhankelijk centraal plan bureau dat zelfstandig data analyse kan verrichten zou ook de politiek een betere basis bieden voor het maken van lange termijn beleids beslissingen.

Conclusie

“There is nothing new under the sun. It has all been done before.” – Sherlock Holmes in A study in scarlet

Big Data is een krachtig instrument gebleken om trends en verbanden in consument behoeften te onderkennen en om het service niveau te verbeteren. Het stelt bedrijven in staat om klanten op individuele basis te servicen en niet een type bulk product aan te bieden: zoals bij Ford je alle type auto’s kon bestellen zolang ze maar zwart waren. Ook creert Big Data een level playing field: waar in het verleden de ratings van restaurants en hotels door “experts” gedaan werd, is het nu voor iedereen mogelijk om zijn feedback in het publieke domein te delen. Het grootste voordeel hiervan is dat het aantal test gevallen aanzienlijk toeneemt: experts kunnen wellicht maar 1 of 2 keer per jaar bij een restaurant of hotel langsgaan voor kwaliteits controle, en kunnen daarom in verre niet aan de aantallen reviews komen die bijvoorbeeld op tripadvisor zijn opgeslagen. Een groter aantal tests verkleint de kans op toevallige uitschieters en geeft een getrouwer beeld.

Big data biedt daarom ook voor Curacao big opportunities. Hiervoor dienen wij wel als samenleving meer open te staan voor (klanten)feedback ook al is deze negatief. De overheid zou een positief signaal hiervoor kunnen afgeven door het oprichten van een centraal plan bureau.

 

Referenties

  1. Sunstein C, Thaler R, Nudge – Improving Decisions about Health, Wealth, and Happiness, april 2008
  2. Siegel E, Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die
  3. Taleb, N, The Black Swan: The Impact of the Highly Improbable, april 2007
  4. Samuelson P, Economics, 1948
  5. Buck consultants, Bevolkingssterfte, http://buckconsultants.cw/resultaat-sterfteonderzoek en http://www.pensioenkoepel.org/files/Sessie%20E%20-%20Buck%20Consultants%20-%20Ontwikkeling%20levensverwachting.pdf
  6. Geen bewijs effectiviteit griepprik, https://nl.wikipedia.org/wiki/Griepprik

About Servaas Houben

I am a Dutch actuary and worked in the Netherlands for the first 4 years of my career. Thereafter, I worked for 2 years in Dublin and 4 years in London. I am now heading the actuarial department of ENNIA in Curacao.
This entry was posted in Actuary, Antilliaans Dagblad, Articles, Big Data, Curacao, Dutch, Innovation. Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s