Big data analyseren én visualiseren, voor minder honger in de wereld

Op 11 september is het zover: de Data4Food Challenge. Hier gaan we met zo’n 50 man aan de slag met big data, om oplossingen te vinden voor een betere voedselverdeling in de wereld en minder verspilling. Ik ben er ook bij namens Qualogy, als data-analist én developer. Ik vertel graag meer over wat ik ga doen.

Als data-analist onderzoek ik welke data bruikbaar is en wat we ermee kunnen. Daarna ga ik de data ‘opschonen’ en verreiken met andere datasets. Om bepaalde patronen te ontdekken en voorspellingen te doen, pas ik verschillende ‘Machine Learning-technieken’ en ‘Natural Language Processing’ toe. Kort gezegd haal ik waardevolle informatie uit grote ‘bakken’ data.

Als developer ga ik juist de codes schrijven die we nodig hebben om de data te kunnen verzamelen. Ook ga ik de analysetechnieken implementeren én de uiteindelijke prototypes ontwikkelen waarin we uiteindelijk onze ideeën om voedseltekort tegen te gaan zullen vatten.

Als developer schrijf ik straks de codes die we nodig hebben om de data te verzamelen Als developer schrijf ik straks de codes die we nodig hebben om de data te verzamelen

Waardevolle data

Het is vooraf lastig te zeggen welke data bruikbaar is. Er komen altijd databronnen voorbij waarvan je vooraf niet verwacht dat ze waardevol zijn. Ik denk wel dat bronnen met gegevens over wereldwijd voedselverbruik, tekorten, overschotten, typen gewassen en veesoorten over verschillende gebieden erg belangrijk zijn.

Deze data geeft namelijk inzicht in de huidige status van consumptie, verspilling en tekorten over de hele wereld. Hiermee kunnen we voorspellen hoe dit in de toekomst zal zijn. Misschien blijkt wel dat de voedseltekorten zich vooral zullen verergeren in China, terwijl de rest van de wereld nog stabiel blijft. Dan kunnen we ons vooral gaan focussen op Chinese datasets.

Data visualiseren

Naast developen en analyseren ga ik ook helpen de data en analyseresultaten inzichtelijk te maken (visualiseren). Dit kan op verschillende manieren. Stel dat we data vinden over het wereldwijde voedselverbruik. Dit kunnen we visualiseren in een map, waarbij je door de jaren heen het exacte verbruik kan zien. Of stel dat je de productkosten af wilt zetten tegen de voedselproducten. Dan kun je dit inzichtelijk maken in een scatterplot. Zo zijn er veel manieren om data in beeld te brengen.

Visualisatie maakt het ook makkelijker om patronen te herkennen. Daarnaast helpt het ook om de informatie duidelijk over te brengen op andere mensen. Visualisatie kan er dus voor zorgen dat het verhaal áchter de data zichzelf vertelt.

Pim: “Data over het wereldwijde voedselverbruik kunnen we visualiseren in een map, waarbij je door de jaren heen het exacte verbruik kan zien”