Data Science-uitdaging: miljoenen twitteraars classificeren op geslacht

Als kersverse Data Scientist bij Qualogy viel ik gelijk met mijn neus in de boter. Samen met een aantal collega’s heb ik voor UN Global Pulse miljoenen tweets geclassificeerd op geslacht. De resultaten hebben we gevat in een interactieve tool. Dit in samenwerking met het Centre for Innovation van Leiden Universiteit.

United Nations Global Pulse is onderdeel van de Verenigde Naties en gebruikt big data om het VN-beleid te verbeteren. Via data van mobiele telefoons kunnen zij bijvoorbeeld achterhalen hoeveel schade een ramp heeft veroorzaakt en in welke gebieden de meeste hulp nodig is.

Twitter als stem van het volk

Ook Twitter is een belangrijke informatiebron voor de VN. Je zou Twitter namelijk als ‘de stem van het volk’ kunnen zien. UN Global Pulse verzamelt dan ook heel veel Twitterdata over onderwerpen - vaak gerelateerd aan de millenniumdoelen - zoals gezondheidszorg, educatie en discriminatie.

Dankzij die data weet de VN wat er speelt bij inwoners over de hele wereld. Zo kan de beleidsvoering per regio worden verbeterd. Stel je bijvoorbeeld voor dat er in Duitsland veel wordt getweet over gebrekkige gezondheidszorg. Dan kan de VN hier gerichter aandacht aan besteden en onderzoeken wat daar dan exact aan de hand is.

Aan het werk op mijn plek Aan het werk op mijn plek

Onze opdracht: geslacht in kaart brengen

Belangrijke informatie die nog miste over de Twittergebruikers was het geslacht. Dit hebben wij in kaart gebracht, van miljoenen Twitteraars over de hele wereld.

Het verschil in geslacht is voor UN Global Pulse erg belangrijk, zeker als je mede op basis van Twitterdata je beleid wilt optimaliseren. Stel dat veel vrouwen tweeten over gebrekkige gezondheidszorg. Dan duidt dit er misschien wel op dat het hier gaat om gezondheidszorg rondom de zwangerschap. Hier kan dan gerichter onderzoek naar gedaan worden. Bij mannen is dit waarschijnlijk minder aannemelijk. Kortom: als je het geslacht van de Twitteraar weet, kun je nog gerichter onderzoek doen.

Data verzamelen via Twitter API

We hebben de data van de Twitterprofielen verzameld via de Twitter API. Met die API konden we ook onze computers ‘leren’ om het geslacht van Twitteraars te herkennen. Om de tweets daadwerkelijk te classificeren hebben we gebruikgemaakt van (een aantal machine learning libraries van) Python: een veelgebruikte taal binnen Data Science.

Teamoverleg! Teamoverleg!

Data visualiseren

Bij dit soort projecten is het natuurlijk erg belangrijk dat je de resultaten (in dit geval het aantal vrouwelijke en mannelijke Twitteraars) duidelijk communiceert richting je klant. In ons geval was dit nog eens extra van belang, omdat de beleidsmakers graag snel wilden zien hoe de Twitteractiviteit zich verhoudt per geslacht in de verschillende landen.

Interactieve tool

Daarom hebben wij een interactieve tool gemaakt met behulp van D3.js, dit is een JavaScript library om visualisaties via het web te maken. Onze tool geeft de verhouding tussen twitterende mannen en vrouwen per land én per onderwerp aan. Je kunt ook zien hoe de Twitteractiviteit zich heeft ontwikkeld gedurende een bepaalde periode. De visualisatie werd erg goed ontvangen en onze tool werd zelfs op een groot scherm getoond tijdens de algemene vergadering van de Verenigde Naties! Binnenkort is de tool ook op de VN-website te vinden.

Onze interactieve tool Onze interactieve tool

Mooie volgende stap: leeftijd classificeren

Onze opdracht zit er voorlopig op, maar ik denk zeker dat dit project een vervolg krijgt bij de Universiteit Leiden. Een leuke volgende stap zou bijvoorbeeld zijn om andere demografische data zoals leeftijd te classificeren. Dat is ook waardevolle informatie die je goed kunt gebruiken bij het maken van nieuw beleid. Het maken van beleid voor bijvoorbeeld onderwijs voor kinderen vergt immers een andere invalshoek dan wanneer je dit voor (jong)volwassenen doet. Ik ben benieuwd en houd de ontwikkelingen de komende tijd in elk geval goed in de gaten. 

Gerard: “Onze tool werd getoond tijdens de algemene vergadering van de Verenigde Naties”