ICT code
  • Life Sciences & Health
  • De Expert

De Expert: Data-onderzoek legt patronen bloot in het belang van gezondheid

Hoe kunnen we duurzamer, slimmer en gezonder werken? In deze editie vertelt expert lector Data Science for Life Sciences and Health aan de Hanzehogeschool Groningen, Wynand Alkema, over het belang van data-onderzoek voor de mensheid.

Twee dagen per week staat het leven van Wynand Alkema in het teken van data-onderzoek. Althans: data-onderzoek voor de wetenschap. Want de lector Data Science for Life Sciences and Health is de rest van de werkweek druk met TenWise, het bedrijf dat hij in 2014 oprichtte en in wezen hetzelfde doet: chocola maken van (bio-)data, maar dan ten gunste van het bedrijfsleven.

‘Je staat er versteld van hoeveel data er al verzameld zijn in tal van onderzoeken wereldwijd’, vertelt Alkema. ‘De kunst is om daarin verbanden te ontdekken die leiden tot nieuwe ontdekkingen. En dat is wat wij doen. We maken gebruik van algoritmes om patronen te zien in al die data. En daar hebben medici, onderzoekers, farmaceuten en ook voedingsbedrijven profijt bij. Wij leveren nieuwe kennis door bestaande kennis te combineren. Zo moet je het zien. Dit is AI. Dat is modieus nu, maar wij gebruiken het al jaren.’

Een voorbeeld: jarenlang zijn over de hele wereld veel onderzoeken gedaan naar darmkanker. In die onderzoeken is bijgehouden hoe bepaalde eiwitten zich in specifieke patiënten gedragen. Alkema en zijn studenten leggen die uitkomsten naast elkaar en ontdekken een patroon. Zeg: eiwit 538 en eiwit 10372 worden geactiveerd en dan gaat het mis in het lichaam. Dat is uiterst waardevolle informatie voor medici die een geneesmiddel ontwerpen natuurlijk.

Centimeters en inches

‘We maken voor zo’n analyse gebruik van bergen data die vrij beschikbaar zijn. Ze komen uit publieke databases. Kijk, na elk wetenschappelijk onderzoek moeten de data worden vrijgegeven. Wij weten ze te vinden en kunnen ze in ons algoritme stoppen. Dat geldt voor heel veel data, bijna altijd geanonimiseerd. Over bloeddruk, stofjes in de urine, noem maar op. Als je ze slim samenbrengt, dan kun je belangrijke patronen ontdekken. Die zeggen bijvoorbeeld iets over waarom sommige patiënten langer leven dan andere.’

Het aantal beschikbare datasets online is duizelingwekkend. De mogelijkheden om daar nieuwe kennis mee op te doen dus ook. De truc is om de data ‘schoon’ te krijgen. Het moet betrouwbaar zijn, en de data scientist in staat stellen om goede vergelijkingen te maken. Daar gaat veel tijd in zitten voor de pakweg 150 studenten die zich er op de Hanzehogeschool mee bezighouden. Alkema: ‘Die onderzoeken worden in de hele wereld gedaan, in alle talen. Je wilt bij wijze van spreken niet centimeters en inches door elkaar halen. Dat moet eerst gelijkgetrokken worden.’

Die zogeheten numerieke data zijn één type data dat de studenten gebruiken. Een ander is literatuur. Al die onderzoekers laten enorme hoeveelheden rapporten, verslagen, proefschriften, artikelen en wat dies meer zij na. In elk daarvan is waardevolle informatie te vinden, die – opnieuw – gecombineerd kan worden om tot nieuwe inzichten te komen.

Wynand Alkema legt dat uit: ‘Een onderzoeker schrijft over hoe vitamine C goed werkt om eiwit X te stimuleren. Drie jaar later ziet een andere onderzoeker iets soortgelijks in een proefdier en twee jaar daarna ontdekt een ander hetzelfde in een bacterie. Dat weten zij niet van elkaar, maar wij ontdekken dat verband wel. We hebben de beschikking over 35 miljoen wetenschappelijke artikelen. Reken maar dat daar patronen en verbanden in te vinden zijn.’

Miljoenen kookboeken en recepten

Voor dit type data moet er wel een extra stap worden uitgevoerd: die miljoenen artikelen lezen. Dat doet een slim programma tegenwoordig. ‘Dat programma leest PDF’s en maakt al die woorden doorzoekbaar. Dat is wat we nodig hebben. Daarna kunnen we de computer vragen op zoek te gaan naar – in dit voorbeeld – combinaties van de termen vitamine C en eiwit X. Als er voldoende data zijn, kunnen we conclusies trekken. We bouwen zo ook een kennisnetwerk op waarvan onderzoekers en ontwikkelaars in Life Sciences & Health gebruik kunnen maken.’

We maken gebruik van algoritmes om patronen te zien in al die data. En daar hebben medici, onderzoekers, farmaceuten en ook voedingsbedrijven profijt bij.

Wynand Alkema

Om de data zuiver te houden, trainen Alkema en de zijnen het algoritme continu. ‘We geven een lijst met feiten waarvan we zeker weten dat ze correct zijn. We vertellen ook welke duizend absoluut fout zijn. Zo leert het algoritme waar het op moet letten en worden de uitkomsten constant beter.’

Door het proces goed uit te voeren, is kostbare informatie te verkrijgen. De medische kennis die wordt uitgebreid is fors, de mogelijkheden om nuttig vervolgonderzoek te doen zijn groot. ‘Als we voldoende nuttige data hebben, kunnen we voorspellen welke effecten bepaalde medicijnen hebben op specifieke patiëntengroepen. Zo ver gaat het.’ Maar de Hanzehogeschool doet meer. Ook de voedingsindustrie heeft baat bij het onderzoek.

Alkema: ‘We onderzoeken welke stoffen het best gebruikt kunnen worden om plantaardige vleesvervangers te maken bijvoorbeeld. Dan kijken we naar kookboeken, online receptensites en vooral alle reacties van gebruikers. En zo kunnen we door miljoenen gegevens te combineren voorspellen welke kruiden zorgen voor de juiste geur, welke stoffen de textuur het best benaderen, enzovoorts. Datzelfde kunnen we uiteraard ook als het gaat om de voedingsstoffen die nodig zijn voor de gezondheid van mensen.’

Orde

De stap is nu: wat wil je weten? Wij halen het uit de data. Die stap klinkt voor de hand liggend, maar is in de praktijk nog niet zo eenvoudig. ‘Van elk project besteden we zo’n veertig procent van de tijd aan overleggen met de vraagsteller. Wij kunnen alleen goed aan de slag als we heel precies weten wat gevraagd wordt. Dat moet exact afgebakend worden, zodat wij het algoritme effectief kunnen inzetten. En dat is best lastig. Wil je – om bij een eerder voorbeeld te blijven – vitamine C gecombineerd met eiwit X? En moeten we uitkomsten met eiwit Y dan weglaten of niet? En bij die vleesvervanger: heb je behoefte aan de geur van vlees die de meeste mensen wereldwijd prettig vonden, of ben je meer geïnteresseerd in de geur die voor Europeanen fijn is? Dat zijn maar kleine voorbeelden.’

Praten is het, vragen stellen en achterhalen wat een onderzoeker, een ondernemer, een ontwikkelaar precies met de data wil. Alkema: ‘Daar trainen we onze studenten in. Daarom is het ook goed dat ze een achtergrond in de Life Science & Health hebben. Het is essentieel dat ze ongeveer begrijpen waar de vragensteller het over heeft, zodat ze beter kunnen kaderen.’

Dit type onderzoek op basis van kunstmatige intelligentie is aan een opmars bezig. Logisch, want de data zijn er en daarvan is veel te leren. ‘We hebben wat dat betreft nog een wereld te winnen. Ordening aanbrengen in wat er al is, dat is wat we doen.’