Studiedag "Data science for better decisions"

Op dinsdag 17 december 2019 organiseren Statistiek Vlaanderen en het Centraal Bureau voor de Statistiek (Nederland) een internationale studiedag over hoe data science kan bijdragen tot kwaliteitsvolle openbare statistieken voor het verbeteren van beleidsinzichten. Hoe kunnen nieuwe gegevensbronnen en analysetechnieken in een snel veranderende digitale omgeving betere beslissingen ondersteunen? Wat zijn de opportuniteiten van de gestage groei in de beschikbaarheid van data om tot onderbouwde beleidsbeslissingen te komen? Welke risico’s hangen samen met het gebruik van deze nieuwe tools en technieken om met big databronnen om te gaan?

Ga naar Praktische informatie - Wegwijzer- Registratie

Programma

Presentatie: Annelies Beck (VRT)

In de voormiddag reflecteren twee keynote sprekers over de positie van big data, data science en bijbehorende technieken (zoals machine learning en artificiële intelligentie) in het bredere datalandschap. Ze bekijken hoe digitale ontwikkelingen een invloed hebben op beleidsvorming en welke databronnen nodig zijn om beleidsbeslissingen te ondersteunen.

09:00 Welkom en koffie
Auditorium, Departement Leefmilieu Brussel, Tour & Taxis
10:00

Introductie
Roeland Beerten, hoofdstatisticus Statistiek Vlaanderen, Vlaamse overheid
Tjark Tjin-A-Tsoi, directeur-generaal Centraal Bureau voor de Statistiek, Nederland

10:20

Diane Coyle, Bennett Professor of Public Policy aan de Universiteit van Cambridge, winnaar van de Indigo-prijs voor innovatie in de economie

Statistiek voor het digitale tijdperk
De digitalisering van de economie brengt een aantal uitdagingen voor economische statistieken met zich mee. Deze variëren van uitdagingen op het gebied van classificatie en gegevensverzameling tot het opsporen van veranderingen in gedrags- en business modellen of het berekenen van voor kwaliteit gecorrigeerde prijsindices. Economische metingen moeten zich aanpassen aan de structurele veranderingen om een geloofwaardig beeld van de economie te schetsen. Wat zijn hier de belangrijkste onderwerpen en hoe moeten statistische bureaus hiermee omgaan om hun gebruikers beter tegemoet te komen?

11:10

Kenneth Cukier,  Senior redacteur bij The Economist en gastheer van de wekelijkse Economist podcast over technologie

Copernicus ontmoet Coca-Cola: wat AI en big data betekenen voor nationale statistieken
Reeds sinds 1600 worden statistieken gebruikt om staatszaken op te volgen. Het belang van en de aandacht voor statistieken is in de afgelopen decennia gegroeid, en de werkmethoden zijn goed ingebed maar soms achterhaald. Nieuwe technieken die een betere, een verschillende of een snellere productie mogelijk maken, worden te weinig in rekening genomen. In een inspirerende  en humoristische presentatie zal Kenneth Cukier, hoofdredacteur bij The Economist, het belang van AI en big data voor openbare statistieken uitleggen, en de statistici en dataverwerkers uitdagen om hun missie en ambacht te herbekijken.

 
Lunch

Namiddag
In de namiddag wordt in vier parallelsessies dieper ingegaan op verschillende ‘data science’-technieken en hun toepassingen alsook op de voorwaarden die een efficiënt gebruik van deze technieken ondersteunen. De dag wordt afgesloten met een panelgesprek.

 
13:00-14:45

Parallelle sessies

Sessie 1. Machine learning - Voorzitter: Bart Buelens

Machine learning algoritmes ontdekken patronen in data en gebruiken deze om ontbrekende data te voorspellen. Data kunnen ontbreken omdat ze niet verzameld of geobserveerd werden, of gewoon omdat de voorspelling de toekomst betreft. Machine learning algoritmes trachten de onderliggende reële systemen niet expliciet te modelleren. Ze gebruiken eerder rekenkundige technieken om met een optimale nauwkeurigheid voorspellingen te doen. Daarom worden ze dikwijls beschreven als 'black-box' systemen die niet transparant zijn. Deze sessie behandelt een aantal topics over het nemen van beslissingen op basis van machine learning.

Bart Buelens, Senior Data Scientist, Vlaamse Instelling voor Technologisch Onderzoek (VITO), België
Machine learning

Een machine die zelf kan bijleren, wordt vaak gezien als een vorm van kunstmatige intelligentie. Tegenwoordig zijn toepassingen van ‘machine learning’ wijdverbreid: van aanbevelingssystemen tot de detectie van creditcardfraude en navigatie-apps maken er gebruik van. In deze presentatie wordt een overzicht over het domein van ‘machine learning’ gegeven, met een bijzondere aandacht voor toepassingen waar de resulterende algoritmen worden gebruikt bij de besluitvorming. De resultaten van ‘machine learning’ worden beschouwd in termen van bias en variantie, waarbij het belang van de aangepaste onzekerheidskwantificering benadrukt wordt. Doorheen de presentatie zijn er illustraties van zowel succesvolle als mislukte toepassingen van ‘machine learning’ bij de besluitvorming.

Joep Burger, Team Methodologie Heerlen, Statistics Netherlands
Het gebruik van machine learning bij openbare statistieken: twee case studies

Door de toenemende beschikbaarheid van big data en complexe gegevens zoals afbeeldingen en tekst, wordt ‘machine learning’ een populaire uitbreiding van de toolbox van de statisticus. Er zullen twee case studies over het gebruik van ‘machine learning’ bij officiële statistieken voorgesteld worden. In de eerste studie proberen we iemands verhuisneiging te voorspellen via de digitale voetafdruk van de persoon in twee decennia van registergegevens. In deze studie worden de resultaten uit een logistieke regressie vergeleken met deze uit het ‘random forest’-algorithme. In de tweede studie onderzoeken we de mogelijkheden om statistische informatie, bijvoorbeeld over armoede, af te leiden uit lucht- of satellietbeelden; dit met behulp van een convolutioneel neuraal netwerk.

Chang Sun, doctoraatsstudent in de Universiteit van Maastricht, Data Science Instituut, Nederland
Een veilige omgeving om persoonlijke gegevens uit meerdere bronnen te analyseren op een manier die privacy beschermt

Met de huidige ontwikkelingen in het domein van data science, waaronder de technologieën van ‘machine learning’ en datamining, worden steeds meer gegevens verzameld en geanalyseerd door verschillende betrokken partijen. Het is echter nadelig om een ‘machine learning’-model te trainen op één enkele gegevensbron. Dat kan leiden tot onvolledige of onjuiste kennisontwikkeling die de samenleving waarschijnlijk verwart of misleidt. Om dit probleem aan te pakken, hebben Chang Sun en haar collega's een veilige infrastructuur ontwikkeld om persoonlijke gegevens uit meerdere bronnen te analyseren met het behoud van de privacy. Ze pasten de infrastructuur toe in het CBS en in De Maastricht Studie om te onderzoeken welke rol sociaaleconomische factoren spelen bij diabetes. Met deze infrastructuur kunnen statistische bureaus meer potentiële sociale effecten ontdekken en meer gebruik maken van de beschikbare gegevens door samen te werken met andere gegevensbronnen.


Sessie 2. Natural Language Processing - Voorzitter: Piet Daas

Natural language processing onderzoekt hoe grote hoeveelheden van data, die uit taalgegevens bestaan, via computers verwerkt en geanalyseerd kunnen worden. Een voorbeeld is het gebruik van sociale media om het aantal berichten over of het sentiment tegenover bepaalde onderwerpen te meten. Het nut van deze sentimentanalyse is bijvoorbeeld al aangetoond voor het meten van het consumentenvertrouwen. Web scraping, waarbij data van websites wordt verzameld, wordt ook in verschillende onderzoeksdomeinen gebruikt, bijvoorbeeld in het kader van vacaturestatistieken.

Piet Daas, senior-methodoloog en CBS big data specialist, bijzonder hoogleraar Big Data in Official Statistics bij de Technische Universiteit Eindhoven, Nederland
Natural Language Processing

Het omzetten van teksten in een vorm die machinaal geïnterpreteerd kan worden, heeft onderzoekers uit diverse disciplines voor uitdagingen geplaatst sinds de start van dit onderzoeksthema in de jaren vijftig. De laatste jaren komen er steeds meer applicaties beschikbaar die op deze techniek gebaseerd zijn en die velen van ons dagelijks gebruiken. Het betreft o.a. spamfilters, zoekmachines en de Siri / Alexa / Google-assistent. In deze presentatie ligt de nadruk op het extraheren van informatie uit teksten. Eerst wordt een overzicht gegeven van de manieren waarop dit kan gebeuren. Vervolgens worden een aantal voorbeelden gegeven om aan te tonen hoe tekstmateriaal (succesvol) gebruikt kan worden in de context van officiële statistieken.

Martina Hahn, Hoofd methodologie en innovatie in officiële statistieken, Eurostat
De 'Web Intelligence Hub' – het gebruik en de analyse van 'web scraped' data in verschillende statistische domeinen

In het kader van de uitvoering van het' Trusted Smart Statistics'-paradigma zal Eurostat samen met Cedefop, het Europees Centrum voor de ontwikkeling van de beroepsopleiding en het ESS een Web Intelligence-hub (WIH) ontwikkelen. De WIH beoogt de ESS te voorzien van de belangrijkste bouwstenen om informatie van internet te gebruiken. De Hub zet een portfolio op voor diensten van tekstverwerking en -analyse op verschillende niveaus (bijvoorbeeld 'text parsing', 'mining', classificatie, interpretatie) en onderhoudt deze portfolio ook. Het bouwt verder op de ontwikkelingen van de 'web scraping'-projecten van de ESSnets Big Data en op het Cedefop-project, dat online vacatures gebruikt om informatie te verkrijgen over de vraag naar bepaalde vaardigheden. De activiteiten zullen in eerste instantie gericht zijn op het opzetten van een modulair systeem voor het scrapen en analyseren van online vacatures. Ze zullen geleidelijk uitgebreid worden naar andere informatiedomeinen, zoals informatie over ondernemingen of informatie die relevant is voor ICT-statistieken.

Paul Keuren, Statistisch Onderzoeker / Software ingenieur in het CBS, Nederland
Bron afhankelijke tekstanalyse

Tekstbronnen en -leveranciers verkrijgen tekstuele gegevens uit meerdere bronnen. Voor deze presentatie worden twee afzonderlijke bronnen (gegevens van de Kamer van Koophandel en data verkregen via 'web scraping') bekeken en vergeleken. Gegevens van de Kamer van Koophandel worden verder onderzocht om aan te tonen voor welke quick wins deze gegevens gebruikt kunnen worden.


Sessie 3. Beelden en visualisatie - Voorzitter: Edwin de Jonge

Deze sessie bekijkt twee aspecten van het gebruik van beelden: enerzijds beelden als een databron, en anderzijds de visualisatie van data voor een breed publiek. Basisgegevens voor ‘data science’-toepassingen kunnen bestaan uit beelden zoals satellietbeelden of beelden van Google street view, wat nieuwe uitdagingen impliceert. Daarnaast is er het snel groeiende onderzoeksveld van datavisualisatie, waarbij abstracte informatie efficiënter toegankelijk wordt gemaakt dan ooit het geval was. Deze sessie geeft een overzicht van enkele projecten waar beeldmateriaal als data is gebruikt, en van een aantal toepassingen op het gebied van datavisualisatie en dashboards waar abstracte data vertaald worden tot gebruiksvriendelijke informatie.

Edwin de Jonge, statistisch consultant, methodoloog bij Statistics Netherlands
Beelden en visualisatie

Chris Bonham, Senior Data Scientist bij Data Science Campus, Office for National Statistics, UK
Teledetectie en machinaal leren om de vegetatie in stedelijke residentiële tuinen te identificeren

Het identificeren en begrijpen van de kenmerken van stedelijke groene ruimten wordt steeds belangrijker gezien de ecologische en emotionele voordelen ervan. Huidige benaderingen veronderstellen vaak dat residentiële tuinen bijna uitsluitend bedekt zijn door natuurlijke vegetatie en houden geen rekening met verharde delen zoals trappen, patio's en paden. De Data Science Campus en Ordnance Survey (OS) hebben technieken voor teledetectie en machine learning gebruikt om de huidige aanpak om het aandeel vegetatie in Britse residentiële tuinen te identificeren en te verbeteren. Er werd een testbibliotheek gecreëerd met gelabelde afbeeldingen door 100 willekeurige foto's te nemen uit Bristol en Cardiff en deze onafhankelijk te classificeren. Deze foto's vormen de basis voor de werkelijke situatie. De toepassing van verschillende algoritmen op de gelabelde gegevens wees op een gevoeligheid van de classificatie voor de aanwezigheid van schaduw. Een classificatie via neurale netwerken werd ontwikkeld om deze effecten van schaduw te vermijden. De resultaten geven aan dat een neuraal netwerk vegetatie nauwkeuriger kan classificeren en minder gevoelig is voor het effect van schaduw in vergelijking met de andere algoritmen.

Karim Douïeb, data scientist en data visualisatie designer, mede-oprichter van Jetpack.AI
Waarom zijn officiële statistieken belangrijk om sociale kwesties te begrijpen?

Deze lezing illustreert hoe vrij beschikbare sociaal-demografische gegevens over België cruciaal zijn geweest in de context van de visuele exploratie in twee studies. De eerste studie wil ons bewust maken van de immigratiesituatie in Brussel en van de uitdagingen die voor ons liggen. De tweede studie gaat over een potentiële gezondheidscrisis gerelateerd aan de consumptie van opioïden in België.


Sessie 4. Voorwaarden voor een effectief gebruik van data science - Voorzitters: Johan Van der Valk and Sofie De Broe

Het nut van data science om beslissingen te ondersteunen, hangt niet enkel af van statistische en technische standaarden. Verschillende ethische en organisatorische kenmerken zijn belangrijke randvoorwaarden om een optimale context te creëren voor een effectief ‘data science’-gebruik. Vooreerst zijn er belangrijke debatten over ethiek en privacy gaande binnen het groeiende onderzoekdomein van data science, waarmee men rekening moet houden als deze technieken worden toegepast op real-life data. Ten tweede vergt de verdere ontwikkeling van een ‘data science’-capaciteit voor openbare statistieken de actieve samenwerking tussen statistische entiteiten binnen de overheid en internationale entiteiten zoals de VN en Eurostat. Dit volgt uit het globale karakter van vele 'big data'-databronnen en van huidige beleidsbeslissingen. Ten derde zijn de toeleveraars van big data dikwijls privébedrijven. Hoe kunnen we best een duurzame relatie opbouwen met deze toeleveraars? Ten slotte worden samenwerkingsverbanden opgezet met universiteiten en met bedrijven om het gebruik van deze beloftevolle technieken voor de ontwikkeling, productie en kwaliteitsverbetering van openbare statistieken te optimaliseren. Ook dit is een nieuwe uitdaging.

Johan Van der Valk, coördinator grensoverschrijdende statistieken, en Sofie De Broe, wetenschappelijk directeur van het Centre for Big Data Statistics, beide CBS, Nederland
Voorwaarden voor een effectief gebruik van data science

Deze presentatie gaat dieper in op de niet-methodologische uitdagingen voor een succesvolle toepassing van big data in officiële statistieken. Het toepassen van big data in officiële statistieken vereist specifieke voorwaarden die verschillen van deze bij de productie van traditionele statistieken. Belangrijke elementen zijn: het in vraag stellen van bestaande statistieken, het stimuleren van co-creatie met externe en internationale partners, waardoor de ontwikkeling en implementatie van nieuwe statistische producten mogelijk wordt. Om duurzame resultaten te bekomen is een samenwerking met de buitenwereld van andere dataproducenten, dataproviders en datagebruikers essentieel. Dit vereist een verandering van de cultuur en de houding en een specifiek data-ecosysteem. We zullen enkele voorbeelden geven om onze standpunten te illustreren.

Jasmine Grimsley, Senior Data Scientist, Data Science campus, Office for National Statistics, UK
Het onderhouden van ethische AI-systemen

Met de toenemende adoptie van AI in alle aspecten van ons leven, is het van cruciaal belang geworden om erop te kunnen vertrouwen dat AI op een ethische manier werkt over de tijd. Er zijn ethische kaders om ervoor te zorgen dat een prototype eerlijk, onbevooroordeeld en effectief is. In deze presentatie wordt onderzocht hoe het mogelijk is dat AI-systemen in de loop van de tijd kunnen afwijken van een ethisch ideaal. Er is dus behoefte aan onderhoudsprogramma's om ons ervan te verzekeren dat AI-tools veilig, betrouwbaar en tijdig blijven werken over de tijd. De onderzochte onderwerpen omvatten een nauwkeurige en onbevooroordeelde prestatie-evaluatie en het effectief onderhoud van systemen naarmate hun werkomgeving evolueert. Deze wijzigingen kunnen onder andere betrekking hebben veranderende maatschappelijke waarden, populaties, nieuwe en onvoorziene soorten van gegevens en het beleid.

Marc Ponsen, PhD. in het domein van artificiële intelligentie en data scientist, en Bob van de Berg, productontwikkelaar, beiden CBS, Nederland
Verrijking van de big data-ontologie voor grensoverschrijdende vacatures en arbeidsmarktstatistieken (CBS)

CBS, VDAB en UWV werken samen om een grensoverschrijdende ontologie voor de arbeidsmarkt te creëren, gebaseerd op de reeds bestaande 'Competente' ontologie ontwikkeld door de VDAB. Deze ontologie zal verrijkt worden met grensoverschrijdende vaardigheden en beroepen die afgeleid worden uit miljoenen Nederlandse en Vlaamse vacatureteksten. Ze zal de basis vormen voor nieuwe statistieken over de grensoverschrijdende vraag en aanbod op de Vlaamse en Nederlandse arbeidsmarkt.

15:10-16:15

Paneldebat

Het gebruik van nieuwe en nog ongebruikelijke databronnen vergt nieuwe werkwijzen binnen statistische entiteiten in vergelijking met de traditionele wijze van statistiekproductie, gebaseerd op surveys en administratieve data. De experten van het  panel zullen een aantal nieuwigheden binnen deze context bediscussiëren, waaronder de kansen en de opportuniteiten van deze nieuwe datatypes en hun bijbehorende methodologieën, de nieuwe aanpak bij het verkrijgen van data van externe dataproducenten tegenover de vroegere werkwijze van een eigen dataverzameling, het communiceren van de sterktes en beperkingen van deze nieuwe ‘data science’-benaderingen naar niet-experten toe, en sommige van de ethische uitdagingen in een data gedreven maatschappij.

Moderator: Philippe Van Impe, CEO, DigitYzer

Experten

  • Diego Kuonen, CEO Statoo Consulting, Professor in Data Science, Universiteit van Genève, Principal Scientific and Strategic Big Data and Data Science Adviseur voor het Directorate and the Board of Management van het Zwitsers Federaal Statistiek Instituut (FSO), Co-auteur van de FSO Data Innovation Strategy, Zwitserland
  • Martina Hahn, Afdelingshoofd Methodology and Innovation in Official Statistics, Eurostat
  • Sofie De Broe, Wetenschappelijk directeur van het Center for Big Data Statistics, CBS, Nederland
  • Roeland Beerten, Hoofdstatisticus, Statistiek Vlaanderen, België
16:15 Receptie


Praktische informatie

Wanneer Dinsdag 17 december 2019, van 10:00 tot 16:15
Waar Brussel, Tour & Taxis site (Havenlaan 86C, 1000 Brussel)
Taal Engels
Voor wie Voor iedereen met interesse in data, statistiek en data science, en hoe deze beleidsbeslissingen kunnen ondersteunen.
Prijs

Registratie is gratis.

Koffie, thee en water zijn de hele dag gratis beschikbaar. We voorzien een eenvoudige lunch en sluiten de dag af met een receptie. Deze zijn ook gratis, mits registratie op voorhand.


Route

Gratis busdienst

Er is een gratis pendeldienst tussen het treinstation Brussel-Noord en de site van Tour & Taxis. Op piekmomenten worden grotere bussen ingelegd; op rustigere momenten zijn er kleinere bussen. De pendeldienst werkt volgens het 'first come first serve'- principe. Tijdens piekuren kan het dus druk worden en is er geen vervoer verzekerd voor al de wachtenden.
De bushalte aan Brussel-Noord is aan de linkerzijde van de trappen als men de hoofduitgang van het station neemt (Simon Bolivarplein, aan de zij-ingang van het Proximus-gebouw).
Bushalte op de ‘Tour & Taxis’-site: er is een bushalte met een bushokje aan de ingang van de  site tussen het Herman Teirlinckgebouw en het Pakhuis.

Te voet Te voet vanuit het station Brussel-Noord
20 minuten
De aanbevolen wandelroute is via de Willebroekkaai.

Mensen die blinde geleidingstegels gebruiken, kunnen ook deze route volgen.
Route on Google maps
Auto U kan de route plannen in Google Maps

Parking
Parking up-site (500 meter van Tour &T axis) – Willebroekkaai 35 – 1000 Brussel
WTC-parking (nabij treinstation Brussel-Noord) - Simon Bolivarlaan – 1000 Brussel


Registratie
 

Het maximaal aantal inschrijvingen is bereikt. De inschrijvingen zijn afgesloten.
 


Nieuwsbrief Statistiek Vlaaanderen

Steeds op de hoogte blijven van alle evenementen van Statistiek Vlaanderen? Schrijf je in op onze nieuwsbrief.

 

 

In samenwerking met

Logo CBS

Kaart
In English