logo

Bekijk alle vacatures

Senior Data Engineer Data bricks

Den haag, zuid-holland
Voor onze klant ICTU, zoeken wij een senior Data Engineer "data bricks" brede signalering
 
Start 9-03-2026
Einddatum 31-12-2027
Optie op verlenging Ja
Uren per week 24
Locatie Hybride: De standplaats van ICTU is Den Haag, maar vanwege het karakter van het project wordt digitaal op afstand gewerk
Bijzonderheden Deze aanvraag is geschikt voor een ZZP'er. 2 CV's kan ik aanbieden echter 1fte wordt er gevraagd
Tarief In overleg
Deadline 3-3-2026 om 13.00

Aantekeningen vanuit inhurende manager
SZW brede signalering
Programma zit in Opstartfase, er dient veel opgezet te worden, klein team

Data bricks prio, wordt gebruikt, en is een prio in de wensen, Als 2e Azure (kunnen opzetten)
En 3 . textmining, scraping
Je bent wat minder met uitvoerende signaal team betrokken maar wel met het DAC team en in deze overleggen

Moet wel kunnen samenwerken met de vorige maand gestarte data scientist (sociaal persoon), de kandidaat vormt een koppeltje.

Niet zo politiek gevoelig, wel met tegenslagen en vertraging kunnen omgaan
Projectleider doet stakeholder managementHoeft perse overheidservaring te hebben , al is dat een pre. Ook is het een bonus als je  te zijn, wel voor maatschappelijk betrokken bent en in projecten voor burgers wilt participeren.
Opleiding en diploma WO is belangrijk voor niveau en manier van denken en ook de data scientist goed te kunnen begrijpen.

 
Omschrijf de context van het project/programma waarin de activiteiten plaatsvinden, wanneer en op grond waarvan is het project/programma afgerond en welke rol heeft de professional binnen het project/programma? 
Beschrijving project/programma: 
De samenleving verandert snel en signalen uit de maatschappij bereiken het ministerie van SZW in toenemende mate digitaal en ongestructureerd. Het is daarom van strategisch belang om deze signalen effectief te duiden en te vertalen naar responsief beleid, heldere communicatie en toekomstgerichte wetgeving.

De afdeling Omgevingskennis & Responsiviteit (O&R) heeft hierin een centrale rol. Zij verzamelt en duidt signalen, genereert omgevingskennis en ondersteunt het ministerie in het ontwikkelen van passende responsiviteit. Het doel is om deze werkwijze technisch te professionaliseren binnen een betrouwbare data-omgeving waarin innovatieve technologie – zoals data-analyse en AI – op verantwoorde wijze wordt toegepast.

Het project bevindt zich in de opstartfase. Er is een bestaand Databricks-platform op Azure beschikbaar, dat echter nog configuratie en projectspecifieke toegang vereist voor SZW brede signalering. De huidige datastroom is grotendeels handmatig (Excel op gedeelde schijven). Voor gebruik van persoonsgegevens in de cloud is toestemming van de Chief Privacy Officer vereist plus een Data Privacy Impact Assessment (DPIA), wat 3+ maanden duurt. Dit maakt een hybride aanpak noodzakelijk: pragmatisch starten met on-premise lokale setup voor privacy-gevoelige verwerking, terwijl de bestaande Azure/Databricks-omgeving parallel wordt ingericht voor projectgebruik.

Daarnaast is SZW onderdeel van een overheidsbreed samenwerkingsverband waarin verschillende overheidspartijen uniform werken aan signalering. Binnen dit verband wordt er momenteel gewerkt aan het beschikbaar stellen van reeds ontwikkelde code voor signalering (o.a. een anonimiseringsscript en tekstminingsscripts), welke naar verwachting gebruikt gaan worden in het project.
 
Omschrijving einde project/programma: 
De (voorlopige) einddatum van het project SZW brede signalering is 31-12-2026. Het project is afgerond zodra resultaten zijn opgeleverd aan opdrachtgever en decharge is verleend. De einddatum voor de oplevering van de PoC is eind mei 2026 (maand 4 van het project).
 
Welke rol heeft de professional binnen het project/programma: 
De Data Engineer is verantwoordelijk voor het opzetten van de technische fundamenten van het signaalmanagementsysteem. Dit omvat het ontsluiten van databronnen, bouwen van robuuste data pipelines, implementeren van privacy-waarborgen (AVG-compliance), en het opzetten van de benodigde infrastructuur (hybride on-premise/cloud). De Data Engineer werkt nauw samen met de Senior Data Scientist die de modellen ontwikkelt en met het DACC team (Data and AI Competence Center) voor technische infrastructuur. 
 
Welke opdracht gaat de professional uitvoeren en welke activiteiten horen daarbij? 
 
 De Data Engineer is verantwoordelijk voor het opzetten van de data engineering fundamenten voor signaalmanagement.

De activiteiten die horen bij het realiseren van de opdracht zijn:

1. DATABRONNEN ONTSLUITEN EN AUTOMATISEREN
   - 4 databronnen operationaliseren: interne publieksvragen (handmatige datastroom automatiseren), social media (scraping, API-integratie), media monitoring (Coosto API waarschijnlijk niet ontsluitbaar; eigen media scraper noodzakelijk), publieke documenten (scraping)
   - Focus op ongestructureerde data: tekst, PDF, HTML, JSON
   - Handmatige processen (Excel workflows) vervangen door pipelines

2. DATA PIPELINES BOUWEN
   - ETL/ELT pipelines voor data cleaning, transformatie, normalisatie
   - CI/CD pipelines van ontwikkeling naar productie
   - Batch processing implementeren
   - Schone, gestructureerde data leveren aan Data Scientist

3. DATA-CATALOGUS OPZETTEN
   - Metadata en data lineage structureren
   - Documentatie databronnen, schemas, pipelines
   - Overzicht eigenaarschap, update frequentie, privacy overwegingen

4. PRIVACY, AVG-COMPLIANCE EN ANONIMISERING
   - Anonimiseringsscript ontwikkelen (i.s.m. Rotterdam)
   - On-premise machine opzetten voor lokaal draaien anonimisering
   - Werken met synthetische data voor ontwikkelfase
   - DPIA kennis en ondersteuning

5. INFRASTRUCTUUR OPZETTEN
   - Eerste fase: on-premise/lokale setup voor privacy-gevoelige verwerking (anonimisering, synthetische data)
   - Bestaand Databricks-platform op Azure configureren en inrichten voor projectgebruik (i.s.m. DACC)
   - NSK sandbox als aanvullende optie indien bestaande omgeving onvoldoende capaciteit biedt

   - Cloud strategie voor productiedata zodra CPO toestemming en DPIA gereed zijn
 
 
Welke concrete resultaten dient de professional te behalen? Resultaten dienen concreet en meetbaar te zijn. 
 
Opleveren van (deel)resultaten: 
  • Een datacatalogus met overzicht van alle relevante databronnen, inclusief eigenaarschap, update frequentie, privacy en ethische overwegingen.
Werkende data pipelines voor minimaal 2 van de 4 databronnen (prioriteit: interne publieksvragen en media).
  • Anonimiseringsscript geïmplementeerd en draaiend op on-premise machine voor privacy-gevoelige databronnen.
  • Schone, gestructureerde data beschikbaar voor Data Scientist voor modelontwikkeling (minimaal 1 databron volledig operationeel).
  • Azure sandbox omgeving aangevraagd en (indien goedgekeurd) basis-infrastructuur ingericht.
  • Technische documentatie van pipelines, data schemas, en architectuurkeuzes. 
Welke eindresultaten zal de professional aan het einde van de opdracht dienen op te leveren.  
Na oplevering/acceptatie van de genoemde deelresultaten zal een eindrapportage worden opgeleverd met:
- Bereikte resultaten (werkende pipelines, data beschikbaarheid)
- Technische documentatie en architectuurdiagram
- Aanbevelingen voor het vervolg (opschaling naar alle 4 databronnen, cloud migratiestrategie)
- Kennisoverdracht aan DACC team en Lead Data Scientist
- Handover documentatie voor toekomstig onderhoud
 
Wanneer is de opdracht afgerond en beëindigd: 
Na oplevering en acceptatie van alle deliverables aan opdrachtgever.
 
Hoe wat en wanneer zal het werk/de resultaten worden beoordeeld? 
Detailleer de criteria en momenten voor feedback en beoordeling. Voorbeeld: maandelijkse voortgangsrapporten en een eindbeoordeling bij projectafsluiting. 
 
De voortgang wordt beoordeeld op basis van vooraf overeengekomen criteria, waaronder:
  • Tijdige oplevering van resultaten: De professional levert de afgesproken producten en resultaten binnen de vastgestelde termijnen, op basis van tussentijdse planningsafspraken met de opdrachtgever
  • Kwaliteit van de opgeleverde producten: De pipelines voldoen aan de overeengekomen standaarden, zijn robuust, gedocumenteerd en voldoen aan privacy/AVG vereisten.
  • Bijdrage aan samenwerking: De professional draagt zelfstandig bij aan een effectieve samenwerking binnen het project SZW brede signalering

De beoordeling vindt plaats via vooraf geplande evaluatiemomenten, waaronder:
  • Wekelijkse voortgangsoverleggen met opdrachtgever
  • Maandrapportages met schriftelijke voortgangsoverzichten.
  • Eindrapportage
Wat is de kans dat de verwachte duur wordt overschreden, c.q. welke onzekerheden er zijn t.a.v. de verwachte duur? 
De werkzaamheden worden uitgevoerd binnen het project SZW brede signalering. Overschrijding van de eerste periode van 3 maanden kan optreden indien:

1. Azure sandbox goedkeuring langer duurt dan verwacht (CPO toestemming + DPIA proces >3 maanden)
2. Databronnen complexer blijken dan verwacht (vooral Coosto integratie en social media scraping)
3. Opdrachtgever SZW besluit de scope uit te breiden op basis van eerste resultaten

Ervaring is dat uitbreiding van scope regelmatig gebeurt in dit soort trajecten. De verwachting is echter dat de eerste 3 maanden voldoende zijn voor het opleveren van de gedefinieerde deelresultaten, met verlenging tot eind 2026 voor volledige opschaling naar alle 4 databronnen en productionalisatie.  
Over welke specifieke kennis beschikt de professional, waarover het eigen personeel van de Opdrachtgever niet beschikt en waar een eventuele vervanger ook over zou moeten beschikken? 
  • TECHNISCH:
  • - Python + SQL (data engineering, automation)
  • - Ongestructureerde data processing (text, PDF, HTML, JSON parsing)
  • - API integratie (REST APIs voor social media, media feeds)
  • - ETL/ELT pipeline ontwerp en implementatie
  • - Batch processing (Spark, pandas, of vergelijkbaar)
  • - Orchestration tools (Airflow, Prefect, Azure Data Factory)
  • - CI/CD pipelines (YAML, GitHub Actions, Azure DevOps)
  • - On-premise én cloud ervaring (flexibiliteit in beide omgevingen)
 
  • PRIVACY & GOVERNANCE:
  • - Data anonimisering/pseudonimisering praktische ervaring
  • - AVG/GDPR basiskennis en bewustzijn
  • - Data Privacy Impact Assessment (DPIA) begrip
  • - Data cataloging (metadata management, lineage)
 
  • INFRASTRUCTUUR:
  • - Azure ervaring (bij voorkeur Data Factory, Databricks, Data Lake)
  • - On-premise setup en beheer
  • - Cost management cloud omgevingen
 
  • SOFT SKILLS:
  • - Zelfstandigheid (minimale begeleiding)
  • - Pragmatisch werken (van prototype naar PoC, 80/20 regel)
  • - Sterke documentatie vaardigheden
  • - Mentoring/kennisdeling (begeleiding stagiair)
 
Gewenste profiel
Als Senior Data Engineer ben je de fundering van SZW brede signalering. Je bouwt de technische fundamenten in een complexe omgeving zonder kant-en-klare cloud infrastructuur. Dit vraagt om creativiteit, doorzettingsvermogen en pragmatisme, maar betekent ook dat je directe impact hebt en ruimte krijgt om architectuurkeuzes te maken.

Een cruciaal onderdeel van je rol is nauwe samenwerking met de Senior Data Scientist (data delivery requirements), het DACC team (technische infrastructuur), en het begeleiden van een stagiair met SQL pipelines.
 
Eisen
  1. Afgeronde HBO- of WO-opleiding (bijv. Informatica, Computer Science, Data Engineering).
  2. Aantoonbare ervaring als Data Engineer (minimaal 5-7 jaar relevante werkervaring)
  3. Ruime aantoonbare ervaring met ongestructureerde data processing (text data, PDF, HTML, JSON parsing; API integratie; data cleaning en normalisatie)
  4. Aantoonbare ervaring met ETL/ELT pipelines, batch processing, en data modeling
  5. Aantoonbare ervaring met data anonimisering/pseudonimisering en AVG/GDPR compliance
  6. Vermogen om technische complexiteit te vertalen naar begrijpelijke taal en samen te werken met Senior Data Scientist en DACC team

 
Wensen
Nr Omschrijving Gewicht Beoordeling
W1 Azure ervaring (Data Factory, Databricks, Data Lake, of vergelijkbare cloud data services) 20% > 5 jaar ervaring = 10 punten
> 3 – 5 jaar ervaring = 8 punten
> 1 – 3 jaar ervaring = 4 punten
< 1 jaar ervaring = 2 punten
Geen ervaring = 0 punten
W2 Python/PySpark + SQL voor data engineering en automation 20% > 5 jaar ervaring = 10 punten
> 3 – 5 jaar ervaring = 8 punten
> 1 – 3 jaar ervaring = 4 punten
< 1 jaar ervaring = 2 punten
Geen ervaring = 0 punten
W3 CI/CD pipelines (YAML, GitHub Actions, Azure DevOps, of vergelijkbaar) 10% > 3 jaar ervaring = 10 punten
> 1-3 jaar ervaring = 6 punten
< 1 jaar ervaring = 4 punten
Geen ervaring = 0 punten
W4 Performance optimization van data pipelines (aantoonbare snelheidswinst/cost reduction) 10% Meerdere projecten met aantoonbare resultaten = 10 punten
Één project met goede resultaten = 6 punten
Ervaring maar geen harde cijfers = 4 punten
Geen ervaring = 0 punten
W5 Ervaring met privacy-gevoelige data (overheid, gezondheid, financieel) en DPIA proces 10% > 3 jaar ervaring + DPIA kennis = 10 punten
> 1-3 jaar ervaring = 6 punten
< 1 jaar ervaring = 4 punten
Geen ervaring = 0 punten
W6 On-premise én cloud projecten (flexibiliteit in beide omgevingen) 10% Ruime ervaring beide omgevingen = 10 punten
Ervaring één omgeving, basis in andere = 6 punten
Alleen cloud of alleen on-premise = 4 punten
 
Prijs
Gewicht van prijs bij beoordeling 20%
ICTU behoudt zich het recht voor om indien onverwacht een te hoog uurtarief (qua budget) wordt aangeboden, om op basis hiervan een kandidaat als niet passend te verklaren
Algemeen beoordeling werkzaamheden
De professional verricht het werk naar eigen inzicht. ICTU kan wel aanwijzingen en instructies geven omtrent het resultaat en de doorlooptijd van de werkzaamheden. In geval van samenwerking met anderen vindt afstemming plaats met ICTU, voor zover dat voor de uitvoering van de werkzaamheden nodig is.

BYOD
ICTU biedt BYOD voorzieningen aan voor externe medewerkers. Van de externe medewerker wordt verwacht dat diegene beschikt over een passend apparaat (laptop) en een mobiele telefoon om diens werk uit te voeren. Aan de externe medewerker gevraagd (digitaal) akkoord te gaan met het ingevoerde reglement zakelijke apparatuur.
Tijdens het intakegesprek zal dit reglement op hoofdlijnen worden doorgenomen. ICTU hanteert voor ICT voorzieningen een N-1 beleid, concreet betekent dit dat naast de huidige versie, 1 lagere voorgaande versie, mits door de leverancier ondersteund, wordt toegelaten tot de ICTU infrastructuur.

Graag ontvang ik het CV van mogelijk passende kandidaten. Houd bij aanbieden rekening met de onderstaande punten (zonder deze info kan het CV helaas niet mee worden genomen in de selectie!):

1.Nederlandstalig CV (Word doc.) van max 5 a 6 pagina's. Indien een Engelstalig CV nodig is dan staat dit in de aanvraag bij de eisen vermeld.
2.Motivatie gericht op de vacature. Dit kan kort d.m.v. ja de ervaring heb ik opgedaan / de werkzaamheden heb ik gedaan in de perioden x  bij de organisaties y. Dus puntsgewijs per eis, wens en werkzaamheden (graag deze ervaring & werkzaamheden in het CV vermelden in de betreffende perioden).
Naast de puntsgewijze motivatie van de wensen ook het aantal punten er bij vermelden; zie kolom beoordeling, dit geldt alleen voor de ICTU aanvragen!
3.Volledige naam + de officiële voorletters zoals in het paspoort staat
4.Vakantieplannen in de komende 3 maanden

Met vriendelijke groeten,
 
Arnold Vonk
Recruitment Consultant
Vrije dag op vrijdag, oneven weken
+31 6 14668383
arnold@flexvalue.nl  

 

Deel deze vacature

Powered by