| Start | 9-03-2026 |
| Einddatum | 31-12-2027 |
| Optie op verlenging | Ja |
| Uren per week | 24 |
| Locatie | Hybride: De standplaats van ICTU is Den Haag, maar vanwege het karakter van het project wordt digitaal op afstand gewerk |
| Bijzonderheden | Deze aanvraag is geschikt voor een ZZP'er. 2 CV's kan ik aanbieden echter 1fte wordt er gevraagd |
| Tarief | In overleg |
| Deadline | 3-3-2026 om 13.00 |
| Omschrijf de context van het project/programma waarin de activiteiten plaatsvinden, wanneer en op grond waarvan is het project/programma afgerond en welke rol heeft de professional binnen het project/programma? |
| Beschrijving project/programma: De samenleving verandert snel en signalen uit de maatschappij bereiken het ministerie van SZW in toenemende mate digitaal en ongestructureerd. Het is daarom van strategisch belang om deze signalen effectief te duiden en te vertalen naar responsief beleid, heldere communicatie en toekomstgerichte wetgeving. De afdeling Omgevingskennis & Responsiviteit (O&R) heeft hierin een centrale rol. Zij verzamelt en duidt signalen, genereert omgevingskennis en ondersteunt het ministerie in het ontwikkelen van passende responsiviteit. Het doel is om deze werkwijze technisch te professionaliseren binnen een betrouwbare data-omgeving waarin innovatieve technologie – zoals data-analyse en AI – op verantwoorde wijze wordt toegepast. Het project bevindt zich in de opstartfase. Er is een bestaand Databricks-platform op Azure beschikbaar, dat echter nog configuratie en projectspecifieke toegang vereist voor SZW brede signalering. De huidige datastroom is grotendeels handmatig (Excel op gedeelde schijven). Voor gebruik van persoonsgegevens in de cloud is toestemming van de Chief Privacy Officer vereist plus een Data Privacy Impact Assessment (DPIA), wat 3+ maanden duurt. Dit maakt een hybride aanpak noodzakelijk: pragmatisch starten met on-premise lokale setup voor privacy-gevoelige verwerking, terwijl de bestaande Azure/Databricks-omgeving parallel wordt ingericht voor projectgebruik. Daarnaast is SZW onderdeel van een overheidsbreed samenwerkingsverband waarin verschillende overheidspartijen uniform werken aan signalering. Binnen dit verband wordt er momenteel gewerkt aan het beschikbaar stellen van reeds ontwikkelde code voor signalering (o.a. een anonimiseringsscript en tekstminingsscripts), welke naar verwachting gebruikt gaan worden in het project. Omschrijving einde project/programma: De (voorlopige) einddatum van het project SZW brede signalering is 31-12-2026. Het project is afgerond zodra resultaten zijn opgeleverd aan opdrachtgever en decharge is verleend. De einddatum voor de oplevering van de PoC is eind mei 2026 (maand 4 van het project). Welke rol heeft de professional binnen het project/programma: De Data Engineer is verantwoordelijk voor het opzetten van de technische fundamenten van het signaalmanagementsysteem. Dit omvat het ontsluiten van databronnen, bouwen van robuuste data pipelines, implementeren van privacy-waarborgen (AVG-compliance), en het opzetten van de benodigde infrastructuur (hybride on-premise/cloud). De Data Engineer werkt nauw samen met de Senior Data Scientist die de modellen ontwikkelt en met het DACC team (Data and AI Competence Center) voor technische infrastructuur. |
| Welke opdracht gaat de professional uitvoeren en welke activiteiten horen daarbij? |
| De Data Engineer is verantwoordelijk voor het opzetten van de data engineering fundamenten voor signaalmanagement. De activiteiten die horen bij het realiseren van de opdracht zijn: 1. DATABRONNEN ONTSLUITEN EN AUTOMATISEREN - 4 databronnen operationaliseren: interne publieksvragen (handmatige datastroom automatiseren), social media (scraping, API-integratie), media monitoring (Coosto API waarschijnlijk niet ontsluitbaar; eigen media scraper noodzakelijk), publieke documenten (scraping) - Focus op ongestructureerde data: tekst, PDF, HTML, JSON - Handmatige processen (Excel workflows) vervangen door pipelines 2. DATA PIPELINES BOUWEN - ETL/ELT pipelines voor data cleaning, transformatie, normalisatie - CI/CD pipelines van ontwikkeling naar productie - Batch processing implementeren - Schone, gestructureerde data leveren aan Data Scientist 3. DATA-CATALOGUS OPZETTEN - Metadata en data lineage structureren - Documentatie databronnen, schemas, pipelines - Overzicht eigenaarschap, update frequentie, privacy overwegingen 4. PRIVACY, AVG-COMPLIANCE EN ANONIMISERING - Anonimiseringsscript ontwikkelen (i.s.m. Rotterdam) - On-premise machine opzetten voor lokaal draaien anonimisering - Werken met synthetische data voor ontwikkelfase - DPIA kennis en ondersteuning 5. INFRASTRUCTUUR OPZETTEN - Eerste fase: on-premise/lokale setup voor privacy-gevoelige verwerking (anonimisering, synthetische data) - Bestaand Databricks-platform op Azure configureren en inrichten voor projectgebruik (i.s.m. DACC) - NSK sandbox als aanvullende optie indien bestaande omgeving onvoldoende capaciteit biedt - Cloud strategie voor productiedata zodra CPO toestemming en DPIA gereed zijn |
| Welke concrete resultaten dient de professional te behalen? Resultaten dienen concreet en meetbaar te zijn. |
| Opleveren van (deel)resultaten:
Na oplevering/acceptatie van de genoemde deelresultaten zal een eindrapportage worden opgeleverd met: - Bereikte resultaten (werkende pipelines, data beschikbaarheid) - Technische documentatie en architectuurdiagram - Aanbevelingen voor het vervolg (opschaling naar alle 4 databronnen, cloud migratiestrategie) - Kennisoverdracht aan DACC team en Lead Data Scientist - Handover documentatie voor toekomstig onderhoud Wanneer is de opdracht afgerond en beëindigd: Na oplevering en acceptatie van alle deliverables aan opdrachtgever. |
| Hoe wat en wanneer zal het werk/de resultaten worden beoordeeld? Detailleer de criteria en momenten voor feedback en beoordeling. Voorbeeld: maandelijkse voortgangsrapporten en een eindbeoordeling bij projectafsluiting. |
| De voortgang wordt beoordeeld op basis van vooraf overeengekomen criteria, waaronder:
De beoordeling vindt plaats via vooraf geplande evaluatiemomenten, waaronder:
|
| Wat is de kans dat de verwachte duur wordt overschreden, c.q. welke onzekerheden er zijn t.a.v. de verwachte duur? |
| De werkzaamheden worden uitgevoerd binnen het project SZW brede signalering. Overschrijding van de eerste periode van 3 maanden kan optreden indien: 1. Azure sandbox goedkeuring langer duurt dan verwacht (CPO toestemming + DPIA proces >3 maanden) 2. Databronnen complexer blijken dan verwacht (vooral Coosto integratie en social media scraping) 3. Opdrachtgever SZW besluit de scope uit te breiden op basis van eerste resultaten Ervaring is dat uitbreiding van scope regelmatig gebeurt in dit soort trajecten. De verwachting is echter dat de eerste 3 maanden voldoende zijn voor het opleveren van de gedefinieerde deelresultaten, met verlenging tot eind 2026 voor volledige opschaling naar alle 4 databronnen en productionalisatie. |
| Over welke specifieke kennis beschikt de professional, waarover het eigen personeel van de Opdrachtgever niet beschikt en waar een eventuele vervanger ook over zou moeten beschikken? |
|
| Gewenste profiel | |||
| Als Senior Data Engineer ben je de fundering van SZW brede signalering. Je bouwt de technische fundamenten in een complexe omgeving zonder kant-en-klare cloud infrastructuur. Dit vraagt om creativiteit, doorzettingsvermogen en pragmatisme, maar betekent ook dat je directe impact hebt en ruimte krijgt om architectuurkeuzes te maken. Een cruciaal onderdeel van je rol is nauwe samenwerking met de Senior Data Scientist (data delivery requirements), het DACC team (technische infrastructuur), en het begeleiden van een stagiair met SQL pipelines. |
|||
| Eisen | |||
|
|||
| Wensen | |||
| Nr | Omschrijving | Gewicht | Beoordeling |
| W1 | Azure ervaring (Data Factory, Databricks, Data Lake, of vergelijkbare cloud data services) | 20% | > 5 jaar ervaring = 10 punten > 3 – 5 jaar ervaring = 8 punten > 1 – 3 jaar ervaring = 4 punten < 1 jaar ervaring = 2 punten Geen ervaring = 0 punten |
| W2 | Python/PySpark + SQL voor data engineering en automation | 20% | > 5 jaar ervaring = 10 punten > 3 – 5 jaar ervaring = 8 punten > 1 – 3 jaar ervaring = 4 punten < 1 jaar ervaring = 2 punten Geen ervaring = 0 punten |
| W3 | CI/CD pipelines (YAML, GitHub Actions, Azure DevOps, of vergelijkbaar) | 10% | > 3 jaar ervaring = 10 punten > 1-3 jaar ervaring = 6 punten < 1 jaar ervaring = 4 punten Geen ervaring = 0 punten |
| W4 | Performance optimization van data pipelines (aantoonbare snelheidswinst/cost reduction) | 10% | Meerdere projecten met aantoonbare resultaten = 10 punten Één project met goede resultaten = 6 punten Ervaring maar geen harde cijfers = 4 punten Geen ervaring = 0 punten |
| W5 | Ervaring met privacy-gevoelige data (overheid, gezondheid, financieel) en DPIA proces | 10% | > 3 jaar ervaring + DPIA kennis = 10 punten > 1-3 jaar ervaring = 6 punten < 1 jaar ervaring = 4 punten Geen ervaring = 0 punten |
| W6 | On-premise én cloud projecten (flexibiliteit in beide omgevingen) | 10% | Ruime ervaring beide omgevingen = 10 punten Ervaring één omgeving, basis in andere = 6 punten Alleen cloud of alleen on-premise = 4 punten |
| Prijs | |
| Gewicht van prijs bij beoordeling | 20% |