Waarom datamanagement urgent is voor jouw organisatie
Optimale gegevensbescherming of de ontwikkeling van een kwalitatief sterk eindproduct: veel bedrijven worstelen met deze paradox. Het belang van gegevenstoegankelijkheid tijdens de verkenningsfase van AI-gerelateerde projecten staat binnen steeds meer organisaties centraal. Enerzijds is volledige toegang tot data die de werkelijkheid weergeeft van belang om een optimaal product, proces of applicatie te kunnen ontwikkelen. Anderzijds vormt privacyregelgeving vaak een obstakel in dit proces. Kilian Toelge, data scientist en Sudhanya Mallick, computer science engineer, leggen uit waarom de juiste balans hierin moeilijk te vinden is. En hoe het optimaliseren van je datamanagement proces hierin een eerste voorwaardelijke stap is.
Is ‘echte data’ noodzakelijk voor ontwikkeling?
Voor het maken en testen van nieuwe machine learning (ML) gerelateerde producten en diensten die optimaal aansluiten bij de klant is data nodig. Bij klassieke software producten is de meest voor de hand liggende oplossing het gebruik van ‘mock data’, omdat hierbij vooral de structuur van de data van belang is. Deze nagemaakte gegevens of ‘nepdata' brengen geen risico’s omtrent privacy met zich mee en vergen geen vuistdikke contracten om veiligheid te waarborgen. Bij het ontwikkelen van ML-software is echter ook de inhoud en hoeveelheid data van belang. Toelge: “Dit geldt in principe voor alle softwareontwikkeling, maar het is cruciaal als je machine learning in een product wilt aanbrengen of bij de klant in ontwikkeling wilt brengen. Dan moet je het achterliggende AI-model trainen en de juiste beslissingen nemen voor de model architectuur op basis van de beschikbare data. Je wilt dat deze data representatief is. Het moet de werkelijkheid weergeven, anders heb je niets aan de resultaten van je analyse en maak je foute keuzes. Als je met nepdata werkt die onvolledig is of waar trends niet inzitten, bouw je een model met een architectuur dat uiteindelijk in productie minder goed of helemaal niet werkt.”
Veel bedrijven gebruiken losstaande ontwikkel-, test- en productieomgevingen. Maar bij machine learning is het juist van belang deze verschillende omgevingen aan elkaar te koppelen. In ieder geval als het om de beschikbare data op de omgevingen gaat. Want tijdens het ontwikkelproces en op de testomgeving moet je toegang hebben tot productie- of in ieder geval productiewaardige data.
Security en privacy
Risicomijdende strategieën zijn veelvoorkomend binnen IT-afdelingen. Hoe minder mensen toegang hebben, hoe kleiner het risico tot uitlekken is. Ransomware ligt constant op de loer en phishingmethodes worden steeds slimmer. De nadruk op security is dus niet heel gek. Toelge: “Wat we bij veel klanten zien, is dat je op alle mogelijke manieren tegen security aanloopt. Zoals uitgelegd: hebt productie of productiewaardige data nodig om te kunnen ontwikkelen. Maar productie data mag je vaak niet gebruiken en voor het maken van productiewaardige data bestaat geen geautomatiseerd en veilig proces. Het hoeft dan niet eens te gaan om privacygevoelige persoonsgegevens. Het kan ook voor het bedrijf gevoelige data zijn dat bepaalde strategische keuzes bevat of financiële data. Je maakt dus altijd de afweging tussen waar begint de veiligheid van data en waar begint de vrijheid als ontwikkelaar om de juiste keuzes te kunnen maken voor een applicatie die je wilt implementeren.”
Mallick voegt toe: “We zien bij bedrijven dat ontwikkelaars vaak work-arounds gebruiken om uiteindelijk alsnog aan productiedata te komen tijdens de ontwikkelfase. Deze work-arounds zijn vanuit een veiligheidsperspectief niet wenselijk. Je kunt ze voorkomen door een goed doordachte en opgezette datamanagementstrategie die rekening houdt met de wensen van data scientists en MLengineers.”
Hoe je toch productie of productiewaardige data kunt gebruiken
Het werken met productie en/of productiewaardige data heeft veel voordelen: het levert niet alleen een product van hogere kwaliteit op, het bespaart ook de tijd voor het aanmaken van mock data en is daardoor goedkoper. De veiligheidsrisico’s zijn echter groot. Om deze risico’s in te perken of zelfs te vermijden, zijn er twee gangbare oplossingen.
Vrij standaard is om ontwikkelteams alleen toegang te geven tot de voor hun noodzakelijke subsets/tabellen van de beschikbare data in een bedrijf. Hierdoor kun je er afhankelijk van de usecase voor zorgen dat teams helemaal niet te maken krijgen met persoonsgegevens en bedrijfsgevoelige data.
Voor andere teams die wel toegang nodig hebben tot gevoelige data is het belangrijk om een geautomatiseerd proces te hebben die de data omvormt tot productie-waardige data. Toelge: “Om te beginnen, het verwijderen of maskeren van gevoelige data zoals financiële gegevens of handelsgeheimen voordat je de productiegegevens naar de ontwikkelomgeving kopieert. Als het om persoonsgegevens gaat, kun je bijvoorbeeld voor- en achternamen, bankrekeningnummers, en adresgegevens husselen. Ook kun je gevoelige data met behulp van softwareprogramma’s vervagen of anonimiseren zodat ze niet meer te traceren is naar de bewuste persoon.” Hierbij is het voor ML-modellen nog belangrijk dat de statistische structuur van de data niet wordt veranderd.
Wat kan ik in mijn organisatie doen?
Steeds meer bedrijven zijn zich bewust van de uitdagingen en risico’s die er bij machine learning spelen. Hier komen nieuwe moeilijkheden mee: machine learning is voor veel organisaties nog zo nieuw dat de medewerkers nog niet voldoende kennis hebben en de techniek nog achterblijft. Toelge: “Google heeft in 2016 voor het eerst een deep learning model gebruikt binnen hun Google Translate service. Het vertalen van hele teksten is hierdoor veel beter geworden. De theorie achter deep learning bestaat al zeker vijftig jaar maar de rekenkracht die nodig is, hebben we pas sinds een paar jaar. Als een bedrijf als Google dit pas sinds zes jaar kan implementeren, is het niet verbazend te zien dat een middelgroot bedrijf in Nederland nog niet zo volwassen is met betrekking tot kennis en vaardigheden op het gebied van ML en AI.”
Een bijkomend probleem is de schaarste van expertise op het gebied van data management. Mallick: “Organisaties moeten zich bewust worden van de enorme rol die data door het hele bedrijf heen speelt. Het is belangrijk dat bedrijven data management opschalen. Benader data hetzelfde als alle andere waarden in je bedrijf en kijk hoe de business hier op in kan haken.”
Samenwerking tussen IT en de Business
Mallick pleit daarom voor een nauwe samenwerking tussen business en IT. “Beide disciplines weten vaak onvoldoende van elkaar waar ze op welke manier mee bezig zijn. Hiervoor is een ‘mindset shift’ nodig. IT heeft kennis van de business nodig om van ruwe data, data te maken die echt gebruikt kan worden binnen alle omgevingen van een ontwikkelproces. Bovendien gebruiken afdelingen zoals Marketing, Sales en HR data nét op een andere manier of zelfs andere data. Dat datamanagement proces moet worden gestroomlijnd binnen alle afdelingen van de organisatie en voor multinationals zelfs over landen heen. Door een gestandaardiseerd datamanagement proces te introduceren en daar awareness en draagvlak voor te creëren binnen je organisatie zorg je voor betrouwbare data. Zodat verschillende afdelingen beslissingen nemen, keuzes maken en diensten ontwikkelen op basis van dezelfde data.”
Stroomlijn datamanagement proces van binnen uit
Mallick: “Aan het maskeren van data of het introduceren en opschalen van een datamanagementproces verdienen IT-bedrijven een hoop geld. En dat blijft nog wel even zo want de expertise van data engineers en data consultants is in toenemende mate schaars. Juist vanwege dat tekort op de arbeidsmarkt is het verstandig om als bedrijf eigen werknemers in te zetten. Bijvoorbeeld door ze te upskillen en reskillen en op te leiden tot data professionals.” Toelge voegt toe: “Bij Capgemini Academy bieden we zowel trainingen en op de klant afgestemde leertrajecten op het gebied van machine learning en data science aan als op het gebied van data privacy en security.”
Mallick: “Capgemini adviseert al meer dan 45 jaar organisaties in verschillende fasen van hun datamanagementproces. Door het inzetten van consultants én door het inzichtelijk maken van de leer- en ontwikkelbehoeften van hun medewerkers. We richten ons hierbij niet alleen op de digitale 'hard' skills, maar ook op persoonlijke- en leiderschapsvaardigheiden. Op die manier leiden we dataspecialisten op die niet alleen technisch goed onderlegd zijn, maar ook in gesprek kunnen met de klant, feedback kunnen geven, en hun bevindingen kunnen presenteren. Samen met onze klanten ontwikkelen we vervolgens de best passende leer- en ontwikkeloplossingen. Dit kunnen trainingen zijn, maar ook andere vormen van leren, zoals serious gaming of hackathons. Zo benut je de kennis en ervaring van bestaande medewerkers optimaal om je datamanagementproces te verbeteren. En hoef je dus niet op zoek naar nieuwe mensen in deze zeer krappe arbeidsmarkt.”