Metadata blijft een zwakke plek voor cloudsoevereiniteit

10 uren geleden 1

De VS zou bij de metadata van public cloud-gebruikers kunnen komen, ook als ze het soevereine aanbod van een Amerikaanse hyperscaler gebruiken. Volgens de juristen die dit onderzochten, kunnen de Amerikanen niet bij ‘klantendata’ bij de AWS European Sovereign Cloud. Maar wat maakt metadata over hen geen klantendata? En wat kun je leren over cloudgebruikers op basis van de metadata die ze achterlaten, zelfs als hun ‘persoonlijke’ gegevens veiliggesteld lijken?

Metadata is altijd lastig te definiëren. Feitelijk is het oneindig, omdat informatie over informatie in alle vormen kan voorkomen. Het vormt de basis voor zoekmachines en administratieve processen. Daarnaast is het binnen IT-systemen nuttig voor monitoring. Dit is waarom hyperscalers, of ze nu AWS, Google Cloud of Microsoft Azure heten, toegang houden tot bepaalde metadata. Denk daarbij aan capaciteitsbeheer, system health, het aantal deployments en fraudedetectie. Zogeheten operationele metadata vertrekt uit Europa bij in ieder AWS en vermoedelijk geldt hetzelfde bij Google en Microsoft. Zelfs de EU Data Boundary van Microsoft sluit niet uit dat bepaalde metadata Amerika bereikt vanuit Europa.

De hyperscalers maken allemaal een net iets andere scheiding tussen soorten metadata. Zo hanteert Microsoft diagnostische data voor wanneer admins of gebruikers met een dienst werken, inclusief IP-adressen, client-locaties en routing-informatie. Service-gegenereerde data betreft traffic-patronen en logs over gebruik voor health monitoring. Google Cloud doet ongeveer hetzelfde met Admin Activity- en Data Access-audit logs. Bij AWS spreekt men van telemetrie op dezelfde manier als de andere twee cloudreuzen over metadata praten. Het bedrijf verzamelt deze data om te “begrijpen hoe features gebruikt worden, en om onze diensten te verbeteren”. Er zijn opt-outs voor AI-training en gebruikersgedrag, maar niet de telemetrie voor packet routing en facturering.

Waardevolle informatie

In de context van de public cloud is metadata dus opgesplitst. De precieze indeling van ingekochte resources, rollen, permissies, resource labels en configuraties behoren tot de klantendata. Daar kan AWS dus niet bij, blijkt uit de analyse van advocantenkantoor Greenberg Traurig die gek genoeg niet meer online te vinden is. Hieronder hebben we nog wel een overzicht van de opgedeelde metadata:

Tabel waarin de opslaglocatie en overdrachtsregels voor klantgegevens en metadata in AWS worden vergeleken, met de verschillen tussen opslag en overdracht binnen en buiten de EU, met en zonder toestemming van de klant.

De opsplitsing van metadata is begrijpelijk, maar leunt wel op goed gedrag van de hyperscaler. De data die AWS voorhanden heeft van een buitenlandse overheidsinstelling die de European Sovereign Cloud gebruikt, is nog altijd aanzienlijk. Op zijn minst laat de metadata zien wat een AWS-klant aan cloudresources consumeert en wat men hiervoor betaalt. Aangezien de exacte informatie niet gedeeld wordt door de hyperscalers, is het onbekend of die consumptie ook te lokaliseren is. De AWS European Sovereign Cloud wordt beheerd als aparte eenheid buiten het reguliere AWS, dus door die scheiding is zelfs geänonimiseerde data minder anoniem dan je zou denken. Er zijn mogelijk vrij weinig soevereine klanten en als AWS kan nagaan welk datacenter men gebruikt en hoeveel resources er gebruikt worden, is het wellicht eenvoudig om te achterhalen om welke klant het gaat.

Het probleem bij die conclusie is dat we dit niet zeker kunnen weten. Precies die onduidelijkheid maakt metadata een ‘black box’ voor soevereiniteit. Ook voor doodgewone klanten is het belangrijk om aandacht te hebben voor de metadata. Aangezien de cloudspelers hun architectuur nooit in detail laten zien, blijft het giswerk. Vandaar de nadruk op wie de metadata kan inzien, voorbij wat die metadata precies is.

Wie versus wat

De implicatie achter het opsplitsen van metadata is dat niet al deze informatie even belangrijk is om privé te houden. Klantendata ‘zelf’, ofwel de werkelijke bestanden, applicaties en identiteiten van een cloudomgeving, blijft volgens de hyperscalers binnen de Europese Unie voor soevereine klanten. Ook de metadata die direct door de configuratie van de eigen omgeving wordt gegenereerd, blijft binnen de EU.

Het recente rapport van Greenberg Traurig stipt aan dat de AWS Sovereign Cloud-metadata nog op een extra ‘beschermingslaag’ rust: Europese werknemers. Op den duur moet het volledig bezet zijn door Europese burgers die ook binnen de EU wonen. Zo blijkt dat het bedrijf zich bewust is van de onduidelijke aard van de metadata; zonder precies te weten wat AWS over klanten weten, is het belangrijk om te bevestigen wie deze informatie te zien krijgt.

In algemene zin bestaat metadata door een kunstmatige scheiding. Wie het functioneren van een public cloud monitort, gebruikt de hierboven besproken metadata feitelijk als hun primaire informatie. Ook is metadata voor een vendor mogelijk een stuk belangrijker voor de eindgebruiker dan voor een platformbeheerder. Denk aan het datalek op X in april 2025, toen er naast e-mailadressen ook locatiedata en de app waar een gebruiker een bericht vandaan heeft gestuurd. Dergelijke gegevens kunnen net zo goed gebruikt worden voor een overtuigende phishing-mail als ‘primaire’ informatie zoals privéberichten. Het gebruik van de term ‘metadata’ is hier slechts nuttig om de gevoelsmatige impact van een datalek te verzachten.

Populaire fitness-apps zien locatiedata eveneens doorgaans als ‘metadata’, ook al zijn de GPS-routes van gebruikers dermate gevoelig dat ze iemands woning kunnen lokaliseren of het bestaan van geheime legerbasissen blootlegt. Die losse interpretatie van metadata hoeft niet uit kwade wil te zijn. Voor een softwareteam bestaat de primaire data normaliter uit account-informatie, instellingen, (privé)berichten, bankgegevens en meer gevoelige gegevens. Context is echter alles, en gebruikers komen zelden te weten wat hun data naast het eigen profiel over hen kan blootleggen.

Dat developers het gevaar van metadata niet altijd inzien, blijkt uit het feit dat Git-commits regelmatig gebruikersnamen, workstation-namen of de gebruikte IDE blootleggen. Het rond laten slingeren van extra informatie die niet direct gevoelig lijkt, is een gewoonte geworden.

Binnen de specifieke context van een soevereine cloud is metadata plotseling een zichtbare zwakke plek, juist doordat het onduidelijk is en expres onvolledig wordt blootgelegd. Die onduidelijkheid geeft een hyperscaler beweegruimte om, zelfs naar eer en geweten, extra informatie op te slaan die de eigen infrastructuur op de been houdt. Dit creëert een grijs gebied waardoor informatie over informatie op zichzelf al erg veelzeggend kan zijn. Alles hangt af van de context waarin het zich bevindt, en als die al genoeg verraadt, is de metadata waardevol. Het is om die reden belangrijk om je af te vragen of je jezelf als cloudgebruiker volledig anoniem kunt maken, nog los van de mogelijkheid dat een kwaadwillende via social engineering binnenkomt. Het lijkt vooralsnog belangrijker om te weten wie deze data verzamelt en waarom dan wat die data precies zegt, of het nu privégegevens heten of metadata.

Lees het hele artikel