Forskere analyserer de nåværende funnene om konfidensiell dataassistert maskinlæring ML-sikkerhets- og personvernteknikker sammen med begrensningene i eksisterende TEE-systemer (Trusted Execution Environment)


Utviklingen av maskinlæring (ML) gir bredere bruksmuligheter. Men brede applikasjoner øker også risikoen for store angrepsflater på MLs sikkerhet og personvern. . ML-modeller bruker sannsynligvis private og noen ganger sensitive data, for eksempel spesifikk informasjon om personer (navn, bilder, adresser, preferanser osv.). I tillegg kan arkitekturen til nettverket bli stjålet. Som svar på disse risikoene har flere metoder for anonymisering av data og sikring av de ulike stadiene i maskinlæringsprosessen blitt utviklet og er fortsatt under utvikling. På den annen side blir disse løsningene bare sjelden brukt.

I en faglig sammenheng kan de ulike trinnene (opplæring/inferens) og dataene som er nødvendige for driften av modellen innehas av ulike interessenter, som kunder og selskaper. I tillegg kan de oppstå eller lagres på forskjellige steder (modellleverandørserver, dataeier, skyen osv.). Risikoen for angrep kan være tilstede i alle disse enhetene. En lovende metode for å oppnå pålitelig ML for å sikre personvern er konfidensiell databehandling. Gitt viktigheten og utfordringene knyttet til sikkerheten og konfidensialiteten til maskinlæringsmodeller, foreslo et forskerteam fra England et dokument om systemisering av kunnskap (SoK). I denne artikkelen introduserte forfatterne problemet og tilbød fremtidige løsninger for å oppnå ML med Confidential Computing for maskinvaren, systemet og rammeverket.

De forfattere bekrefte at Confidential Computing-teknologien sikrer et nivå av sikkerhet for personvern og integritet når du bruker Trusted Execution Environments (TEE) for å kjøre koder på data. TEE er en av de nyeste metodene for å isolere og verifisere kodekjøring i beskyttet minne, også kjent som enklaver eller sikker verden, og vekk fra vertens privilegerte systemstabler som operativsystemet eller hypervisoren. Den er basert på de utfordrende nøklene: roten til tillitsmåling, ekstern tillitsetablering og attestasjon, og pålitelig kodeutførelse og kompartmentalisering. Eiere av data/modeller må i det skjulte levere sine data/modeller til TEE-en til den upålitelige verten i Confidential Computing-assistert ML. For å være mer presis, forbereder eierne modellen og/eller dataene, utfører fjernattestering for å sikre integriteten til den eksterne TEE-en, og oppretter deretter sikre kommunikasjonskanaler med TEE-en. Den primære funksjonen som tilbys av konfidensiell databehandling er separasjon av enklaver/TEEer fra det upålitelige miljøet med maskinvareassistanse.

I denne SoK-artikkelen er det presentert flere anbefalinger. Forfatterne mener personvernkonseptet fortsatt er uklart sammenlignet med sikkerhet eller integritet. For å ha en velbegrunnet personvernforsikring, må man etablere det teoretisk baserte beskyttelsesmålet, for eksempel med differensiell personverninformasjon. De insisterer på at oppstrømsdelen av ML-rørledningen, for eksempel dataforberedelse, må beskyttes for enhver pris fordi fraværet har uunngåelige skadevirkninger. Ved å inkludere TEE-basert verifisering i datasignaturen, kan det oppnås. Hele ML-rørledningsbeskyttelsen kan også dra nytte av flere TEEer/konklaver. Det er nødvendig å nøye undersøke personvern- og integritetssvakhetene til ulike ML-komponenter (lag, funksjonskart, tallberegninger) før man utformer ML-rammeverket for å være TEE-bevisst og partisjonerbart for heterogene TEE. I tillegg er det nødvendig å administrere TEE-systemet for å effektivt beskytte de mest sensitive ML-komponentene med høy prioritet.

I denne artikkelen har vi sett en spennende og utfordrende ny æra knyttet til å beskytte ML mot personvernlekkasjer og integritetsbrudd ved bruk av konfidensielle databehandlingsteknikker. Selv om det har vært gjenstand for en rekke studier å kjøre trenings- og slutningsprosessene. De fortsetter å slite med mangelen på tillitsressurser i TEE-er. De eksisterende beskyttelsestiltakene garanterer kun konfidensialiteten og integriteten til opplærings-/slutningsfasen i hele ML-pipeline fordi ML krever betydelig mer pålitelige ressurser. Konfidensiell databehandling etablerer et mer pålitelig utførelsesmiljø for ML-operasjoner ved å oppnå en maskinvarebasert root-of-trust. Ideen om at det å skjule trenings-/slutningsprosessen inne i slike enklaver er den beste handlingen må revurderes. Fremtidige forskere og utviklere må forstå personvernutfordringene som ligger til grunn for ML-pipelinen bedre, slik at fremtidige sikkerhetstiltak kan konsentreres om de essensielle komponentene.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'SoK: Machine Learning with Confidential Computing'. All Credit For This Research Goes To Researchers on This Project. Check out the paper.

Please Don't Forget To Join Our ML Subreddit


Mahmoud er doktorgradsforsker innen maskinlæring. Han har også en
bachelorgrad i fysisk vitenskap og mastergrad i
telekommunikasjons- og nettverkssystemer. Hans nåværende områder av
forskning gjelder datasyn, aksjemarkedsprediksjon og dyp
læring. Han produserte flere vitenskapelige artikler om personre-
identifikasjon og studiet av robustheten og stabiliteten til dyp
nettverk.