Av Yuval Boger
Ytelsesbenchmarks gir brukerne en referanseramme for å sammenligne produkter i samme kategori. Det finnes mange populære klassiske benchmarkingverktøy, som f.eks MLPerf for maskinlæring, Ståkarakterog 3DMark for GPUer. Det er naturlig at kvantedatabrukere kan dra nytte av lignende verktøy.
Benchmarks er kritiske ettersom brukere sliter med å oversette maskinvareegenskaper som gate-fidelitet, koherenstider og qubit-tilkobling til meningsfull forretningsinnsikt. Tross alt, så morsom som den underliggende teknologien kan være, vil bedriftsbrukere vite hvor raskt de kan få verdifulle resultater fra en gitt datamaskin eller, mer generelt, hvilken datamaskin (hvis noen) som er best for å løse et bestemt problem. Benchmarks er også nyttige for å validere påstander fra leverandører, for eksempel påstander om gate-fidelitet eller effektiviteten av feilretting, og fungerer som interne utviklingsverktøy for slike leverandører.
Faktisk har flere kommersielle, akademiske og standardiseringsorganisasjoner lansert benchmarking, for eksempel de fra IBM, QED-C, Super.tech, Enhetsfondet, Sandia National Labsog Atos.
Disse benchmarking-pakkene faller vanligvis inn i to kategorier: 1) systemytelsestester som måler maskinvarerelaterte parametere som hastighet og støy, og 2) applikasjonsytelsestester som sammenligner simulerte resultater av referansealgoritmer med faktiske utførelsesresultater på ulike maskinvareplattformer.
Etter min mening er en type benchmark som mangler en måte å finne den beste maskinvaren for å utføre en skreddersydd algoritme eller et program som en organisasjon har utviklet. Noen vil kanskje kalle dette “prediktiv benchmarking”, som også kan vurdere de kjente eller målte ufullkommenhetene til en bestemt plattform for å forutsi og anbefale den beste for en gitt applikasjon. Slik prediktiv benchmarking er interessant av to grunner: 1) det kan være dramatisk variasjon i utførelseskvalitet mellom ulike kvantedatamaskiner, og 2) fordi organisasjoner har tilgang til flere typer maskiner gjennom kvanteskyleverandører, ville det ikke være vanskelig å bytte plattform hvis resultatene tilsier det.
Nylig hadde jeg muligheten til å diskutere benchmarking med Pranav Gokhale, VP for Quantum Software i ColdQuanta (og tidligere administrerende direktør i Super.tech, kjøpt opp av ColdQuanta). Gokhale og kollegene hans begynte å jobbe med benchmarking i midten av 2021 og publisert deres suite av åpen kildekode-benchmarks, kalt SupermarQ samt sammenlignende målinger tidligere i år. SupermarQ inkluderer applikasjonsentriske tester i domener som logistikk, finans, kjemi og kryptering, samtidig som den inkluderer en test som måler feilkorreksjonsytelse. Pranav nevnte at et sentralt designmål for suiten deres var å la den skalere til et stort antall qubits samtidig som de opprettholder et tilsynelatende motstridende mål om klassisk verifiserbarhet.
Jeg spurte Pranav om markedstilbakemeldinger på produktet deres. Han nevnte betydelig kommersiell og akademisk interesse for benchmarking av ulike algoritmer og enheter og interesse fra maskinvareleverandører som utnytter SupermarQ for å spore fremgang i maskinvareutviklingen deres. Interessant nok rapporterer Pranav at SupermarQ-resultater ofte avviker betydelig fra anslåtte resultater som utelukkende er avhengige av qubit-koherens og gate-fidelity-tall. Han sier at dette skjer fordi ufullkommenheter ofte er korrelert (som qubit-krysstale). Som sådan mener Super.tech at deres benchmark-suite hjelper til med å avhype kvantemarkedet, og demonstrerer virkelige ytelsesmålinger for kvantedatamaskiner.
Mange maskinvareleverandører kan ha legitime påstander om unøyaktigheten til benchmarking-suiter. Leverandører kan hevde at de kan omskrive og optimalisere disse testapplikasjonene for plattformene sine ved å bruke plattformspesifikke funksjoner, native porter eller en bedre konfigurasjon av transpilatoren. Som flere nylige hackathons og kodekonkurranser har vister det mange måter å implementere en gitt algoritme på, noen ganger forskjellig i størrelsesordener når det gjelder effektivitet.
I klassisk maskinlæring, Alexnet, vinneren i en global konkurranse om å utvikle en bildeklassifiseringsalgoritme, revolusjonerte feltet. Anta at kvanteberegningsorganisasjoner startet lignende innsats, leverte prøvedatasett og søkte den beste kvanteløsningen. I så fall kan leverandører demonstrere kraften til sine kvanteplattformer med optimale algoritmer og innstillinger. Både sluttbrukere og forskere kan ha nytte av slik innsats.
Benchmarking er viktig. Uten den ville vi sammenlignet de velkjente eplene med appelsiner. Men kvantebenchmarking ser fortsatt ut til å være i sin spede begynnelse.
Yuval Boger er en leder for kvantedatabehandling. Kjent som den originale “Qubit Guy”, fungerte han sist som Chief Marketing Officer for Classiq.
24. oktober 2022