Et dataanlegg ved Department of Energys SLAC National Accelerator Laboratory dobles i størrelse, og forbereder laboratoriet for nye vitenskapelige bestrebelser som lover å revolusjonere vår forståelse av verden fra atomære til kosmiske skalaer, men som også krever håndtering av datastrømmer uten sidestykke.
Når SLAC er superledende røntgenlaserfor eksempel kommer på nettet, vil den til slutt samle data kl en svimlende hastighet på en terabyte per sekund. Og verdens største digitalkamera for astronomiunder bygging ved laboratoriet for Vera C. Rubin-observatoriet, vil til slutt fange hele 20 terabyte med data hver natt.
“Den nye datainfrastrukturen vil klare disse utfordringene og mer,” sa Amedeo Perazzo, som leder avdelingen for kontroll og datasystemer i laboratoriets direktorat for teknologiinnovasjon. “Vi tar i bruk noe av den nyeste, beste teknologien for å skape databehandlingsmuligheter for hele SLAC i årene som kommer.”
Den Stanford University-ledede konstruksjonen legger til en annen bygning til den eksisterende Stanford Research Computing Facility (SRCF). SLAC vil bli en stor leietaker av SRCF-II – et moderne datasenter som vil gi et miljø som er designet for å fungere 24/7 uten tjenesteavbrudd og med dataintegritet i tankene. SRCF-II vil doble dagens datasenterkapasitet, for totalt 6 megawatt kraftkapasitet.
“Data er en kjernekompetanse for en vitenskapsdrevet organisasjon som SLAC,” sa Adeyemi Adesanya, leder for Scientific Computing Systems-avdelingen i Perazzos divisjon. “Jeg er begeistret for å se vår visjon for en integrert databehandling komme til live. Det er en nødvendighet for å analysere data i massiv skala, og det vil også bane vei for nye initiativ.»
Et knutepunkt for SLACs Big Data
Adesanyas team forbereder seg på å sette opp maskinvare for SLAC Shared Science Data Facility (S3DF), som vil finne sitt hjem i SRCF-II. Det vil bli et dataknutepunkt for alle dataintensive eksperimenter utført på laboratoriet.
Først og fremst vil det gagne fremtidige brukere av LCLS-II, oppgraderingen av Linac Coherent Light Source (LCLS) Røntgenlaser som vil produsere over 8000 flere pulser per sekund enn førstegenerasjonsmaskinen. Forskere håper å bruke LCLS-II for å få ny innsikt i atomprosesser som er grunnleggende for noen av de mest presserende utfordringene i vår tid, inkludert kjemien til rene energiteknologier, molekylær design av legemidler og utvikling av kvantematerialer og -enheter.
Men med de nye egenskapene kommer tøffe beregningsmessige utfordringer, sa Jana Thayer, leder for LCLS Data Systems-divisjonen. “For å få de beste vitenskapelige resultatene og få mest mulig ut av tiden sin på LCLS-II, vil brukerne trenge rask tilbakemelding – i løpet av minutter – om kvaliteten på dataene deres,” sa hun. “For å gjøre det med en røntgenlaser som produserer tusenvis av ganger mer data hvert sekund enn forgjengeren, trenger vi petaflops av datakraft som S3DF vil gi.”
Et annet problem forskerne vil måtte kjempe med er det faktum at LCLS-II vil samle for mye data til å lagre alt. Det nye dataanlegget vil kjøre en innovativ datareduksjonspipeline som kaster ut unødvendige data før de blir lagret for analyse.
En annen beregningskrevende teknikk som vil dra nytte av den nye infrastrukturen er kryogen elektronmikroskopi (cryo-EM) av biomolekyler, som proteiner, RNA eller viruspartikler. I denne metoden tar forskere bilder av hvordan en elektronstråle samhandler med en prøve som inneholder biomolekylene. Noen ganger trenger de å analysere millioner av bilder for å rekonstruere den tredimensjonale molekylstrukturen i nær-atomære detaljer. Forskere håper også å visualisere molekylære komponenter i celler, ikke bare biokjemisk rensede molekyler, med høy oppløsning i fremtiden.
Den komplekse bilderekonstruksjonsprosessen krever mye CPU- og GPU-kraft og involverer forseggjort maskinlæring algoritmer. Å gjøre disse beregningene ved S3DF vil gi nye muligheter, sa Wah Chiu, leder for Stanford-SLAC Cryo-EM Center.
“Jeg håper virkelig at S3DF vil bli et intellektuelt knutepunkt for databehandling, der eksperter samles for å skrive kode som lar oss visualisere stadig mer komplekse biologiske systemer,” sa Chiu. “Det er mye potensial for å oppdage nye strukturelle tilstander av molekyler og organeller i normale og patologiske celler ved SLAC.”
Faktisk vil alle på laboratoriet kunne bruke tilgjengelige dataressurser. Andre potensielle “kunder” inkluderer SLACs instrument for ultrarask elektrondiffraksjon (MeV-UED), Stanford Synchrotron Radiation Lightsource (SSRL), hele laboratoriet maskinlæring initiativ og søknader i akseleratorvitenskap. Alt i alt vil S3DF kunne støtte 80 % av SLACs databehandlingsbehov, mens 20 % av den mest krevende vitenskapelige databehandlingen vil bli utført ved superdatamaskiner utenfor stedet.
Flere tjenester under ett tak
SRCF-II vil være vert for to andre store datafasiliteter.
En av dem er Rubin-observatorietsin amerikanske datafasilitet (USDF). Om noen år vil observatoriet begynne å ta bilder av den sørlige nattehimmelen fra en fjelltopp i Chile ved hjelp av det SLAC-bygde kameraet på 3200 megapiksler. For Legacy Survey of Space and Time (LSST) vil det ta to bilder hvert 37. sekund i 10 år. Den resulterende informasjonen kan inneholde svar på noen av de største spørsmålene om universet vårt, inkludert hva som eksakt fremskynder utvidelsen, men den informasjonen vil være inneholdt i en 60 petabyte-størrelse katalog som forskere må sile gjennom. Det resulterende bildearkivet vil nå rundt 300 petabyte, og dominerer lagringsbruken i SRCF-II. USDF vil sammen med to andre sentre i Storbritannia og Frankrike håndtere produksjonen av den enorme datakatalogen.
En tredje datahub vil betjene brukerfellesskapet til SLACs første generasjons røntgenlaser. Eksisterende datainfrastruktur for LCLS dataanalyse vil gradvis gå over til SRCF-II og bli et mye større system der.
Selv om hvert datasenter har spesifikke behov når det gjelder tekniske spesifikasjoner, er de alle avhengige av en kjerne av delte tjenester: Data må alltid overføres, lagres, analyseres og administreres. I tett samarbeid med Stanford, Rubin Observatory, LCLS og andre partnere, setter Perazzos og Adesanyas team opp alle tre systemene.
For Adesanya er denne enhetlige tilnærmingen – som inkluderer en kostnadsmodell som vil bidra til å betale for fremtidige oppgraderinger og vekst – en drøm som går i oppfyllelse. “Historisk sett var databehandling ved SLAC svært distribuert og hvert anlegg ville ha sitt eget spesialiserte system,” sa han. «Den nye, mer sentraliserte tilnærmingen vil bidra til å stimulere nye laboratorieomfattende initiativer, som f.eks maskinlæringog ved å bryte ned siloene og konvergere til et integrert dataanlegg, bygger vi noe som er mer kapabel enn summen av alt vi hadde før.»
SRCF-II-konstruksjon er et Stanford-prosjekt. Store deler av S3DF-infrastrukturen er finansiert av Energidepartementets vitenskapskontor. LCLS og SSRL er Office of Science brukerfasiliteter. Rubin Observatory er et felles initiativ fra National Science Foundation (NSF) og Office of Science. Dens primære oppgave er å gjennomføre Legacy Survey of Space and Time, og gi et enestående datasett for vitenskapelig forskning støttet av begge byråene. Rubin drives i fellesskap av NSFs NOIRLab og SLAC. NOIRLab administreres for NSF av Association of Universities for Research in Astronomy og SLAC drives for DOE av Stanford. Stanford-SLAC Cryo-EM Center (S2C2) støttes av National Institutes of Health (NIH) Common Fund Transformative High-Resolution Cryo-Electron Microscopy-programmet.
SLAC er et pulserende flerprogramlaboratorium som utforsker hvordan universet fungerer på den største, minste og raskeste skalaen og oppfinner kraftige verktøy som brukes av forskere over hele kloden. Med forskning som spenner over partikkelfysikk, astrofysikk og kosmologi, materialer, kjemi, bio- og energivitenskap og vitenskapelig databehandling, hjelper vi til med å løse virkelige problemer og fremme nasjonens interesser.
SLAC drives av Stanford University for det amerikanske energidepartementet Vitenskapens kontor. The Office of Science er den største enkeltstående støttespilleren for grunnforskning innen fysiske vitenskaper i USA og jobber med å løse noen av de mest presserende utfordringene i vår tid.
Ansvarsfraskrivelse: AAAS og EurekAlert! er ikke ansvarlig for nøyaktigheten av nyhetsmeldinger som er lagt ut på EurekAlert! ved å bidra med institusjoner eller for bruk av informasjon gjennom EurekAlert-systemet.