Administrasjon av data på Colossus

Tilgjengelige filsystemer på Colossus

Filsystem	Sti	Anbefalt bruk
Prosjekt folder	`/tsd/pXX/data/durable`	Programvare, jobb konfigurasjoner, input filer, prosesserte jobb data. Bruk dette området for langtids lagring. Backup er aktivert.
Cluster folder	`/tsd/pXX/cluster`	`(identisk med /cluster/projects/pXX)`	Programvare, jobb konfigurasjoner, inndata, prosesserte jobb data. Pleide å være på et eget filsystem.
Home folder	`/tsd/pXX/home/<pXX-user>` `eller $HOME`	Programvare, jobb konfigurasjoner. IKKE bruk dette området for prosessering av data i en jobb.
Scratch	`/cluster/work/jobs/jobid` `eller $SCRATCH`	Prosesserte data fra en jobb, chkfile for å ta vare på utdata.
Lokalt disk område	`$LOCALTMP`	Prosesserte data fra en jobb med krav om rask I/O. 100-200 GiB disk kvote

(*) Ekstra diskplass kan bes om.

På Colossus

Prosjektdata lagres på IBM Storage Scale filsystemet. På Colossus er dette filsystemet tilgjengelig samtidig på alle beregningsnoder og bruker det globale parallelle filsystemet (GPFS) over ultraraskt 56 Gbps Infiniband. På beregningsnodene er den montert under /gpfs, med symbolske lenker som peker til /cluster/projects/pXX,/ess/pXX for eldre formål.

På submit host

På submit host er prosjektdataene på IBM Storage Scale-filsystemet tilgjengelig over NFSv4 (med Kerberos-autentisering, se nedenfor) over 1 Gbps Ethernet. Det er montert under /ess/pXX med symbolske lenker som peker til flere eldre stier. Vi anbefaler å bruke referanser til /ess/pXX i jobbmanusene dine.

Prosjekt folder

Colossus har tilgang til prosjektkatalogen via et høyytelses parallelt filsystem: /tsd/pXX, hvor pXX er ditt prosjektnummer. En enkelt diskkvote gjelder for alle underkatalogene (data, home, cluster). Folderen cluster ligger ikke lenger på et eget filsystem og derfor trenger ikke data å kopieres dit for behandling på Colossus.

Som standard er hele prosjektkatalogen sikkerhetskopiert. Det er imidlertid ingen sikkerhetskopi av dataene som er lagret i kataloger som inkluderer no-backup i fil-stien (f.eks. /tsd/pXX/data/no-backup), men daglige øyeblikksbilder er tilgjengelige for de siste 7 dagene i /tsd/pXX/.snapshots underkatalogen.

Hvis du planlegger å jobbe med TiB-er av data som vil endres ofte som følge av beregninger gjort på Colossus, kan du kopiere dataene til en katalog uten sikkerhetskopiering så lenge analysen varer. Dette vil ekskludere midlertidige filendringer fra de daglige sikkerhetskopiene og redusere innvirkningen på backupsystemet.

Å betjene og holde styr på et parallelt klyngefilsystem er en komplisert oppgave. Mens maskinvaren er avansert, vil GPFS-programvaren en gang i blant få problemer. Når dette skjer, kan brukere oppleve forsinkelser når de utfører enkle kommandoer som "ls" eller til og med henger. Vanligvis varer disse problemene i svært kort tid, men hvis det er et alvorlig problem vil det være en kunngjøring på TSD driftslogg og på Colossus Users e-postliste.

Kerberos autentisering

Tilgang til filsystemet /ess/pXX over NFSv4 krever en gyldig Kerberos-billett. En gyldig billett vil gi deg tilgang, mens en utløpt, ugyldig billett vil nekte tilgang.

Hvis du kobler til submit host (via ssh eller PUTTY) vil du automatisk bli tildelt en billett for en 10 timers økt som automatisk fornyes opptil en uke. Hvis billetten utløper etter en uke, må du logge ut og inn igjen for å gjenopprette tilgangen. Dette er den foretrukne metoden for å skaffe en billett.

Du kan også skaffe en billett manuelt ved å bruke kinit-kommandoen. Imidlertid vil ikke denne billetten fornyes og utløper etter 10 timer. Vi anbefaler at du ikke bruker denne kommandoen. Innhenting av automatiske og manuelle billetter på samme tid kan resultere i permission denied feil dersom en av billettene utløper mens den andre fortsatt er gyldig.

Kerberos-autentisering krever passordautentisering, derfor vil du ikke bli gitt en billett hvis du kobler til med ssh-nøkler. Vennligst deaktiver ssh-nøkler på submit host og bruk passordautentisering i stedet.

Du kan liste opp din nåværende billettstatus ved å bruke:

klist

I den innledende fasen kan det bare vises oppføringen for Ticket Granting Ticket (TGT) som indikerer en vellykket passordverifisering:

-bash-4.2$ klist
Ticket cache: FILE:/tmp/krb5cc_7927__Vx2FH
Default principal: p11-bartt@TSD.USIT.NO

Valid starting       Expires              Service principal
07/06/2020 14:50:43  07/07/2020 00:50:43  krbtgt/TSD.USIT.NO@TSD.USIT.NO
        renew until 07/13/2020 14:50:21

Når du åpner /cluster/projects/pXX, vil oppføringer for tilgang til nfs/ess01.tsd.suit.no bli lagt til, noe som indikerer vellykket autorisasjon til nfs-monteringen:

-bash-4.2$ klist
Ticket cache: FILE:/tmp/krb5cc_7927_Vx2FH
Default principal: p11-bartt@TSD.USIT.NO

Valid starting       Expires              Service principal
07/06/2020 14:50:43  07/07/2020 00:50:43  krbtgt/TSD.USIT.NO@TSD.USIT.NO
        renew until 07/13/2020 14:50:21
07/06/2020 14:52:44  07/07/2020 00:52:44  nfs/ess01.tsd.usit.no@TSD.USIT.NO
        renew until 07/13/2020 14:50:21

Hvis billetten din utløper, må du autentisere deg på nytt for å få en ny billett. Logg ut og inn igjen. Hvis du får permission denied eller ikke kan vise innholdet når du åpner en katalog for første gang, men du har en gyldig billett, kan Kerberos-autentiseringen ha blitt forsinket og vil lykkes hvis du prøver igjen.

Home folder

Hver bruker har en hjemmekatalog ($HOME) på ESS filsystemet. Som standard er diskkvoten for hjemmekatalogen 100 GiB (se under).

Hjemmekatalogen sikkerhetskopieres regelmessig (se under), men alt i kataloger som heter no-backup blir hoppet over. Sikkerhetskopiering er treg og dyr, så legg midlertidige filer, filer som kan lastes ned igjen, installert programvare og andre filer som enkelt kan gjenskapes eller ikke trenger å sikkerhetskopieres i en no-backup-katalog.

Merk også at man ikke skal bruke hjemmekatalogen som lese-/skriveområde for jobber, spesielt ikke I/O-intensive jobber. Bruk scratch-området til det (se under).

Scratch disk område

Mens en jobb kjører, har den tilgang til en midlertidig scratch-katalog på /cluster/work/jobs/jobid som ligger på det høyytelses GPFS-filsystemet. Katalogen er individuell for hver jobb, opprettes automatisk når jobben starter, og slettes når jobben er ferdig (eller stilles i kø). Det er ingen sikkerhetskopi av denne katalogen. Navnet på katalogen er lagret i miljøvariabelen $SCRATCH, som er satt i jobbskriptet.

Generelt bør jobber kopiere arbeidsfilene til $SCRATCH eller /cluster/projects/pXX og kjøre der. Dette er spesielt viktig for I/O-intensive jobber. Scratch-disken er raskere enn hjemmekatalogdisken, og å kjøre I/O-intensive jobber i $HOME bremser ikke bare jobben, men også interaktivt arbeid for andre brukere.

Generelt bør jobber kopiere arbeidsfilene til >tt>$SCRATCH og kjøre der siden den rydder opp etter seg selv.

Hvis du trenger tilgang til scratch-katalogen fra utenfor jobben (for eksempel for å overvåke en kjørende jobb), er katalogen /cluster/work/jobs/jobid, der jobid er jobb-ID-en til den aktuelle jobben.

Lokal disk

For svært intensiv IO kan det være nyttig å bruke de lokale stasjonene på compute nodene. Banen til katalogen er lagret i miljøvariabelen $LOCALTMP. Datamaskin- og GPU-nodene har henholdsvis 100 GB og 200 GB lokal lagring. Legg til følgende i batchskriptet ditt for å be om (f.eks. 20 GB) lokal midlertidig lagring på noden:

#SBATCH --gres=localtmp:20
cleanup cp $LOCALTMP/outputfile $SLURM_SUBMIT_DIR

Disk kvote

Alle prosjekter har en enkelt disk kvote for /tsd/pXX/. Dette inkluderer data, home og cluster underfoldere. Prosjekter med behov for mye lagringsplass kan søke om ekstra diskplass fra Sigma2.

På Colossus og submit host kan UNIX df-verktøyet brukes til å spørre etter diskbruk på GPFS-filsystemet. En disk vil være full hvis enten plassen eller antallet inoder (filer) går tom. For å undersøke diskplass, bruk:

$ df -h /cluster/projects/p11
Filesystem              Size  Used Avail Use% Mounted on
ess01.tsd.usit.no:/p11  1.0T  966G   59G  95% /cluster/p/p11

For å undersøke bruk av inoder i filsystemet, bruk:

$ df -ih /cluster/projects/p11
Filesystem             Inodes IUsed IFree IUse% Mounted on
ess01.tsd.usit.no:/p11   1.1G   22M  1.1G    3% /cluster/p/p11

Data kompresjon

Millioner av små filer utgjør en utfordring for GPFS og bør unngås. Hvis det er mulig, pakk heller de små filene i arkiver som gjør operasjoner på dem enkelt. En måte er å kopiere arkivet til $SCRATCH eller $LOCALTMP, og så pakke dem ut der og jobbe i det lokale filtreet.

Et standard unix/linux-verktøy er gzip. Les man-sidene for mer informasjon.

gzip file.dta

Dette vil produsere en fil file.dta.gz, forhåpentligvis en mye mindre fil. Ikke alle typer data komprimeres like godt. Tekst komprimeres godt, jpg-bilder ikke godt i det hele tatt. For filer som skal pakkes ut på Windows-maskiner kan zip-verktøyet også brukes. En begrensning for eldre versjoner av zip er at verken inndatafilene eller det resulterende arkivet kan være større enn 4 GB. I tilfeller hvor dette kan skje bruk gzip istedet for filer større enn 4 GB. Å gi det et numerisk argument som -9 tvinger frem høyere komprimering på bekostning av lengre komprimeringstid. Et mer effektivt alternativ er bzip2.

For å pakke ut filen:

gunzip file.dta.gz

Dette vil resultere i den originale filen i dens ukomprimerte form.

Sikkerhetskopiering og gjenoppretting

Se her for mer informasjon om sikkerhetskopiering og gjenoppretting.

Søk i veiledningene

Kontakt brukerstøtte:

Ring oss

Vi har åpent mellom 08:30 og 17:00 på hverdager,
og mellom 10:00 og 15:00 på lørdager.

Telefonnummer: 22 84 00 04

Send inn sak til oss

Du kan sende inn din forespørsel via e-post til: it-support@uio.no.

Gå til e-post

Book et videomøte over Zoom

Er du student eller ansatt kan du avtale veiledningstime hos UiO Helpdesk over Zoom. Tilgjengelige tider er tirsdag til torsdag mellom 11:00 og 13:00.

Book et videomøte

Chat med oss

Vår chat er bemannet mellom 09:00 og 16:00 på hverdager.

Åpne chat

Fant du det du lette etter?

Publisert 23. feb. 2022 09:31 - Sist endret 21. juni 2023 15:56