English version of this page

Whisper i TSD

Her er oppskrift på hvordan du kan transkribere med Whisper i TSD.

 

Før man begynner

TSD-prosjektet må ha tilgang til tungregning på Colossus. Om dette ikke allerede er på plass må PI sende e-post til tsd-drift@usit.uio.no med relevant prosjektnummer og etterspørre tilgang. 

Installasjon

Fordi prosjekter kan ha både Windows- og Linux-maskiner er det flere måter å installere Whisper på. Felles er at programvaren må kopieres fra et fellesområde og inn i prosjektet vårt. Dette kan gjøres på ulike måter, og vi viser her hvordan det gjøres i File Explorer og i en terminal.

File Explorer (Windows)

  1. Åpne File Explorer
    file explorer markert
  2. Klikk i filsti-feltet og skriv inn følgende filsti: \\ess01\shared\software\whisper
    Tast så Enter på tastaturet når stien er innskrevet.
    innskrevet filsti markert
  3. Marker alt innhold i denne mappen, høyreklikk på en av de blå radene og velg Copy.
    alt innhold i mappen markert, høyreklikket og valget "copy" markert
  4. Klikk i filsti-feltet og skriv inn følgende filsti hvor pXXXX byttes ut med prosjektnummeret vårt: \\ess01\pXXXX\data\durable
    Tast så Enter på tastaturet når stien er innskrevet.
    filstifelt med riktig filsti markert
  5. Opprett en ny mappe i denne mappen ved å høyreklikke i et blankt felt innad i mappen, velg New og klikk deretter på Folder. Gi mappen et passende navn, vi anbefaler whisper. Avslutt med å gå inn i denne nye mappen.
    stegvis hvordan opprette ny mappe med høyreklikk
  6. Lim så inn innholdet som tidligere ble kopiert ved å høyreklikke og velge Paste. Whisper er nå kopiert til prosjektet vårt, og kan benyttes av alle prosjektmedlemmer.
    valget "paste" markert

Terminal (Linux + Windows)

  1. Åpne et terminalvindu (på Windows må du først koble til prosjektets submit-node ved bruk av PuTTY, hvordan dette gjøres er beskrevet her).
  2. Manøvrer til prosjektets durable-mappe med følgende kommando, hvor pXXXX byttes ut med relevant prosjektnummer (alle kommandoer må etterfølges av trykk på Enter-tasten på tastaturet):
cd /tsd/pxxxx/data/durable

3. Kopier whisper-mappen fra den delte disken til durable-mappen med følgende kommando:

cp -rp /shared/software/whisper/ .

4. For å dele mappen med andre prosjektmedlemmer, benytt følgende kommando:

chmod -R 774 whisper 

Whisper er nå kopiert til durable-mappen og tilgjenglig for alle i prosjektet.

Hvordan benytte Whisper

For å benytte Whisper må man først koble seg til maskinen Colossus, som gjøres gjennom prosjektets submit-node (om dette høres ukjent ut, ta en ny gjennomgang av Før man begynner). Herfra starter vi en transkriberingsjobb som vil bli utført etter en køordning, som man finner mer informasjon om her. For å koble til submit-noden gjøres følgende (avhengig av maskintypen til prosjektet):

  1. Windows: Følg veiledningen på denne siden.

  2. Linux: Åpne programmet Terminal, skriv ssh pxxxx-hpc-01 og trykk Enter-tasten. Angi deretter TSD-passordet ditt (OBS! Passordet skrives inn selv om du ikke ser noen reaksjon på skjermen) og bekreft ved å trykke Enter.

Nå som vi er tilkoblet submit-noden vil ting være likt uavhengig av hvilken type virtuell maskin vi benytter oss. De neste stegene er som følger:

  1. Påse at lydfilene som skal transkriberes befinner seg i mappen pxxxx/data/durable/whisper/data/. Dette gjøres enklest i programmene File Explorer (Windows) eller Files (Linux).
    NB! Filnavn kan kun ha lovlige tegn og ikke mellomrom.

  2. Sett igang jobben som utfører transkriberingen fra riktig mappe ved å utføre følgende kommandoer i PuTTY/Terminal, hvor pXXXX byttes ut med riktig prosjektnr (hver kommando må etterfølges av trykk på Enter-tasten):

    cd /tsd/pxxxx/data/durable/whisper
    
    ./transcribe_data

    Du bør nå få en melding om at en jobb er sendt inn, med tilhørende ID.
    terminalvinduet etter utførte kommandoer

  3. De transkriberte filene vil dukke opp i samme mappe som opptaket/opptakene (pxxxx/data/durable/whisper/data/) straks jobben er ferdig utført.
    Husk å flytte disse før du transkriberer andre filer!

Dersom noe skulle gå galt med transkribsjonsjobben vil det genereres en slurm-JOBID.out-fil i whisper-mappen, som inneholder informasjon om hvorfor jobben feilet.

Se instruksjonsvideo

Denne videoen er tekstet med Whisper både med NOR og EN som parameter, og da kom følgende filer ut (som jeg har eksportert fra TSD)

 

Du kan endre teksting selv eller skru den av. Denne filmen er tekstet uten å bli redigert i etterkant. Jeg brukte Whisper til å oversette ved å endre i whisper.sm.

Avanserte innstillinger

Du kan gjøre endringer på diverse innstillinger for transkribsjonen din selv ved å redigere filen whisper.sm. Denne filen åpnes i et tekstprogram, f.eks. Notepad eller Notepad++, ved å høyreklikke og velge Open with, før man deretter velger programmet.

Her er 2 ting du kan endre:

  1. LANGUAGE=en
    - Om du endrer denne til fra "no" til "en" får du automatisk oversatt transcriberingen(!)
  2. #SBATCH --time=00:20:00
    - om du har store filer, må du øke denne opp fra 20 min, ellers får du time-out.

Husk å lagre fila før du gjør kjører scriptet på nytt.

Åpne gjerne med Notepad++
Åpne gjerne med Notepad++

 

 

Av Dagfinn Bergsager
Publisert 21. nov. 2022 12:12 - Sist endret 14. aug. 2024 15:17