Whisper

Beskrivelse

Whisper er en generell talegjenkjenningsmodell. Den er trent på et stort datasett med variert lyd og er også en fleroppgavemodell som kan utføre flerspråklig talegjenkjenning samt taleoversettelse og språkidentifikasjon.

Tjenesten kan lastes ned og kjøres på egen PC, men dette anbefales ikke ettersom den krever mye ressurser. Autotekst.uio.no er en tjeneste som bruker Whisper via servere som er plassert på UiO og webtjenesten er også tilgjengelig via Educloud. Denne anbefales for de fleste brukere.

Beskrivelsen under omhandler de som ønsker å installere Whisper i et prosjekt i TSD og bruke HPC fra Colossus for å kjøre transkriberinger.

Hjemmeside for Whisper

https://github.com/openai/whisper

Dokumentasjon

https://github.com/openai/whisper

Lisens

MIT license

Bruk

Whisper-lydtranskripsjon bør kjøres på GPU-nodene og krever opplasting av den opplærte modellfilen. Eksempelskript er tilgjengelig i "/tsd/shared/software/whisper". Se her for en grunnleggende veiledning for bruken. Vær oppmerksom på at skriptene bør tilpasses dine data og analysen som skal gjøres. (f.eks. forskjellig kjøretid, forskjellig transkripsjonsspråk, forskjellige modellargumenter). Testing har vist at Slurm-jobbens kjøretid kan settes til omtrent en halv til en tredjedel av lydfilens varighet.

Bruk

module avail Whisper

for å se hvilke versjoner av Whisper som er tilgjengelige. Bruk

module load Whisper/version

for å få tilgang til Whisper.

Fakturering

Jobben kjører på en GPU, og faktureringsgrunnlag er beskrevet her. Generelt er kostnaden for en transkripsjonsjobb = (antall GPUer) x (GPU-kostnadsfaktor) x (arbeidstid) x (kjernetimepris). Så forutsatt at transkripsjon har en varighet på en 1 times lyd-/videofil som tar 30 minutter å fullføre på 1 GPU (standard) og ved å bruke UiO-priser, vil kostnaden være 24 x 0,06 x 0,5 = 0,72 NOK.

Fant du det du lette etter?

Publisert 1. feb. 2023 13:53 - Sist endret 28. aug. 2023 11:29