Tekstlaboratoriet

«Gjennom forsknings- og infrastruktur-prosjekter har Tekstlaboratoriet ansvaret for store, nasjonale infrastrukturer, særlig søkbare korpus over talespråk som norske og nordiske dialekter og amerikanorsk nedarvingsspråk, men også korpus med webtekster, litterære tekster, elevtekster, databaser og ordlister - for mange ulike språk. Gjennom et stort NORAD-prosjekt har vi blant annet også utviklet talespråks-korpus for åtte etiopiske språk.»

Fysiske lokaler og utstyr/kamera-løsninger

Tekstlaboratoriet holder til i 6. etg i Henrik Wergelands Hus to etasjer over MultiLing som også er med i Videohuben og mottar teknisk assistanse fra tekstlaben. Laben er et rom med tre bemannede arbeidsstasjoner og et møtebord med stoler. Tekstlaben har en 6-spors zoom H6 lydopptaker til utlåns men hovedaktiviteten ligger i utarbeidelse og vedlikehold av forskjellige språk-korpus.

Data, lagring og datahåndtering

Tekstlaboratoriet har adoptert «Component Metadata Infrastructure» (CMDI) som infrastruktur til metadatahåndtering og «Text encoding initiative» (TEI) som metadatastandard for håndtering av tekst. Dataene er grønne og gule etter UiO sin lagringsguide og består av tekst, video og audio som innarbeides i Glossa; et søkegrensesnitt videreutviklet av Tekstlaboratoriet.

Nøkkelkompetanse / UiO-oppgaver

Tekstlaboratoriet har nøkkelkompetanse i utvikling av tekstbaserte korpuser og hvordan innarbeide disse korpusene i et søkbart grensesnitt. Dette arbeidet inkluderer også arbeid med personvern, copyright, forskningsetikk og datahåndtering.

Kapasitet

Tekstlaboratoriet tar imot forespørsler om utvikling av tekstbaserte korpuser. Men slike utviklingsprosjekter må avtales i god tid.

Utfordringer og løsninger

Tekstlaboratoriet er oppdatert på automatisk transkripsjon og forteller om utfordringene med nordiske dialekter og hvordan automatisk transkripsjon ikke kan tilfredsstille språkforskernes behov for å fange opp de forskjellige uttrykksmåtene og andre detaljer i språket. Tekstlaboratoriet bruker ELAN (open source) for manuell transkribering.

Tilgjengeliggjort er også Big Brother korpuset som er videofiler fra TV-programmet Big Brother. Selskapet som har gjort opptakene er slått konkurs og det er usikkerhet tilknyttet opphavsrett på materialet hvor henvendelser til nåværende opphavshaver ikke blir besvart. Universitetets juridiske avdeling har allikevel godkjent bruken opp imot lovverket under forutsetning at det kun er tilgjengelig 20 segmenter av videoen i omkrets av ordet som ble søkt på.

 

Kontaktinformasjon

Nettsted: https://www.hf.uio.no/iln/om/organisasjon/tekstlab/

Tekstlaboratoriets leder er Professor Dag Trygve Truslew Haug. Løpende henvendelser kan gjøres til epost: tekstlab-post@iln.uio.no.

 

Publisert 30. aug. 2022 10:28 - Sist endret 31. aug. 2022 14:54