Er med i forvandlingen av kunstig intelligens og maskinlæring

Da Sondre Wold var bachelorstudent ante han ikke hva språkteknologi var for noe. Så slumpet han borti fagfeltet. Nå tar han en doktorgrad og vurderer om en forskerkarriere kan være noe.

Portrettbilde av Sondre Wold

– Akkurat da jeg begynte på mastergraden, så skjedde det mye innen fagfeltet og språkmodellene begynte virkelig å skyte fart. Det virket veldig spennende å få lov til å være med på den utviklingen, sier stipendiat Sondre Wold som tar en doktorgrad i språkteknologi ved institutt for informatikk.

Fra sammensurium til struktur

Tekst er en ustrukturert form for informasjon, en løpende sekvens av ord som kan stokkes om på utallige ulike måter og likevel formidle det samme budskapet. Språkmodeller er primært laget for å prosessere og gjengi slike sekvenser, i motsetning til mer strukturerte data som tabeller, grafer, nettverk og liknende.

Sondre forsker på teknikker for å få språkmodeller til å resonnere og utnytte strukturert informasjon sammen med tekst. Eksempler på strukturert informasjon kan være relasjonell informasjon som hovedsteder, hvem som bor hvor, slektskap og så videre. For å dra nytte av slik informasjon når den er representert i et strukturert format, må de nåværende språkmodellene endres.

– Det krasjer veldig, for det er to ulike måter å jobbe med informasjon på. Derfor forsker jeg på hvordan vi kan ha kontroll på hva slags kunnskap som er i modellen. Sånn som det er nå, er alt et slags sammensurium av tekstmateriale modellene har sett under treningsfasen. Det er ingen garantier, forklarer Sondre.

Variert arbeidshverdag som stipendiat

Sondre beskriver hverdagene som varierte, men også avhengige av hva slags arbeidsprosess han er i. Prosessen med å få publisert forskningsartikler starter ofte med en idéfase hvor mye av tiden går til å søke i forskningsdatabaser etter artikler som ser relevante ut.

– Jeg synes det er helt topp å kunne sitte og få betalt for å lese om kule ting og spennende ideer, røper Sondre.

– Noen artikler leser jeg overfladisk, andre leser jeg nøye. Kanskje diskuterer jeg en av artiklene med noen av de jeg deler kontor med, eller hører om veilederne mine har noen tanker om hva som står der.

I oppstartsfasen til et nytt prosjekt tar han gjerne fram en god gammeldags notatbok og skriver ned stikkord, tanker, formler og løse ideer. Etterhvert går han over til å programmere, for å teste ut mulige løsninger.

Det hender ofte at han samarbeider med noen av de andre stipendiatene han deler kontor med. Da står de som regel ved tavlen og tester ut ideer, eller sitter sammen og parprogrammerer.

– Hvis jeg ikke jobber med en artikkel, så underviser jeg. Det bruker jeg en del tid på. Det tar mye lengre tid enn man tror, presiserer han.

Sondre har også en del undervisningsoppgaver med ansvar for forelesninger, obligatoriske innleveringer og eksamen. I tillegg er det en del fagaktiviteter internt i forskningsgruppen som han kan være med, slik som forskningsseminarer og diskusjoner. Og kanskje er det foredrag ved andre institutter han har lyst til å høre på.

– Det er lange dager og jobben er tidvis veldig frustrerende. Men om du har en indre motivasjon og en genuin faglig interesse, vil jeg absolutt anbefale en ph.d., erklærer Sondre entusiastisk.

Informatikk, lingvistikk og batikk

Forskningsgruppen teller omtrent 15 stykker og er ganske sammensveiset. Halvparten er stipendiater og i samme livssituasjon, så de er flinke til å finne på mye sosialt utenom jobb.

– Det kan være alt fra å dra ut og spise og ta en øl til at vi har håndverksverksteder. En gang i måneden gjør vi et eller annet håndverk som å male, tove, drive med leire eller batikk.

Ellers har de faste faglig-sosiale arrangementer som forskningsseminarer og lesegrupper. I lesegruppen er det en kollega som presenterer en artikkel som de synes er interessant, og så diskuterer de artikkelen i plenum. På den måten lærer de mer om hva de andre driver på med og kanskje finner de synergier som gjør at de kan samarbeide om et prosjekt. Selv om fellesnevneren er språkteknologi, driver de med ulike ting som ofte berører andre fagfelt enn informatikk.

– Det er ikke sånn at alt vi gjør handler om å utforme en mest mulig effektiv algoritme, for så å kvantifisere ytelsen til den algoritmen. Et vel så stort spørsmål innen språkteknologien er hvordan man skal vurdere språkmodeller. Hvordan vet man egentlig om en maskin forstår språk? Er det en forskjell på gjengivelse og forståelse? Dette er spørsmål som berører andre fagfelt enn informatikken, men som vi må ta hensyn til når vi kommer med påstander om hva et system kan eller ikke kan.

– En hellig gral av tverrfaglighet

– I gruppen for språkteknologi kan vi tilby hele pakka. Du kan jobbe med spørsmål og teknikker fra statistikk, matematikk, lingvistikk, språkfilosofi og psykologi. Alle disse områdene er uløselig knyttet til språk, for språk er en av de primære måtene vi som mennesker uttrykker oss selv.

– Den spesifikke tekniske løsningen som ligger til grunn for de fleste systemene for  maskinlæring i dag ble opprinnelig utviklet for å forbedre oversettelsen mellom språk, men etterhvert viste det seg at den også kunne brukes til å generere tekst, tale, bilde og video. Det sier noe om hvor kraftig språk og tekst er som informasjonsstruktur.

Etter doktorgraden ønsker Sondre å fortsette med forskning hvis han får mulighet til det. Han ser også for seg muligheter innenfor privat oppdragsforskning hos institusjoner som Sintef, Simula eller Norsk regnesentral.

– En eller annen forskningsnær jobb, konkluderer Sondre.

Sondre Wold

Bachelorutdanning: NTNU
Masterutdanning ved UiO: Informatikk: språkteknologi
Jobb: doktorgradsstipendiat i språkteknologi ved UiO

 

Av Eli Berge
Publisert 2. apr. 2024 14:23 - Sist endret 3. apr. 2024 15:58