Målgruppe
Forskere og høyeregradsstudenter som jobber mye med tekstlige data og som vil lære litt om emnemodellering ("topic modelling"). Seminaret gir et innblikk i hvordan man bygger og evaluerer emnemodeller i R. Emnemodellering er en utforskende metode for å finne hyppig forekommende ord eller fraser innenfor en gitt tekst eller et gitt tekstutsnitt som kan 'mappes' til "emner" eller semantiske kategorier.
Grunnleggende kunnskap i statistikk og R er en fordel men ikke et krav for deltakelse.
Hvis man ønsker å forberede seg til seminaret, kan man be om å få kode og datasett tilsendt på forhånd.
Tidspunkt
Torsdag 2. desember kl 13:15-15:00
Innhold
- Hva er emnemodellering?
- R
- Preprosessere data
- Viktige ord i emnene
- Emnesannsynlighet per "dokument"
- Aggregerte resultater
Påmelding
Meld deg på kurset her. Kurset er åpent for alle tilknyttet UiO. Eksterne kan henvende seg på epost for å stå på venteliste.
Viktig: Dersom det er ønskelig å selv skrive og kjøre kode i løpet av kurset, må deltakere ha med egen bærbar PC eller Mac (Laptop) med både R (versjon 3.6.3 eller nyere) og RStudio ferdig installert. Både R og RStudio er gratis, så det er ikke nødvendig å skaffe lisens. R kan lastes ned fra https://cran.r-project.org og RStudio fra https://www.rstudio.com/products/rstudio/download/.
Følgende R-pakker må installeres: tm, quanteda, wordcloud, topicmodels, tidytext, tidyr, ggplot2, dplyr, stringr. Fremgangsmåte
Språk
Kurset holdes i utgangspunkt på norsk
Kursholder:
Luigi Maglanoc PhD, Gruppe for datafangst og samlingsforvaltning, USIT.
Kontaktinformasjon:
Har du spørsmål angående kurset, kan du sende en epost til datafangst@usit.uio.no.