Data Scientist i Skatteetaten

Christian Alm Grindheim bruker data og maskinlæringsmodeller til å hindre skattekriminalitet og å gjøre det lettere for vanlige innbyggere å betale riktig skatt.

Christian sitter foran PC på kontoret.

Foto: Aina Louise C. Haukeland/UiO

Som data scientist bruker Christian programmering, matematikk og statistikk til å finne vise frem resultater og mønstre i store datasett. Jobben er prosjektbasert, og frem til nå har han jobbet med to ulike prosjekter. Det første handlet om å finne ut om norske innbyggere melder inn feil fradrag på skatten.

– Fradrag gjør at man kan betale mindre skatt. Et eksempel er reisefradrag, der man kan få litt mindre skatt hvis man pendler til jobb.

– Noen skriver for lite fradrag, mens andre prøver å lure til seg mer. Modellene vi bruker klassifiserer folk og finner de som har størst sannsynlighet for å ha meldt inn feil. Disse personene blir plukket ut til kontroll.

Det neste prosjektet han startet på handler om bedrifter som går konkurs. Skattetetaten følger med på bedrifter med spesielt høy risiko for dette.

– Nå jobber jeg med konkursprediksjon, der målet er å forutsi om en bedrift vil gå konkurs. Skatteetaten må være oppdatert på de økonomiske forholdene til hver enkelt bedrift, slik at de kan sikre en riktig gjennomføring av konkursprosessen.

Modeller som viser risiko for skattesvindel

Maskinlæringsmodeller er nyttige verktøy når saksbehandlere i Skatteetaten skal kontrollere om innbyggerne betaler riktig mengde skatt. I stedet for å gjøre tilfeldige stikkprøver, kan man gjøre kontroller blant de personene hvor sannsynligheten for skatteunndragelse er størst.

– Maskinlæringsmodellen bruker mye forskjellig informasjon til å finne ut av hvem som har høyere sannsynlighet for skattesvindel. Men det er ikke så enkelt å si at disse personene er mer tilbøyelig til å unndra skatt. Det er ikke bare én type personer som prøver seg på det, forklarer Christian. 

Sjekker og renser data

– For at maskinlæringsmodellene skal fungere, må dataene de mates med være i riktig format. Mesteparten av jobben min går ut på å rense data. Vi sjekker at dataene er riktige og må kanskje endre litt på dem. Vi bruker programmeringsspråk som Python og SQL til dette, forteller Christian.

Christian studerte Matematikk med informatikk og bruker i dag maskinlæring og IT til å bekjempe skattekriminalitet. Foto: Aina Louise C. Haukeland/UiO

I stedet for å utvikle maskinlæringsmodeller fra bunnen av, trener Skatteetaten modeller basert på kodebibliotek. Kodebibliotek inneholder ferdigskrevet kode og er tilgjengelig for alle på internett. Christian lærte mye om å bruke slike biblioteker da han studerte ved Universitetet i Oslo.

– Vi bruker gjerne biblioteker som vi lærte fra studiet. XGBoost er den type kodebibliotek som vi har brukt mest. 

Brukes innen alt fra søppeltømming til finans

Skatteetaten er et av Norges største IT-miljøer, med over 1000 ansatte i IT-avdelingen. Det store arbeidsmiljøet gjør at Christian er omgitt av kollegaer med mye kunnskap om IT og utvikling.

– Jeg jobber alltid i team, og det er aldri soloprosjekter. Man har sine egne oppgaver, og så utveksler vi erfaring og hjelper hverandre hvis det er behov for det.

– Miljøet er variert, og siden data science er et såpass nytt fagfelt, er gjennomsnittsalderen rundt 32 år. Mange er utdannet innenfor informatikk, men noen kommer også fra kjemi eller kybernetikk. Fellesnevneren er realfag og IT.

Selv har Christian en bachelor i matematikk og en mastergrad i data science. Han anbefaler sterkt de som vil jobbe med maskinlæring å studere matematikk.

– Matematikk gir et godt grunnlag for å forstå modellene og det som blir gjort!

– Jeg visste at det var analyse jeg ville jobbe med, og synes at data science gjør den kuleste formen for analyse. Jeg kan ikke komme på en eneste industri hvor ikke data science kan bidra. Det kan brukes innen alt fra søppeltømming til finans!

 

Christian Alm Grindheim

Yrke: Data Scientist hos Skatteetaten
Bachelorutdanning ved UiO: Matematikk med informatikk, studieretning Statistikk og Data Science
Dette studieprogrammet er nå erstattet av: Matematikk: data, modellering og beregninger.
Masterutdanning ved UiO: Data Science
Fullført grad: 2022.

Les om flere ting du kan bli med utdanningen Matematikk: data, modellering og beregninger.

Emneord: Matematikk, Data science, skattekriminalitet, Maskinlæring, modellering Av Malene Langvik-Hansen
Publisert 3. juni 2024 12:18 - Sist endret 5. juni 2024 11:31