HON2200 - Vår 2023

Teorispørsmål til eksamen

Under følger en liste med teorispørsmål som vi kan stille i tillegg til spørsmål om prosjektoppgavene deres. For alle spørsmål bør man også kunne svare på oppfølgingsspørsmålet «hvorfor?».

Gi eksempel på en pandas kommando som gjør at du kan se dataframet ditt:

- df.head(), display(df)

Hva brukes Git til?

Git er et system for versjonskontroll av tekst. Det brukes til å holde kontroll kode. Gjør at man kan spore når endringer har skjedd om hvem som har gjort endringene. Nyttig om koden plutselig ikke virker, fordi man da kan gå tilbake til en tidligere versjon av koden.

Hva forskjellen på Github og Git?

Github er en tjeneste som tilbyr Git på internett, slik at man kan lagre kode og samarbeide på en enkel måte.

Hva gjør train-test-split funksjonen i scikit-learn?

Train-test-split tar all dataen vår som input og deler den opp i trenings- og test-data. Trenings data til å trene modellen vår, og test til å sjekke hvor god den er på data som ikke har blitt brukt i tilpasningen av modellen.

Hvorfor gjør vi train-test-split:

Enkelt forklart gjør vi dette for å sikre at modellen vår er god, ikke bare på data den har sett, men også data den ikke er trent på. Kun slik kan vi vite hvor godt den fungerer i praksis.

Når vi lager en modell basert på data, setter vi gjerne opp følgende likning: \(Y = f(x) + \varepsilon\). Forklar likningen og symbolene.

Ligningen viser den underliggende systematiske sammenhengen mellom x-data (input) og Y-data (output). Sammenhengen er at det finnes en funksjon som tar inn x-data og spytter ut Y-data, til en nøyaktighet på . Denne funksjonen er altså f(x) og viser at det kan være variasjon utover sammenhengen.
Y : Output
X: input
f(x) : sammenhengen vi ønsker å finne
: feil som ikke kan forklares av sammenhengen f(X).
Les mer på S.16 i pensum (https://www.statlearning.com/)

Hva skiller kategoriske og numeriske data:

Numeriske data er data vi enkelt kan tilordne tall på en skala som gir mening, kategoriske data er derimot data som tilhører ulike kategorier. Vi gjør dette skille for å vite hvordan vi skal behandle data, og hvilke modeller vi skal bruke.
Les mer på S.130 i pensum (https://www.statlearning.com/)

Hvordan kan vi gjøre om kategoriske data slik at de kan brukes i en modell:

Ved å bruke «One hot encoding». Hver kategori får sin egen kolonne med tallene 0(false) og 1(true).

Hvilken av lineær- og logistisk-regresjon vil du bruke om du vil predikere kategoriske data?:

Logistisk regresjon.
Siden vi kan tilegne kategoriske data verdiene 0 og 1 for å representere hver av kategoriene, vil den logistiske funksjonen, som går mellom 0 og 1 være godt egnet til dette.

Hvilken av lineær- og logistisk-regresjon vil du bruke om du vil predikere numeriske data?:

Lineær regresjon.

Hva måler mean squared error:

Hvor stor gjennomsnittlig avstand det er mellom datapunktene vi modellerer, og modellens som prøver å modellere dataene. Dette er et av flere mål vi kan bruke for å vurdere hvor god modellen er.
Se mer fra S.29 i pensum (https://www.statlearning.com/)

Er det i logistisk eller lineær regresjon det er mest naturlig å bruke mean squere error?

Lineær.
Med logistisk regresjon prøver vi å finne riktig klasse, basert på noe input. Siden dette er et ja nei spørsmål, gir det like mye mening her å måle avstander, som i lineær regresjon hvor vi tilpasser en linje/plan eller lignende.

Hvilke egenskaper har sigmoidfunksjonen som gjør den godt egnet til å svare på ja/nei spørsmål:

Den går fra 0 til 1, slik at vi kan tilegne ja og nei til 0 og 1.
Den er glatt, vi kan altså derivere den.
Den forteller oss noe om sannsynligheten for ja/nei

Hva heter de to hypotesene vi må formulere for å gjøre en hypotesetest?:

Nullhypotesen (H₀) og alternativ hypotesen (H_a). Alternativ hypotesen er det vi ønsker å undersøke om er sant eller ikke, mens nullhypotesen er det motsatte.
Se mer fra S.553 i pensum (https://www.statlearning.com/)

Hva er de to feilene vi kan gjøre i en hypotesetest:

Type 1 (Vi forkaster H₀, men den er sann) og Type 2 (Vi forkaster ikke H₀, men H₀ er ikke sann)
Se mer fra S.559 i pensum (https://www.statlearning.com/)

Hva forteller p-verdien i en hypotesetest oss?

Sannsynligheten for å trekke et datasett som er like ekstremt eller mer ekstremt enn det datasettet vil har gitt til en hypotesetest, gitt at nullhypotesen er sann. Små p-verdier betyr altså at datasettet er svært usannsynlig under nullhypotesen.
Se mer fra S.553 i pensum (https://www.statlearning.com/)

Publisert 22. mai 2023 11:15 - Sist endret 23. mai 2023 13:45