# Se på 06_nltk_intro.py først!

# Importerer NLTK og korpus
import nltk
from nltk.corpus import inaugural

# Henter ordene til Kennedy
kennedy_ord = inaugural.words('1961-Kennedy.txt')
antall_tokener = len(kennedy_ord)

# Importerer Counter-klassen
from collections import Counter

# Beregner frekvensdistribusjon
fd_kennedy_ord = Counter(kennedy_ord)

# 20 mest frekvente ord
for ord in fd_kennedy_ord.most_common(20):
    # 'ord' er et tuppel som videre kan indekseres
    print(ord[0], 'forekommer', ord[1], 'ganger')

# Antall forekomster av et spesifikt ord
people_forekomster = fd_kennedy_ord['people']
print('\npeople forekommer', people_forekomster, 'ganger')

# Sannsynligheten for hvert ord
sannsynligheter = {}
for ord, forekomster in fd_kennedy_ord.items():
    sannsynligheter[ord] = count / antall_tokener