# Se på 06_nltk_intro.py først! # Importerer NLTK og korpus import nltk from nltk.corpus import inaugural # Henter ordene til Kennedy kennedy_ord = inaugural.words('1961-Kennedy.txt') antall_tokener = len(kennedy_ord) # Importerer Counter-klassen from collections import Counter # Beregner frekvensdistribusjon fd_kennedy_ord = Counter(kennedy_ord) # 20 mest frekvente ord for ord in fd_kennedy_ord.most_common(20): # 'ord' er et tuppel som videre kan indekseres print(ord[0], 'forekommer', ord[1], 'ganger') # Antall forekomster av et spesifikt ord people_forekomster = fd_kennedy_ord['people'] print('\npeople forekommer', people_forekomster, 'ganger') # Sannsynligheten for hvert ord sannsynligheter = {} for ord, forekomster in fd_kennedy_ord.items(): sannsynligheter[ord] = count / antall_tokener