# NLTK må importeres i koden
# Dette gjøres gjerne i toppen av fila
import nltk

# Deretter imporerer vi korpusdata som vi vil jobbe med
from nltk.corpus import inaugural

# Vi tar en titt på hvilke dokumenter som finnes i dette korpuset
# Dokumentene er taler som amerikanske presidenter holdt da de ble innvalgt
for dokument in inaugural.fileids():
    print(dokument)

# Vi tar en titt på Kennedy sin tale fra 1961.
# Dette dokumentet heter '1961-Kennedy.txt'.

# Hele talen som én sammenhengende streng
kennedy_raw = inaugural.raw('1961-Kennedy.txt')

# Liste av ord
kennedy_ord = inaugural.words('1961-Kennedy.txt')

# Liste der hvert element er en setning representert som en liste av ord
kennedy_setninger = inaugural.sents('1961-Kennedy.txt')

# Disse dokumentene er allerede tokenisert, så det er enkelt å finne antall ord
antall_tokener = len(kennedy_ord)
print('Antall tokener:', antall_tokener)

# Unike ord
typer = []
for token in kennedy_ord:
    typer = token.lower()
typer = set(typer)

# Antall unike ord
antall_typer = len(typer)
print('Antall typer:', antall_typer)