# NLTK må importeres i koden # Dette gjøres gjerne i toppen av fila import nltk # Deretter imporerer vi korpusdata som vi vil jobbe med from nltk.corpus import inaugural # Vi tar en titt på hvilke dokumenter som finnes i dette korpuset # Dokumentene er taler som amerikanske presidenter holdt da de ble innvalgt for dokument in inaugural.fileids(): print(dokument) # Vi tar en titt på Kennedy sin tale fra 1961. # Dette dokumentet heter '1961-Kennedy.txt'. # Hele talen som én sammenhengende streng kennedy_raw = inaugural.raw('1961-Kennedy.txt') # Liste av ord kennedy_ord = inaugural.words('1961-Kennedy.txt') # Liste der hvert element er en setning representert som en liste av ord kennedy_setninger = inaugural.sents('1961-Kennedy.txt') # Disse dokumentene er allerede tokenisert, så det er enkelt å finne antall ord antall_tokener = len(kennedy_ord) print('Antall tokener:', antall_tokener) # Unike ord typer = [] for token in kennedy_ord: typer = token.lower() typer = set(typer) # Antall unike ord antall_typer = len(typer) print('Antall typer:', antall_typer)