# Som forklart i NLTK-boka, kapittel 5, del 4: Automatic tagging # (Kommenter ut løkkene med utskrifter for å faktisk se utskriftene du vil) # Importerer korpusdata from nltk.corpus import brown # Henter ut setninger med kategori 'news' # Andre mulige kategorier i Brown-korpuset: adventure, fiction brown_tagged_sents = brown.tagged_sents(categories = 'news') brown_untagged_sents = brown.sents(categories = 'news') # Tar en titt på hvordan de markerte setningene ser ut. # Hvert ord er lagret som et tuppel med ord og tilhørende POS-tag. for sent in brown_tagged_sents: for word in sent: print(word) # Tar en titt på hvordan de umarkerte setningene ser ut. # Her får vi de samme ordene som over, men uten tagger for sent in brown_untagged_sents: for word in sent: print(word) # Obs: når du skal bruke regex-taggeren i NLTK, # må du også importere NLTK slik før du begynner: import nltk # (helst helt øverst i koden din, og ikke til slutt som her...)