# Som forklart i NLTK-boka, kapittel 5, del 4: Automatic tagging
# (Kommenter ut løkkene med utskrifter for å faktisk se utskriftene du vil)

# Importerer korpusdata
from nltk.corpus import brown

# Henter ut setninger med kategori 'news'
# Andre mulige kategorier i Brown-korpuset: adventure, fiction
brown_tagged_sents = brown.tagged_sents(categories = 'news')
brown_untagged_sents = brown.sents(categories = 'news')

# Tar en titt på hvordan de markerte setningene ser ut.
# Hvert ord er lagret som et tuppel med ord og tilhørende POS-tag.
for sent in brown_tagged_sents:
    for word in sent:
        print(word)

# Tar en titt på hvordan de umarkerte setningene ser ut.
# Her får vi de samme ordene som over, men uten tagger
for sent in brown_untagged_sents:
    for word in sent:
        print(word)


# Obs: når du skal bruke regex-taggeren i NLTK,
# må du også importere NLTK slik før du begynner:
import nltk
# (helst helt øverst i koden din, og ikke til slutt som her...)