Nada

Statistiska metoder 3

Föreläsning 3 oktober 2001
Ansvarig
Jonas
Kortfattat innehåll
Ordtaggning och disambiguering
Litteratur
Bredvidläsningslitteratur

Innehåll

Detaljerade läsanvisningar

Instuderingsfrågor

Exempel på tentafråga

Fråga

För att få fram övergångssannolikheterna i Markovmodellen kan man ta fram statistik över taggtrigram. I praktiken blir dock taggningen bättre om man använder statistik över både taggtrigram och taggbigram. Varför?

Svar

Tillgången på handtaggade relevanta texter är dålig. Statistiken över taggtrigram blir därför inte helt tillförlitlig. Många taggtrigram som existerar finns till exempel troligen inte med i texterna. Statistiken över taggbigram är däremot mycket mer tillförlitlig, så den kan användas för att minska verkningarna av dålig taggtrigramsstatistik.

Uppsatsämne

Utred hur man kan göra för att tagga tal som förekommer i en text med antingen "räkneord" eller "årtal", alltså hur kan man gissa att ett tal står för ett årtal. Implementera din metod och se hur bra den fungerar på några testmeningar.

^ Upp till kursplanen.


Sidansvarig: Jonas Sjöbergh <jsh@nada.kth.se>
Senast ändrad 20 augusti 2002
Tekniskt stöd: <webmaster@nada.kth.se>