Nada

Statistiska metoder 3

Föreläsning 3 oktober 2001
Ansvarig
Jonas
Kortfattat innehåll
Ordtaggning och disambiguering
Slides från föreläsningen i pdf.
Litteratur
Bredvidläsningslitteratur

Detaljerade läsanvisningar

Innehåll

Instuderingsfrågor

Exempel på tentafråga

Fråga

För att få fram övergångssannolikheterna i Markovmodellen kan man ta fram statistik över taggtrigram. I praktiken blir dock taggningen bättre om man använder statistik över både taggtrigram och taggbigram. Varför?

Svar

Tillgången på handtaggade relevanta texter är dålig. Statistiken över taggtrigram blir därför inte helt tillförlitlig. Många taggtrigram som existerar finns till exempel troligen inte med i texterna. Statistiken över taggbigram är däremot mycket mer tillförlitlig, så den kan användas för att minska verkningarna av dålig taggtrigramsstatistik.

Uppsatsämne

Utred hur man kan göra för att tagga tal som förekommer i en text med antingen "räkneord" eller "årtal", alltså hur kan man gissa att ett tal står för ett årtal. Implementera din metod och se hur bra den fungerar på några testmeningar.

^ Upp till kursplanen.


Sidansvarig: Jonas Sjöbergh <jsh@nada.kth.se>
Senast ändrad 6 oktober 2004
Tekniskt stöd: <webmaster@nada.kth.se>