Nada

Statistiska metoder 3

Föreläsning 29 september 2005, 10-12, Q15
Ansvarig
Jonas
Kortfattat innehåll
Ordtaggning och disambiguering
Slides från föreläsningen i pdf.
Litteratur
Bredvidläsningslitteratur

Detaljerade läsanvisningar

Innehåll

Instuderingsfrågor

Exempel på tentafråga

Fråga

För att få fram övergångssannolikheterna i Markovmodellen kan man ta fram statistik över taggtrigram. I praktiken blir dock taggningen bättre om man använder statistik över både taggtrigram och taggbigram. Varför?

Svar

Tillgången på handtaggade relevanta texter är dålig. Statistiken över taggtrigram blir därför inte helt tillförlitlig. Många taggtrigram som existerar finns till exempel troligen inte med i texterna. Statistiken över taggbigram är däremot mycket mer tillförlitlig, så den kan användas för att minska verkningarna av dålig taggtrigramsstatistik.

Uppsatsämne

Utred hur man kan göra för att tagga tal som förekommer i en text med antingen "räkneord" eller "årtal", alltså hur kan man gissa att ett tal står för ett årtal. Implementera din metod och se hur bra den fungerar på några testmeningar.

^ Upp till kursplanen.


Sidansvarig: Jonas Sjöbergh <jsh@nada.kth.se>
Senast ändrad 28 augusti 2005
Tekniskt stöd: <webmaster@nada.kth.se>