Nada

Statistiska metoder 3

Föreläsning 3 oktober 2001
Ansvarig
Viggo
Kortfattat innehåll
Ordtaggning och disambiguering
Litteratur
Bredvidläsningslitteratur

Innehåll

Exempel på tentafråga

Fråga

För att få fram övergångssannolikheterna i Markovmodellen kan man ta fram statistik över taggtrigram. I praktiken blir dock taggningen bättre om man använder statistik över både taggtrigram och taggbigram. Varför?

Svar

Tillgången på handtaggade relevanta texter är dålig. Statistiken över taggtrigram blir därför inte helt tillförlitlig. Många taggtrigram som existerar finns till exempel troligen inte med i texterna. Statistiken över taggbigram är däremot mycket mer tillförlitlig, så den kan användas för att minska verkningarna av dålig taggtrigramsstatistik.

Uppsatsämne

Utred hur man kan göra för att tagga tal som förekommer i en text med antingen "räkneord" eller "årtal", alltså hur kan man gissa att ett tal står för ett årtal. Implementera din metod och se hur bra den fungerar på några testmeningar.

^ Upp till kursplanen.


Sidansvarig: Viggo Kann <viggo@nada.kth.se>
Senast ändrad 27 augusti 2001
Tekniskt stöd: <webmaster@nada.kth.se>