Nada

Statistiska metoder 3

Föreläsning 21 november 2000
Ansvarig
Viggo
Kortfattat innehåll
Ordtaggning och disambiguering
Litteratur
Bredvidläsningslitteratur

Innehåll

Exempel på tentafråga

Fråga

För att få fram övergångssannolikheterna i Markovmodellen kan man ta fram statistik över taggtrigram. I praktiken blir dock taggningen bättre om man använder statistik över både taggtrigram och taggbigram. Varför?

Svar

Tillgången på handtaggade relevanta texter är dålig. Statistiken över taggtrigram blir därför inte helt tillförlitlig. Många taggtrigram som existerar finns till exempel troligen inte med i texterna. Statistiken över taggbigram är däremot mycket mer tillförlitlig, så den kan användas för att minska verkningarna av dålig taggtrigramsstatistik.

Uppsatsämne

Utred hur man kan göra för att tagga tal som förekommer i en text med antingen "räkneord" eller "årtal", alltså hur kan man gissa att ett tal står för ett årtal. Implementera din metod och se hur bra den fungerar på några testmeningar.

^ Upp till kursplanen.


Sidansvarig: Viggo Kann <viggo@nada.kth.se>
Senast ändrad 24 oktober 2000
Tekniskt stöd: <webmaster@nada.kth.se>