Nada

Statistiska metoder 1

Föreläsning 6 september 2005
Ansvarig
Viggo
Kortfattat innehåll
Inledning till statistiska metoder. Enkel språkstatistik.
Litteratur
Bredvidläsningslitteratur

Innehåll

Exempel på tentafråga

Fråga

Hur kan man använda språkstatistiska metoder för att avgöra om en text är skriven av en viss känd författare?

Svar

Skaffa fram så mycket text som möjligt som är skriven av den aktuella författaren. Frekvensanalysera sedan denna korpus med avseende på bland annat ordfrekvenser, ordlängd och meningslängd. Jämför statistiken med annan text och leta efter skillnader. Man kan till exempel se vilka favoritord författaren har. Särskilt givande kan det vara att använda ordpar som består av synonyma ord där författaren av vana väljer endera oftare (skriver han mer eller mera, även eller också...). Jämför sedan detta med den text du vill författarbestämma.

Inlämningsuppgiftsämne

N-gram är användbart till mycket inom språkteknologin. Gör något med n-gram, till exempel författaridentifiering, och se om det ger något intressant.

^ Upp till kursplanen.


Sidansvarig: Viggo Kann <viggo@nada.kth.se>
Senast ändrad 5 september 2005
Tekniskt stöd: <webmaster@nada.kth.se>