Gustav AlgotssonAutomatic pronoun resolution for Swedish

Abstract

This thesis describes SwePron, an algorithm for automatic resolution of pronouns in Swedish, using Mitkov’s algorithm for pronoun resolution in English (MARS) as a starting point.

There are several changes made to the algorithm in order to adapt it to the Swedish language. One key language difference is that Swedish has two “neutral” genders, whereas English only has one. A second important difference is that the word order varies more in Swedish than it does in English.

A number of other modifications, not directly related to language differences, are also investigated. It is argued that incorporating lexical information is an important element in increasing the accuracy of the algorithm. One successful example is the use of lists of “human role nouns”, i.e. nouns that normally refer to human beings, although this is not reflected in the grammatical gender. However, other aspects of lexical information are also used.

It is argued that the emphasis on the distance between the anaphor and its antecedent should probably be increased compared to what it is in MARS.

The algorithm is implemented in Java. It makes use of two existing applications, Granskas Text Analyzer (GTA) and MaltParser/sweMalt. These two applications together provide the syntactic parsing information that is used by the algorithm.

The implemented algorithm is evaluated for third person singular pronouns. It will be quite straightforward to extend the algorithm to also resolve plural pronouns, and some guidelines for this are given. The performance of SwePron seems to be roughly similar to that of MARS, although a detailed comparison is difficult due to different coverage, and also differences in syntactic parsing information.

It is suggested that some of the modifications tried in this thesis could perhaps be evaluated also on pronoun resolution for English; two options are the human role noun list, and increasing the weight of the referential distance factor.

Automatisk pronomenresolution för svenska

Sammanfattning

Detta examensarbete beskriver SwePron, en algoritm för automatisk pronomenresolution för svenska, som använder Mitkov’s algoritm för pronomenresolution för engelska(MARS) som utgångspunkt.

Flera förändringar av den engelska algoritmen har fått göras för att anpassa den till det svenska språket. En viktig skillnad mellan språken är att svenska har två “neutrala” grammatiska genus, medan engelska bara har ett. En annan viktig skillnad är att ordföljden är mer varierande i svenskan.

Ett antal andra modifikationer undersöks också, som inte är direkt beroende av språkskillnader. Det framförs att lexikal information är en viktig faktor för att förbättra algoritmens prestanda. Ett framgångsrikt exempel är användningen av listor på “människorolls-substantiv”, dvs substantiv som vanligen refererar till människor, medan detta inte framgår av deras grammatiska genus. Detta är dock bara en av de typer av lexikal information som används i algoritmen.

Det hävdas att avståndet mellen anaforen och dess antecedent troligen borde ges större vikt jämfört med vad det har i MARS.

Algoritmen är implementerad i Java. Två existerande applikationer används, Granskas TextAnalysator (GTA) och MaltParser/sweMalt. Dessa två applikationer utför den syntaktiska parsningen som algoritmen sedan använder sig av.

Den implementerade algoritmen utvärderas för pronomen i tredje person singularis. Att utvidga algoritmen till att omfatta plurala pronomen ska gå enkelt att göra; vissa riktlinjer för en sådan utvidgning presenteras. Algoritmens prestanda, d.v.s. andelen korrekta resolutioner, förefaller vara snarlik den som MARS ger. Det är dock inte möjligt att göra en detaljerad jämförelse; algoritmerna har olika täckning avseende vilka pronomen som behandlas, och det finns även skillnader i syntaktisk parsningsinformation i indata.

Det framhålls att vissa av de föreslagna modifikationerna kanske kunde utvärderas även på engelsk pronomenresolution; två förslag är att använda listor på “människorolls-substantiv”, och att öka betydelsen av avståndet mellan anaforen och antecedenten.