Förslag till korpusformat - 2002-03-19
Bakgrund
Johnny Bigert och Jonas Sjöbergh har utarbetat ett litet exempel på
förslag till format på annoteringen av SSM-korpusen, ASU-korpusen och
den nya KTH-korpusen. Detta efter diskussion med medlemmarna i CrossCheck-projektet.
Innehåll
Vi har valt att separera innehåll från annoteringar i största möjliga
utsträckning. Vi har därför infört följande fyra huvuddelar av annoteringen:
- Tokenisering
- Morfosyntaktisk information
- Struktur
- Felannotering
Texten i vårt exempel är hämtat ur SUC och innehåller fyra meningar, två
stycken och 43 tokens. Exemplet annoterar en fil som heter txt4711.
Tokens
Varje token ligger på en rad för sig. De är försedda
med en unik identifierare (unik i hela korpusen) som övriga filer hänvisar
till. Se exempelfil txt4711.tokens. Observera att identifierarna
inte nödvändigtvis måste komma i nummerordning. Under korpusbygge kan det
t.ex. bli nödvändigt att infoga eller ta bort ett token. Ordens
individuella ordning i korpus bestäms alltså av ordningen i tokenfilen.
Morfosyntaktisk information
För att skilja korpusens innehåll
från tagguppsättningen ligger den morfosyntaktiska informationen
separat. Detta förenklar hantering av flera tagguppsättningar som
opererar på samma textmängd.
Varje token ska förses med en tagg och ett lemma. Man kan åstadkomma
detta på åtminstone två sätt: antingen listar man den tagg och det
lemma som hör till varje token, eller så listar man för varje
tagg/lemma de tokens som tilldelats taggen/lemmat ifråga. I det första
fallet får man en lista som rad för rad är synkroniserad med
tokensfilen (se exempelfiler txt4711.taglemma.suc, txt4711.tag.suc och txt4711.lemma.suc). I det andra fallet
får man en variant av en s.k. inverterad fil (se exempelfiler txt4711.taginv.suc och txt4711.lemmainv.suc). Det återstår
att bestämma vilken eller vilka av dessa format som ska ingå i
korpusen.
Filen txt4711.phrase beskriver en
rudimentär och grund konstituentanalys av texten. Den är hierarkiskt
ordnad med meningar, satser och fraser.
Struktur
Strukturfilen innehåller information om stycken,
meningar och eventuella formateringstaggar som ska behållas från
ursprungstexten (såsom HTML-taggar). Se exempelfil txt4711.structure.
Felannotering
Felannotering är det område författarna till
detta exempel har minst insikt i. Vi har dock valt ett generellt
format och indikerat vilka de individuella fälten och feltyperna kan
vara. Se exempel på fel i txt4711.annot.teacher där vi
illustrerar hur en presumtiv lärare har kommenterat elevens arbete.
Exempelfiler
Här är samtliga exempelfiler:
Johnny Bigert, 2002-03-19
Last updated: 27 february, 2002