Förslag till korpusformat - 2002-03-19

Bakgrund

Johnny Bigert och Jonas Sjöbergh har utarbetat ett litet exempel på förslag till format på annoteringen av SSM-korpusen, ASU-korpusen och den nya KTH-korpusen. Detta efter diskussion med medlemmarna i CrossCheck-projektet.

Innehåll

Vi har valt att separera innehåll från annoteringar i största möjliga utsträckning. Vi har därför infört följande fyra huvuddelar av annoteringen: Texten i vårt exempel är hämtat ur SUC och innehåller fyra meningar, två stycken och 43 tokens. Exemplet annoterar en fil som heter txt4711.

Tokens

Varje token ligger på en rad för sig. De är försedda med en unik identifierare (unik i hela korpusen) som övriga filer hänvisar till. Se exempelfil txt4711.tokens. Observera att identifierarna inte nödvändigtvis måste komma i nummerordning. Under korpusbygge kan det t.ex. bli nödvändigt att infoga eller ta bort ett token. Ordens individuella ordning i korpus bestäms alltså av ordningen i tokenfilen.

Morfosyntaktisk information

För att skilja korpusens innehåll från tagguppsättningen ligger den morfosyntaktiska informationen separat. Detta förenklar hantering av flera tagguppsättningar som opererar på samma textmängd.

Varje token ska förses med en tagg och ett lemma. Man kan åstadkomma detta på åtminstone två sätt: antingen listar man den tagg och det lemma som hör till varje token, eller så listar man för varje tagg/lemma de tokens som tilldelats taggen/lemmat ifråga. I det första fallet får man en lista som rad för rad är synkroniserad med tokensfilen (se exempelfiler txt4711.taglemma.suc, txt4711.tag.suc och txt4711.lemma.suc). I det andra fallet får man en variant av en s.k. inverterad fil (se exempelfiler txt4711.taginv.suc och txt4711.lemmainv.suc). Det återstår att bestämma vilken eller vilka av dessa format som ska ingå i korpusen.

Filen txt4711.phrase beskriver en rudimentär och grund konstituentanalys av texten. Den är hierarkiskt ordnad med meningar, satser och fraser.

Struktur

Strukturfilen innehåller information om stycken, meningar och eventuella formateringstaggar som ska behållas från ursprungstexten (såsom HTML-taggar). Se exempelfil txt4711.structure.

Felannotering

Felannotering är det område författarna till detta exempel har minst insikt i. Vi har dock valt ett generellt format och indikerat vilka de individuella fälten och feltyperna kan vara. Se exempel på fel i txt4711.annot.teacher där vi illustrerar hur en presumtiv lärare har kommenterat elevens arbete.

Exempelfiler

Här är samtliga exempelfiler: Johnny Bigert, 2002-03-19
[Johnny Bigert's homepage] [KTH] [Disclaimer] [Svenska] [English]

Last updated: 27 february, 2002