Nada

Laboration 5:
Automatisk textsammanfattning

Martin HasselIntroduktion

KTH extraktkorpus är en korpus bestående av meningar utvalda ur texter av testpersoner (t.ex. du) och inlagda som statistik i en databas. Denna statistik är tänkt att användas för att utvärdera vår automatiska textsammanfattare SweSum. Det du/ni skall göra är en del av en statistikinsamling och en miniutvärdering av fem texter.

Tanken är att se om SweSum, som också väljer ut meningar ur en text för att bygga upp en sammanfattning av denna text, kan fås att välja ut de meningar som flest personer också har valt ut. För att åstadkomma detta behöver vi god statistik och hjälp med urval från många personer. Varje text bör endast sammanfattas av en, eller en samarbetande grupp av, person(er). Att sammanfatta en text tar ca 3-5 min. Observera att ingen inlämnad data kan knytas till dig personligen.

För dig/er som aldrig har testat att manuellt sammanfatta texter med detta eller liknande system så finns det en avdelning med två övningstexter att prova systemet på. Dessa ingår inte i statistiken så lek på och bekanta er med systemet och metoden. När du/ni känner er redo att börja så finns slumpvis utvald text att sammanfatta på: http://www.nada.kth.se/iplab/hlt/kthxc/index.php?language=svenska&texttype=nyhetstexter


Uppgift i korthet

Förberedelse: Placera er i grupper om 1-3 personer. Läs igenom hela instruktionstexten noga från början till slut.

Steg 1: Gå till http://www.nada.kth.se/iplab/hlt/kthxc/index.php?language=svenska&texttype=nyhetstexter. Du bör få upp en text uppdelad i meningar med en kryssruta framför varje mening. Markera de meningar i texten som du/ni tycker bör finnas med i en sammanfattning av texten genom att bocka för kryssrutorna framför respektive mening.

Steg 2: Klicka [Visa sammanfattning] och läs igenom den sammanfattning som visas i det nya fönstret. Om du/ni tycker att sammanfattningen på ett kort och koncist sätt sammanfattar det centrala innehållet i texten så klipp-och-klistra in sammanfattningen (inklusive statistik) i en textfil och klicka sedan på [Godkänn sammanfattning]. Efter att du har skickat in din sammanfattning så får du även veta lite om hur ditt urval av meningar svarade mot de urval som gjorts hitintills för den aktuella texten. Se inte detta som en uppmaning att lyckas bättre nästa gång utan mer som lite kuriosa och skojigt grädde på moset. Klipp-och-klistra in även denna "kuriosa" under din sammanfattning i tidigare nämnda textfil.

Upprepa steg 1-2 för fem olika texter. Om slumpen skulle ge dig samma text två gånger, klicka [Ny text] tills du/ni fått en text du/ni inte sammanfattat ännu.

Steg 3: Gå till extraktdatabasen och klicka på den första texten av de fem du/ni sammanfattade i steg 1-2. Gå till nedre delen av sidan och notera vad medellängden på de representerade extrakten är för den aktuella texten, mata sedan in det värdet i "Visa sammanfattning på [xxx] procent" och tryck retur. Dvs om det står att "Kortaste extraktet representerat ovan är 19 %, längsta är 55 % och medellängden är 36 %.", då matar du in 36 % i fältet och trycker retur. Jämför denna sammanfattning (framtagen genom majoritetsbeslut) med din sammanfattning. Är det stora skillnader och vad skiljer dem isf åt? Varför tror du att du gjort annorlunda val än majoriteten när du gjort det?

Steg 4: Klicka på Visa originaltext och klipp-och-klistra in HTML-koden i textrutan i det avancerade gränssnittet i SweSum. Ställ in procentgraden på samma som medellängden i steg 3 och klicka [Sammanfatta]. Jämför denna sammanfattning med de två tidigare sammanfattningarna. Vad skiljer dessa åt och vad tror du dessa skillnader beror på?

Upprepa steg 3-4 för alla fem texter du/ni sammanfattade i steg 1-2.

Steg 5: Beskriv vilka problem du/ni ser som de främsta med sammanfattningen gjord med SweSum jämfört med urvalen gjorda av människor. Ange möjliga angreppssätt för att tackla dessa problem. Om du/ni hinner, prova gärna att ändra en del inställningar i SweSum (t.ex. vikter, pronomenresolution, generisk etc.) och se hur det påverkar sammanfattningen i förhållande till de "mänskliga" extrakten.


Redovisning

Redovisa skriftligt de extrakt (och statistik+kuriosa) du/ni gjorde i steg 1-2 tillsammans med de observationer och reflektioner du/ni gjort i steg 3-5. Funderingar och frågor ställs lämpligast till labbhandledaren vid labbtillfället. Redovisning kan ske antingen genom att du/ni lämnar in skriftligt under labbtillfället eller via e-post till xmartin@nada.kth.se, det tidigare är att föredra om möjligt. Observera att redovisning av laborationen är obligatorisk för godkänt på kursen.


Observera!

Om ni är flera personer som delar rum/dator och som vill bidra med extrakt till korpusen så titta inte på när någon annan gör sina urval eftersom detta troligen i hög grad påverkar hur ditt urval då kommer att se ut.

När du sammanfattat klart en text dyker en (förhoppningsvis) ny text upp. Du väljer själv i detta läge om du vill sammanfatta fler texter eller bryta, men jag skulle vara tacksam om du/ni ville sammanfatta åtminstone fem sex stycken texter (man behöver inte sammanfatta alla texter i en sittning). Kommer det upp en text som du redan sammanfattat, eller en som du av någon anledning känner att du inte kan sammanfatta, så kan du få en ny slumpvis utvald text genom att ladda om sidan eller genom att klicka på knappen [Ny text].

De nu tio aktuella texterna som finns inlagda så här långt finns även att nå direkt på:
http://www.nada.kth.se/iplab/hlt/kthxc/index.php?fileid=svenska->nyhetstexter->text001.htm
http://www.nada.kth.se/iplab/hlt/kthxc/index.php?fileid=svenska->nyhetstexter->text002.htm
http://www.nada.kth.se/iplab/hlt/kthxc/index.php?fileid=svenska->nyhetstexter->text003.htm
http://www.nada.kth.se/iplab/hlt/kthxc/index.php?fileid=svenska->nyhetstexter->text004.htm
http://www.nada.kth.se/iplab/hlt/kthxc/index.php?fileid=svenska->nyhetstexter->text005.htm
http://www.nada.kth.se/iplab/hlt/kthxc/index.php?fileid=svenska->nyhetstexter->text006.htm
http://www.nada.kth.se/iplab/hlt/kthxc/index.php?fileid=svenska->nyhetstexter->text007.htm
http://www.nada.kth.se/iplab/hlt/kthxc/index.php?fileid=svenska->nyhetstexter->text008.htm
http://www.nada.kth.se/iplab/hlt/kthxc/index.php?fileid=svenska->nyhetstexter->text009.htm
http://www.nada.kth.se/iplab/hlt/kthxc/index.php?fileid=svenska->nyhetstexter->text010.htm

Om ni har några kommentarer på hur extraktinsamlingen kan förbättras eller instruktioner som bör omformuleras så skicka gärna ett el-brev. Hittar ni även andra oklarheter, eller sådant som ni misstänker kan missuppfattas eller kännas oklart för andra så påpeka gärna.


Labbkonstruktion: Martin Hassel
Sidansvarig: Martin Hassel <xmartin@nada.kth.se>
Senast ändrad: 5 september 2003
Tekniskt stöd: <webmaster@nada.kth.se>