Nada

Textsammanfattning

Martin Hassel

Kortfattat innehåll

Denna föreläsning handlar om automatisk textsammanfattning. Automatisk textsammanfattning är tekniken där en dator sammanfattar en text. En text matas in i datorn och ut kommer en sammanfattad text. Vi diskuterar olika metoder och system och användbara tillämpningar inom området samt hur man utvärderar dessa.

Kursmaterial

Hur genererar datorn text?, Hercules Dalianis
Automatisk textbehandling (PDF), Hercules Dalianis
: Summarization Evaluation: An Overview (PDF), Inderjeet Mani, NTCIR 2001
Cut and Paste Based Text Summarization (PDF), Hongyan Jing; Kathleen R. McKeown, NAACL-00
Sentence Reduction for Automatic Text Summarization (PDF), Hongyan Jing, NAACL-00

Föreläsningsbilder (PDF)

Exempel på tentafråga

Fråga

a) Ge exempel på minst tre bedömningsgrunder vid rankning av extrakt. (2p)
b) Vad är 'Named-Entity-Tagging' och hur kan det användas förtextsammanfattning (2p)
c) Beskriv 'Multi-Document-Summarization' och ge minst ett exempel på ett användningsområde för detta. (2p)

Svar

a) 1. Formattering (fetstil, kursiv, etc.)
    2. Termfrekvens (antal förekomster i texten)
    3. Position i texten (rubrik, ingress, etc.)
b) NE-taggning är att med heuristiska och/eller lexikonbaserade metoder hitta och märka upp namn (på personer, länder, företag, produkter, etc men även tidsangivelser). Detta kan användas vid textsammanfattning som en bedömningsgrund vid rankning (se ovan), som stöd till pronomenresolution, mm.
c) Multi-Document-Summarization är när man sammanfattar flera texter till en sammanfattning, dvs man producerar en sammanställande sammanfattning över en hel dokumentmängd. Ett tänkbart användningsområde är nyhetsbevakning som sammanställer flera nyhetskällor, ett annat är sammanfattning av trådar i en (skriven) konversation, t.ex. e-post.

^ Upp till kursplanen.


Sidansvarig: Martin Hassel <xmartin@nada.kth.se>
Senast ändrad 16 augusti 2001
Tekniskt stöd: <webmaster@nada.kth.se>