Forskning

Jag sysslar med språkteknologi inom språkteknologigruppen. Mitt arbete behandlar klustring av texter. Jag började inom projektet Infomat . Sedan det tagit slut fortsätter jag nu på egen hand med samma ämne.

Beskrivning: Textklustring - fortsättning på projektet Infomat

Textklustring eller automatisk gruppering av texter används till att dela upp en mängd texter i grupper, sk kluster. Målet är att texterna inom respektive kluster ska vara lika till innehåll.

Många texter grupperas rutinmässigt manuellt efter innehåll, tex i bibliotek och i tidningar (inrikes, utrikes, ekonomi, kultur, sport etc), men det är inte alltid dessa indelningar passar ens önskemål. En ny indelning kan sprida nytt ljus över en textmängd.

Resultatet av textklustring blir olika beroende på på vilket sätt man representerar texter. Vi har undersökt hur en del aspekter av svenska språket påverkar resultaten. I samband med detta har vi också studerat utvärdering av textklustring. Det är väldigt svårt att definera vad som menas med en bra indelning av en mängd texter och därmed väldigt svårt att mäta.

Ett viktigt framtida användningsområde av textklustring tror vi kommer att vara som hjälpmedel för analys av fritextsvar i enkäter. Informationen i fritextsvar används nästan aldrig eftersom det är för svårt och dyrt att gå igenom många texter manuellt. Med hjälp av en automatisk indelning kan man lättare hitta samband och likheter mellan svaren. Vi samarbetar med Institutionen för medicinsk epidemiologi och biostatistik vid Karolinska instutet för att undersöka dessa möjligheter.

Lite mer


Här är några korta texter om klustring: Här är några exempelkörningar på tidningsartiklar från mitt exjobb.

Se dessutom mina publikationer.

Upp till Magnus hemsida.


Sidansvarig: Magnus Rosell <rosell@csc.kth.se>