Laboration 4:
Utvärdering

Jonas Sjöbergh

Syfte
Syftet med denna labb är att få en känsla för hur det kan gå till att utvärdera språkgranskningsverktyg.
Uppgift
Uppgiften är att utvärdera de granskningsverktyg man skapat i de två föregående labbarna.
Material
Dina regler och din maskininlärningsgranskare från labb 2 och 3, texter att utvärdera på.
Hjälp
För ytterligare hjälp, skicka e-post till Jonas (jsh at nada.kth.se), men det kan emellanåt ta lång tid innan man får svar.
Redovisning
Lösningar skickas per e-post till Jonas (jsh at nada.kth.se). Sista redovisningsdag är 15 december 2005.
Relaterad litteratur
Om utvärdering finns en hel del skrivet. I Olas avhandling till exempel.

Översikt, läs detta

I denna labb ska vi pröva på utvärdering av språkgranskningsverktyg. Samtidigt kommer vi att få se hur bra det gick i de föregående labbarna och kanske lära oss något om skillnaderna mellan olika metoder för språkgranskning. Uppgiftsbeskrivningen är medvetet ganska vag, för att lämna möjligheter öppna för den som har egna idéer om vad den vill göra.

Saker att göra

Samla in utvärderingstexter

Olika texttyper är olika lätta att granska, ta gärna text från flera olika texttyper, till exempel tidningstexter, webbsidor, studentuppsatser, texter skrivna av författare med annat modersmål än svenska, o.s.v. för att se om resultaten skiljer sig. Text utan fel i är till exempel svår att hantera med hög precision.

Exempel på textkällor:

Kör granskningsverktygen

Kör granskningsverktygen från labb 2 och labb 3 på de insamlade texterna.

Utvärdera

Gå igenom texten och kontrollera alla larm från verktygen. Annotera alla larm i en fil också, så det är lätt att gå tillbaka och räkna ut mer statistik eller annat man kommer på i efterhand. Är det ett riktigt fel eller ej? Är det rätt diagnos på felet? Är eventuella rättningsförslag bra? Det kan också vara intressant att diagnosticera felen, så man kan räkna hur bra det gick på stavfel, särskrivningar, kongruensfel etc. var för sig.

Det kan snabba upp och underlätta utvärderingen om man skriver ett litet hjälpprogram som går igenom en fil och letar efter nästa larm, presenterar det och frågar hur man vill annotera det, sparar annoteringen, letar upp nästa fel osv. Tycker man inte om att programmera går det bra att bara ta ett vanligt textbehandlingsprogram istället.

Om man orkar är det även intressant att gå igenom texten och räkna de fel som inte detekterades av något verktyg alls, men det är ganska jobbigt och även svårt, eftersom man som läsare ofta automatiskt korrigerar för fel i texten under läsningen.

Samla statistik över hur många fel av olika feltyper som detekterades, hur många falsklarm det blev m.m. Se om det skiljer sig mellan olika texttyper. Undersök också om det finns mönster i till exempel falsklarmen, så man skulle kunna korrigera verktygen så de slutar göra så många fel. Samma sak för ej detekterade fel är också intressant, men jobbigare att undersöka.

Reflektera över om resultaten är bra nog att vara användbara. Olika bra resultat kan behövas beroende på tänkt användningsområde. Reflektera över hur resultaten skulle kunna förbättras.

Redovisning

Labben redovisas genom att man skriver ned vad man utvärderat på för texter, hur man gått tillväga och vad resultatet blev. Gärna med några djupa och insiktsfulla kommentarer också.
Sidansvarig: Jonas Sjöbergh <jsh@nada.kth.se>