Nada

Laboration 4:
Informationssökning

Laboration fredag 3 okt 13-15

Martin Hassel

Uppgift i korthet

 1. Läs igenom instruktionerna!
 2. Sätt dig ner med penna och papper och bestäm dig för tre olika ämnen (som kan tänkas behandlas på någon av de givna webplatserna) du skulle vilja veta mer om.
 3. Formulera dessa tre ämnen i form av sökfrågor, fortfarande endast med hjälp av papper och penna (du får strax pröva dessa i två olika Internetsökmotorer). Formulera dina sökfrågor i ungefär den form du brukar (det räcker alltså med ett fåtal innehållsord).
 4. Gå nu till en dator med Internetanslutning och kör dina sökfrågor dels på SiteSeeker, dels på Google på valfri av de givna webplatserna*. (Omformulera INTE sökfrågorna för att få bättre resultat.)
 5. Gör relevansuppskattningar för det tio översta träffarna för var och en av de tre sökfrågorna för respektive sökmotor. Tänk högt när du gör detta - syftet återfinns i nästa deluppgift.
 6. Beskriv kort, skriftligt, hur du bedömmer ifall ett dokument är relevant eller ej. Du behöver ej göra detta för alla sextio dokument, tio olika fall borde duga (fem bör beskriva fall som var enkla att bedöma och fem bör beskriva svåra fall).
 7. Ge en ungefärlig procentuell uppskattning av hur många av de sextio dokumenten som var enkla respektive svåra att relevansbedöma.
 8. Beräkna precisionen för de tre frågorna och respektive sökmotor givet de tio översta träffarna.
 9. Studera de irrelevanta texterna. Varför returnerades de? Har de något gemensamt?
 10. Föreslå omformuleringar av sökfrågorna. Vilket stöd ger respektive gränssnitt (det som framträder efter initial sökning)? Hur påverkar detta stöd omformuleringen av sökfrågorna? Ger det skillnad i relevansförbättring (eller tom försämring?)
 11. Föreslå förbättringar för de två sökmotorerna. Förutsatt att systemen visste mer om texternas utformning och det specifika språk de är skrivna på, hur skall de rensa ut de irrelevanta träffarna från top-tio? Kan man ge vidare stöd för att ta användaren till hjälp, tex mha ej ännu använda (dator)lingvistiska metoder?
*) Du kan välja tre olika ämnen för en och samma webplats eller tre olika webplatser, ett ämne för varje. Det viktiga är att varje sökfråga körs i både SiteSeeker och Google för en och samma webplats. I SiteSeeker väljer du helt enkelt det gränssnitt som representerar den webplats du vill söka på. För Google specificerar du samma webplats med nyckelordet site:url (t.ex. site:www.nada.kth.se) följt av din sökfråga.

Redovisning
Redovisning lämnas via elbrev (xmartin@nada.kth.se), var noga med att klart och tydligt redovisa dina/era egna reflektioner och idéer kring systemen. Spåna friskt (max 2-3 sidor).

^ Upp till kursplanen.


Labbide: Jussi Karlgren, SICS (Februari 2002)
Omarbetning: Martin Hassel, NADA-KTH (Augusti 2002)
Sidansvarig: Martin Hassel <xmartin@nada.kth.se>
Senast ändrad 23 augusti 2002
Tekniskt stöd: <webmaster@nada.kth.se>