Upp till
kursens
hemsida.
Aktuell information om 2D4130, Språkteknologi, distanskurs
Senaste nytt
2003-10-02 - De uppdaterade föreläsningsbilderna till Informationssökningsföreläsningen finns nu uppe.
2003-09-07 - Ny labb: Textsammanfattningslabben har ersatts med en helt ny och förhoppningsvis både bättre och roligare labb. Den gamla har helt utgått.
2003-09-03 - Tillägg till kursbunten: Summarization Evaluation: An Overview (Inderjeet Mani 2001). Denna kommer att delas ut på föreläsningen om Automatisk Textsammanfattning men kan alltså redan nås på ovanstående länk.
Första kurstillfället blir den 2 september och pågår
mellan 10-17, se kursplansschemat.
Lärare
Kursledare är Ola Knutsson
.
Mottagningstid är måndagar klockan 14.00-15.00, telefon
08-790 66 34. Övriga lärare är Viggo
Kann, Hercules Dalianis
och Martin Hassel. Dessutom
medverkar Mikael Goldman och
Peter
Svanberg, Rickard Domeij,
Jonas Sjöbergh
och Anders Green.
Kommunikationsystem
Beskrivningar av de olika kursavsnitt kommer att finns tillgängliga
på webben via kursplansschemat.
För att kommunicera på seminarier och laborationer kommer vi
att använda PingPong-systemet. En länk till PingPong finns här.
Varje kursdeltagare får ett eget användarnamn för att kunna
använda PingPong.
Kurslitteratur
Kurslitteraturen ska läsas på egen hand under kursen. Kursboken
ger en allmän introduktion till hela området men bara en del
av kursinnehållet. Därför rekommenderar vi alla att följa
kursen aktivt .
Kursbok

Speech
and Language Processing av Jurafsky & Martin, ISBN 0-13-095069-6
Prentice Hall, finns på kompendieförmedlingen på KTH.
Pris cirka 500 kr.
Läsanvisningar kursbok kopplade till föreläsningar
(Kursbunten kompletterar kursboken se nedan)
| Föreläsning |
Kapitel i kursboken |
| Formella språk och syntaxanalys |
2, 9, 10 |
| Morfologi |
3 |
| Stavningskontroll |
5 |
| Särdrag, lexikon och syntax |
8, 9, 10, 11 |
| Syntax och formalismer |
9, 10 |
| Parsning 1 |
10 |
| Parsning 2: Constraint Grammar |
8.4 |
| Språkstatistik 1: Ordfrekvenser |
6 |
| Språkstatistik 2: Informationsteori och Markovmodeller |
6 |
| Språkstatistik 3: Ordtaggning |
8 |
>
| Semantik, Pragmatik och Diskurs |
14, 15, 16, 18, 19 |
| Informationssökning |
17 |
| Språkteknologiska stöd vid sökning och kategorisering |
17 |
Textgenerering |
20 |
| NL-tillämpningar |
21 |
| Textsammanfattning |
17.4 |
| Talbaserade dialogsystem |
7 |
Kursbunt
Kursbunten kan köpas Nadas elevexpedition.
Papper som delas ut under kursens gång kommer att finnas i en pärm i hyllan
utanför expeditionen.
- Kursplan för språkteknologi hösten 2003.
- Kursprogram (i stort sett denna text).
- Kursplansschema
- Två exempeltentor.
- Hur genererar
datorn text? av Hercules Dalianis
- Kap 8. Arkitektur och konstruktion av sökmotorer av Hercules Dalianis
- Artiklar och utdrag ur böcker
- Kapitel 6 ur Abstrakta maskiner och formella språk av Magnus Boman
och Jussi Karlgren, Studentlitteratur, 1996.
- Prolog in a Nutshell av Johan Bos. Bilaga C ur hans Lecture Notes från
Coling 1998.
- Grammatikens elementa, sid. 43-45 ur: Alf Henriksson. Vårt antika
modersmål. Atlantis.
- Grammatikens huvuddelar, sid. 18-36 ur: Östen Dahl. Grammatik, Studentlitteratur
1982.
- Lexikon och morfologi av Lars Ahrenberg. Ur Formell grammatik för
naturligt språk. Inst. för datavetenskap. Linköpings universitet,
1986.
- Kapitel 1 ur Principles of Pragmatics av Geoffrey Leach, Longman, 1983.
- Detection
of spelling errors in Swedish not using a word list en clair (ps) av
Rickard Domeij, Joachim Hollman och Viggo Kann, Journal of Quantitative Linguistics
vol 1, sid. 195-201, 1994.
- Del
// Revisionsprocessen och datorstödd granskning och del IV Riktlinjer och teori
sid. 9-43 och sid. 115-123, ur Richard Domeij. Doktorsavhandling med titeln Datorstödd
språkgranskning under skrivprocessen. vid Institutionen för Lingvistik,
Stockholms universitet, Edsbruk: Akademitryck, 2003.
- A
Swedish Grammar Checker (pdf) av Johan Carlberger et al, 2000.
- Granskas
regelspråk av Ola Knutsson (pdf)
- The
Basics of Information Retrieva (ps) av Jussi Karlgren.
- Chap 3 Automatic
Classification (html) och (pdf)
ur C. J. van Rijsbergen Information Retrieval
- SweSum - A Swedish
Text Summarizer av Hercules Dalianis
- Pronominal Resolution
in Automatic Text Summarization (pdf), Master Thesis, av Martin Hassel
-
Laborationsanvisningar (finns på webben).
-
Föreläsningsanteckningar (läggs upp på webben).
Kursuppläggning
Varje vecka hålls två eller tre självstudieavsnitt, ett
seminarium via chat, och en laboration med handledning via chat.
I självstudieavsnitten gås teorin igenom. På seminarierna
diskuterar vi det som ni har läst. På laborationen får
du själv tillämpa teorin i liten skala. Under laborationen finns
handledare tillgänglig via chat.
Kursplan
Följande kursplansschema
visar vad som kommer att behandlas när i kursen. Varje föreläsning
och labb presenteras kort på en egen webbsida. Ha för vana att
läsa igenom den webbsidan innan du går till undervisningen,
för där står vilken litteratur som kommer att gås
igenom och ifall det är något du bör förbereda först.
-
Laborationer
Labbkursen består av fem laborationer.
Dessa labbar utgör kursmomentet LAB1, värt 2 poäng.
Enstaka labbar får inte sparas till annan kursomgång. Om
du inte fullgör alla fem labbarna inom ett år från kursens
slut har kursledaren rätt att kräva att du gör samtliga
labbar i den nya kursomgången.
Bonuspoäng
Vi tillämpar ett bonussystem för att uppmuntra eleverna att ligga
i fas med undervisningen. För varje labb som redovisas på rätt
redovisningstillfälle erhålls en bonuspoäng. Summan av
dessa poäng adderas till den på tentan uppnådda poängsumman.
Detta gäller ett kalenderår räknat från kursstart.
Bonuspoäng kan endast fås det år som labbresultatet rapporteras.
Hederskodex
Grundregeln är att det jobb du gör i kursen (labbar, inlämningsuppgifter,
tentor m.m.) ska du göra själv, förutom att labbarna kan
göras i tvåmannagrupper. Vid redovisning av labbar ska båda
i gruppen kunna redogöra i detalj även för vad labbkompisen
skrivit.
Ibland, speciellt när man skriver program, kan det vara nödvändigt
att fråga någon annan (en kamrat eller en handledare) om hjälp
med att hitta fel. Detta är tillåtet förutsatt att
du uppfyller följande villkor.
-
Om du fått hjälp med mer än bara någon enstaka rad
i programmet ska du ge ett skriftligt erkännande till den som hjälpte
till, lämpligen i form av en kommentarrad överst i programmet,
som talar om vem som hjälpt dig med vad.
-
Du måste förstå hela den färdiga lösningen,
även de delar du fått hjälp med.
Varje annan form av samarbete och utnyttjande av andras lösningar
betraktas som ett brott mot hederskodexen och kan bestraffas, t
ex genom att du förlorar alla bonuspoäng eller får göra
en ny uppgift.
Detta är en översatt och omarbetad version av den hederskodex
som används i kursen Introduction
to computer science vid Stanford University. Den tillämpas i många
av Nadas kurser.
Examination
Examinationen består av utförda och godkända laborationer,
uppsats och hemtenta.
Kursmomentet TEN1 (värt 2 poäng) examineras i två delar:
-
En inlämningsuppgift som görs före tentan och lämnas
in skriftligen senast vid starten för ordinarietentan. Du får
välja mellan en
uppsats eller en labbuppgift. Inlämningsuppgiften ska göras
enskilt eller (om det är en labbuppgift) i tvåmannagrupp. Labbuppgifterna
är utvidgningar av labbarna i kursen. Uppsatsämnen anknyter till
föreläsningarna i kursen och finns på föreläsningarnas
webbsidor, men du kan också komma överens med kursledaren om
ett eget uppsatsämne. Uppsatsen ska vara på mellan 5 och 10
sidor. Både uppsatser och labbuppgifterna ska redovisas både
skriftligt och muntligt vid speciella redovisningstillfällen som hålls
veckan före ordinarietentan. Vid varje redovisningstillfälle
kommer fyra eller fem uppgifter att presenteras. Inlämningsuppgiften
betygsätts, och vid betygsättningen tas hänsyn såväl
till innehåll som den skriftliga och muntliga presentationens kvalitet.
-
Inlämningsuppgiften skall redovisas på ett seminarium via chat.
-
Du får inte gå upp på den skriftliga tentan förrän
du har redovisat inlämningsuppgiften!
-
En vanlig skriftlig tenta med frågor på hela kursen.
25 poäng av 50 ger godkänt på tentan.
Tentaresultatet anslås högst tre veckor efter tentan på
institutionens anslagstavla på plan 3 (rakt under elevexpeditionen).
Klagomål på rättning av tentan lämnas in skriftligen
till kursledaren inom tre veckor från det att tentaresultatet anslagits.
Slutbetyget är medelvärdet av betygen på inlämningsuppgiften
och den skriftliga tentan, avrundat uppåt.
Anmälan till tentan
Du behöver inte anmäla dig till tentan. (Tentaanmälan var
tidigare obligatorisk för D- och E-teknologer men Nada använder
sig inte av detta anmälningssystem längre.)
Synpunkter på kursen
Eftersom denna kurs kommer att ges för många elever under flera
års tid är vi tacksamma för synpunkter på kursen.
En datorstödd kursutvärdering kommer att göras. Synpunkter
kan lämnas till lärarna.
Språktekniklänkar
Hur
genererar datorn text? av Hercules Dalianis
Viggos samlade
språktekniklänkar.
Fredriks länkar.
NoDaLiNe - Nordisk datalingvistisk
nettverk.
Knutpunkten
- Språkteknologisk info-desk för EUROMAP.
Upp till
kursens
hemsida.
Sidansvarig: Ola Knutsson <knutsson@nada.kth.se>
Senast ändrad 21 augusti 2003
Tekniskt stöd: <webmaster@nada.kth.se>