Upp till kursens hemsida.

Aktuell information om 2D1418, Språkteknologi

Senaste nytt

2004-11-01 Tentor och uppsatser rättade. Dessa finns att hämta på studerandexpeditionen på plan 2. Resultaten på tentan finns anslaget på plan 3 i E-huset. I res finns alla resultat: labbdelen, uppsatsen, tentan och slutbetyget. Omtentamen i tentaveckan i januari (11/1-14/1) efter överenskommelse, anmäl dig till <knutsson@nada.kth.se> före den 20 december. Ange då en favorittid och en reservtid i denna vecka.

2004-10-19 Tack för en trevlig kurs. Nu är det dags att utvärdera kursen. Vi blir mycket glada om du vill ge oss synpunkter på kursen.

Tryck på knappen för att hämta kursenkäten:

2004-10-18 Nu finns det lösningsförslag till dagens tenta .

2004-10-04 Extrainsatt föreläsning den 8 oktober kl. 13-15. Martin Hassel kommer att hålla sin föreläsning (den som ställdes in tidigare) om Diskurs och Textgenerering den 8 oktober 13-15 i salen Simplex i D-huset. Hoppas att tiden passar så många som möjligt.

2004-09-22 Dags att tänka på inlämningsuppgiften. Om du inte har fått någon information om denna via e-post hör av dig till kursledaren. Några deadlines för inlämningsuppgiften:
28/9: Bestäm ämne och skicka till kursledaren. Ämnen finns här
6/10: Boka tid för redovisning, lediga redovisningstider finns nedan. Man bokar genom ett e-brev till kursledaren.
18/10, kl. 08.00: Slutgiltig version av texten skall vara inlämnad/inskickad till kursledaren senast vid denna tidpunkt.

2004-09-20 Rättigheter till labbmapparna för Laboration 3: Statistisk Lexikal Semantik skall nu vara korrekt satta. I annat fall maila Martin Hassel.

2004-09-14 Missat föreläsningen? Utskrivna föreläsningsanteckningar finns i en röd dokumentsamlare (med kursens namn på) i "förrummet" till studentexpeditionen, på plan 2 i E-huset.

2004-08-30 Kurssidorna är uppdaterade


Redovisningstider för inlämningsuppgiften

Alla redovisningar sker i rum 1625 på plan 6 i E-huset. Varje redovisningsseminarium är uppdelat i 8 delar, vilket möjliggör att 8 inlämningsuppgifter kan redovisas per seminarium.

2004-10-12, kl. 13-15
1. Helena Bergström och Calle Jonzén Den svenska grammatikkontrollen i MS Word
2. Sofia Chiang och Kristofer Lövgren Automatisk textextraktion - en teknik i automatisk textsammanfattning
3. Erik Edin Språkteknologi och Open Source

2004-10-12, kl. 15-17
1. Johan Hansson En stemmer för svenska ord
2. Ylva Fredriksson Språkteknologi inom amerikanska försvaret
3. Björn Andrist Statistisk återkoppling från Granska

2004-10-13, kl. 10-12
1. Fredrik Gustafsson och Tommy Pettersson Grammatifix - svensk grammatikkontroll i MS Word
2. Erik Lindgren Sökmotoroptimering
3. Victor Nieto Authorship attribution with help of language engineering
4. Lisa Lagerkvist Tvånivåmodellen - TWOL
5. Mårten Håkansson CarSim. Text till animerad 3D-visualisering
6. Jonathan Johnsson och Mikael Melin Bootstrapping för substantivtaggning

2004-10-13, kl. 13-15
1. Christoffer Sabel Finn - en enkel sökmotor med språkteknologi
2. Thomas Eckerman och Nina Hagman Grundformer med Stava
3. Paulina Modlitba Symbolspråk som alternativa och kompletterande kommunikationsmedel
4. Emma Tarandi Språkteknologi som stöd för funktionshindrade - idag och imorgon
5. Henrik Lindström och Oscar Täckström Kategorisering av nyhetstexter med RBF-nät
6. Lars Mattsson Gränssnitt för FakeGranska

Backup-tider 2004-10-15, kl. 8-10

Backup-tider 2004-10-15, kl. 13-15
1. Johnne Adermark och Fredrik Landes En implementation av Mitkovs algoritm för pronomenresolution
2. Andreas Pettersson Grundformer med Stava
3. Magnus Thylander Pronomenidentifierare - en implementation av Ruslan Mitkovs algoritm


Lärare

Kursledare är Ola Knutsson . Mottagningstid är måndagar klockan 14.00-15.00, rum 1641, Plan 6 i E-huset, telefon 08-790 66 34. Övriga föreläsare är Viggo Kann, Martin Hassel , Magnus Rosell , Jonas Sjöbergh och Anders Green. Dessutom medverkar Peter Svanberg och Rolf Carlsson, som gästföreläsare.

Kurslitteratur

Kurslitteraturen ska läsas på egen hand parallellt med kursen. Kursboken ger en mycket bra introduktion till hela området, vissa avsnitt har vi dock kompletterat med vetenskapliga artiklar som finns med i kursbunten. Detta på grund av områdets snabba utveckling. Vi rekommenderar alla att följa kursen aktivt och gå på alla föreläsningar.

Kursbok

Speech and Language Processing av Jurafsky & Martin, ISBN 0-13-095069-6 Prentice Hall, finns på kårbokhandeln. Pris cirka 500 kr.

Läsanvisningar kursbok kopplade till föreläsningar

(Kursbunten kompletterar kursboken se nedan)

Föreläsning Kapitel i kursboken Artikel i kursbunten
Introduktion till språkteknologi 1  
Formella språk och syntaxanalys 2, 9.1, 10.1-10.2  
Morfologi, morfologisk analys, särdrag och lexikon 3  
Språkstatistik 1: ordfrekvenser 6.1  
Språkstatistik 2: informationsteori och markovmodeller 6  
Stavningskontroll 5 Domeij, R., Hollman, J. & Kann, V. (1994) Implementation aspects and applications of a spelling correction algorithm
Syntax 9 och 12.4  
Parsning 10  
Datorstöd för skrivande och grammatikkontroll 6.6  
Informationssökning 17 Segey Brin and Lawrence Page (1998). The Anatomy of a Large-Scale Hypertextual Web Search Engine
Semantik 16  
Statistisk lexikal semantik 17 Sahlgren, M. (2001) Representing Word Meanings Based on Random Labels.
Textkategorisering och klustring 17 Michael Steinbach, George Karypsis and Vipin Kumar (2000): A Comparison of Document Clustering Techniques
Diskurs 18  
Språkgenerering 20  
Textsammanfattning 17.4 Hovy, E. & Lin, C. (1999). Automated Text Summarization in SUMMARIST
Utvärdering av språkteknologiska system Olika "Methodology boxes" Hassel, M. (2004). Summaries and the process of summarization
Automatisk utvärdering Olika "Methodology boxes"  
Språkinlärning: mänsklig och datorstödd Området ej beskrivet i boken Borin, L. (2002). What have you done for me lately? The fickle alignment of NLP and CALL.
Språkstatistik 3: Ordtaggning och probabilistisk parsning 8, 12  
Språkinlärning: maskinell 8.5-8.6, 17.2, 4.5  
Lokalisering och internationalisering tb  
Maskinöversättning 21  
Dialogsystem 19  
Talteknologi 7  

Kursbunt

Kursbunten kan köpas Nadas elevexpedition. Papper som delas ut under kursens gång kommer att finnas i en pärm i hyllan utanför expeditionen.

Kursuppläggning

Varje vecka hålls två föreläsningar, en tillämpningsföreläsning och en terminalövning. På föreläsningarna gås teorin igenom. På tillämpningsföreläsningarna visas hur teorin kan tillämpas i en språkteknologisk produkt. På terminalövningarna får du själv tillämpa teorin i liten skala.

Kursplan

Följande kursplansschema visar vad som kommer att behandlas när i kursen. Varje föreläsning och labb presenteras kort på en egen webbsida. Ha för vana att läsa igenom den webbsidan innan du går till undervisningen, för där står vilken litteratur som kommer att gås igenom och ifall det är något du bör förbereda först.

Kursregistrering

Om du vill gå kursen ska du anmäla det i förväg till kansliet/studievägledningen för ditt utbildningsprogram. Ingen förhandsanmälan ska göras till Nada.

Endast de teknologer som studievägledningen lagt in i Ladok som studerande på en kurs kan godkännas på kursen. Vill du läsa en kurs som inte är obligatorisk för dig måste du alltså först välja kursen vid ditt programs studievägledning som måste godkänna ditt val.

Så snart kursen börjat måste du registrera dig på den. Detta görs med kommandot

res checkin sprakt04

på någon av Nadas Unixdatorer. Registrera dig så snart som möjligt efter att kursen börjat!

För din egen skull bör du också ge kommandot

course join sprakt04

Detta kommando gör tre saker:

När du är klar med kursen ger du kommandot

course leave sprakt04

för att återställa allt.

Laborationer

Labbkursen består av fem laborationer och en obligatorisk demo som görs i grupper om högst två personer. Dessa labbar utgör kursmomentet LAB1, värt 2 poäng.

Enstaka labbar får inte sparas till annan kursomgång. Om du inte fullgör alla fem labbarna inom ett år från kursens slut har kursledaren rätt att kräva att du gör samtliga labbar i den nya kursomgången.

Bonuspoäng

Vi tillämpar ett bonussystem för att uppmuntra eleverna att ligga i fas med undervisningen. För varje labb som redovisas på rätt redovisningstillfälle erhålls en bonuspoäng. Summan av dessa poäng adderas till den på tentan uppnådda poängsumman. Detta gäller ett kalenderår räknat från kursstart. Bonuspoäng kan endast fås det år som labbresultatet rapporteras. När du är inloggad kan du se vilka labbar du är godkänd på genom att ge kommandot

res show sprakt04

Hederskodex

Grundregeln är att det jobb du gör i kursen (labbar, inlämningsuppgifter, tentor m.m.) ska du göra själv, förutom att labbarna kan göras i tvåmannagrupper. Vid redovisning av labbar ska båda i gruppen kunna redogöra i detalj även för vad labbkompisen skrivit.

Ibland, speciellt när man skriver program, kan det vara nödvändigt att fråga någon annan (en kamrat eller en handledare) om hjälp med att hitta fel. Detta är tillåtet förutsatt att du uppfyller följande villkor.

Varje annan form av samarbete och utnyttjande av andras lösningar betraktas som ett brott mot hederskodexen och kan bestraffas, t ex genom att du förlorar alla bonuspoäng eller får göra en ny uppgift.

Läs mer om Hederskodex och regler för examination vid Nadas kurser

Examination

Tid och plats för ordinarietentan är måndagen den 18 oktober 2004, 08-13, sal D35, D41, E53.

Inga hjälpmedel får användas på tentan förutom kursboken Speech and Language Processing av Jurafsky & Martin.

Kursmomentet TEN1 (värt 2 poäng) examineras i två delar:

Tentaresultatet anslås högst tre veckor efter tentan på institutionens anslagstavla på plan 3 (rakt under elevexpeditionen). Klagomål på rättning av tentan lämnas in skriftligen till kursledaren inom tre veckor från det att tentaresultatet anslagits.

Slutbetyget är medelvärdet av betygen på inlämningsuppgiften och den skriftliga tentan, avrundat uppåt.

Anmälan till tentan

Du behöver inte anmäla dig till tentan. (Tentaanmälan var tidigare obligatorisk för D- och E-teknologer men Nada använder sig inte av detta anmälningssystem längre.)

Kurskatalog

Kursen har en katalog på Unixdatorerna: /info/sprakt04. På denna katalog finns textfiler, programskelett, program och liknande som har med kursen att göra.

Nadas terminalsalar

Laborationerna kommer att ske i terminalsal Röd i E-huset. Det finns också terminalsalar som ligger i östra delarna av borggårdshuset, ovanför sal D2 och D3. Musiksalen och Konsthallen med Sundatorer finns på plan 5 och Voljären och Terrariet med NT-datorer finns på plan 4. Det finns arbetsmiljöregler för terminalsalarna. Dessa talar om hur man ska bete sig i salarna.

KTHs centrala bokningsystem kan ni se om terminalsalarna är bokade av andra kurser

Endast D-elever har normalt tillträde med kårkortet till de östra terminalsalarna.

Synpunkter på kursen

Eftersom denna kurs kommer att ges för många elever under flera års tid är vi tacksamma för synpunkter på kursen. Ge gärna kommentarer om kursen under kursens gång till kursledaren. En datorstödd kursutvärdering kommer att göras. Synpunkter kan lämnas till lärarna.Läs förra årets kursanalys.

Språktekniklänkar

NorDoknet (Nordisk språkteknologi)
Viggos samlade språktekniklänkar
.
Språkteknologi i Sverige
Fredriks länkar.
Information Retrieval - C. J. van RIJSBERGEN

Upp till kursens hemsida.


Sidansvarig: Ola Knutsson <knutsson@nada.kth.se>
Senast ändrad 1 november 2004
Tekniskt stöd: <webmaster@nada.kth.se>