Upp till kursens hemsida.

Aktuell information om 2D1418, Språkteknologi, ht 2005

Adressen hit är: http://www.nada.kth.se/kurser/kth/2D1418/aktuellt05.html

Senaste nytt

2005-12-28 Kursanalysen är nu klar. Den finns här. Tack till alla som svarade på vår enkät.
2005-11-14 Tack för en mycket trevlig kurs! Hjälp oss att förbättra kursen genom att göra kursutvärderingen nedan.

Tryck här för att hämta kursenkäten:
2005-11-11 Nu är tentor och inlämningsuppgifter rättade och finns på studentexpeditionen. För er som vill göra omtenta så kommer den att gå av stapeln i januari 2006, någon av dagarna 11/1-13/1, efter överenskommelse med kursledaren. Hör av er till Ola Knutsson <knutsson@nada.kth.se> vilka dagar och tider som passar er bäst, ange en favorittid och en reservtid, senast den 16/12 2005.

2005-10-19 Nu finns lösningsförslag till dagens tenta
2005-10-04 Martin Hassel är tillbaka och kommer att hålla föreläsningen om diskurs och språkgenerering i morgon onsdag den 5 oktober, 16-17, alltså timmen efter Peter Svanbergs föreläsning.
2005-09-21 Dags att tänka på inlämningsuppgiften. Några deadlines för inlämningsuppgiften:

28/9: Bestäm uppgift och kontakta den som står som ansvarig för uppgiften. Du skall diskutera uppgiften med denna person, och komma fram till ett realistiskt upplägg. Förslag till uppgifter finns här
30/9: Skicka e-brev till kursledaren där det framgår vilket ämne som du har valt.
6/10: Boka tid för redovisning, lediga redovisningstider finns nedan. Man bokar genom ett e-brev till kursledaren.
26/10, kl. 24.00: Slutgiltig version av texten skall vara inlämnad/inskickad till kursledaren senast vid denna tidpunkt.

2005-08-30 Gå gärna också vår 5-poängskurs i språkgranskning senare i höst.
2005-08-28 Kurssidorna är nu uppdaterade.

Redovisningstider för inlämningsuppgiften

Alla redovisningar sker i rum 1625 på plan 6 i E-huset. Varje redovisningsseminarium är uppdelat i 6-7 delar, vilket möjliggör att 6-7 inlämningsuppgifter kan redovisas per seminarium. Presentationen skall ta maximalt 10 minuter. Efter din presentation ges 5 minuter för frågor.

2005-10-12, kl. 10.00-12.00
1.
2.
3.
4.
5.
6.

2005-10-12, kl. 13.00-15.00
1. Elin Moa "Text mining"
2. Albin Rangefelt och Tobias Hjelm "Enkel talsyntes"
3.
4.
5.
6.

2005-10-13, kl. 13.00-15.15
1. Hendrik Buschmeier "Konkordansgränssnitt mot en sökmotor"
2. Sofie Ek och Jakob Waller "Författaridentifiering med n-gram"
3. Joakim Nordström "Bootstrapping för morfologisk analys"
4. Anders Eriksson "Grammatikalitet och acceptabilitet"
5. Marcus Nordin "Enkel talsyntes"
6. Patrik Dallmann och Per-Olof Gatter "Enkel talsyntes"
7. Max Thoursie "Generering av text från slumpade lösenord"

2005-10-13, kl. 15.00-17.00
1.
2.
3.
4.
5.
6.

2005-10-14, kl. 10.00-12.15
1. Anna Steinsaphir "Generering av bildrebusar"
2. Martin Vopatek "Kategorisering av e-post"
3. Johan Kuniholm "Utvärdering av översättningssystem"
4. Olle Engdegård "State-of-the-art inom maskinöversättning"
5. Emma Sviestins "Bootstrapping"
6. Mikael Löthman "Enkelt konkordansgräsnsnitt mot en sökmotor"
7. Babak Aminian Sardari och Dennis Granath "Random Indexing"

2005-10-14, kl. 15.15-17.00
1. Helene Hjelmvik "Textgenerering"
2. Erik Gustafson "N-gram inom språkteknologin"
3. Joel Borggren-Franck "Random Indexing och klustring"
4. Emil Stenström "Klustring av politiska texter"
5. Johan Rönnlund "Textgenerering och textförståelse mellan människa och dator"
6. Jonas Frid och Jens Neubeck "Enkel talsyntes"

Lärare

Kursledare är Ola Knutsson . Mottagning efter överenskommelse, rum 1641, plan 6 i E-huset, telefon 08-790 66 34. Övriga föreläsare är Viggo Kann, Martin Hassel , Magnus Rosell , Jonas Sjöbergh och Anders Green. Dessutom medverkar Peter Svanberg och Rolf Carlsson, som gästföreläsare.

Kurslitteratur

Kurslitteraturen ska läsas på egen hand parallellt med kursen. Kursboken ger en mycket bra introduktion till hela området, vissa avsnitt har vi dock kompletterat med vetenskapliga artiklar som finns med i kursbunten. Detta på grund av områdets snabba utveckling. Vi rekommenderar alla att följa kursen aktivt och gå på alla föreläsningar.

Kursbok

Speech and Language Processing av Jurafsky & Martin, ISBN 0-13-095069-6 Prentice Hall, finns på kårbokhandeln. Pris 600 kr.

Texter som delas ut vid kursstart

Kursbunt

Kursbunten kan köpas på Nadas studentexpedition. Pris 50 kr. Papper som delas ut under kursens gång kommer att finnas i en pärm i hyllan utanför expeditionen.

Kursbuntens innehåll

Läsanvisningar för kursbok och kursbunt kopplade till föreläsningar

(Kursbunten kompletterar kursboken se nedan)

Föreläsning Kapitel i kursboken Artikel i kursbunten
Introduktion till språkteknologi 1  
Formella språk och syntaxanalys 2, 9.1, 10.1-10.3  
Morfologi, morfologisk analys, särdrag och lexikon 3  
Språkstatistik 1: ordfrekvenser 6.1  
Språkstatistik 2: informationsteori och markovmodeller 6  
Stavningskontroll 5 Kann, J., Domeij, R., Hollman, J. & Tillenius, M. (1998). Implementation aspects and applications of a spelling correction algorithm (pdf). NADA report TRITA-NA-9813, KTH Nada.
Syntax 9 och 12.4  
Parsning 10  
Datorstöd för skrivande och grammatikkontroll 6.6 Carlberger, J., Domeij, R., Kann, V. & Knutsson, O. (2004, submitted). The development and performance of a grammar checker for Swedish: A language engineering perspective (pdf).
Informationssökning 17 Karlgren, J. (2000). >Information retrieval: Statistics and linguistics. A short introduction to textual information retrieval.(ps) Introduktionskapitel i Jussi Karlgrens doktorsavhandling, Institutionen för lingvistik, Stockholms universitet
Semantik 16  
Statistisk lexikal semantik 17 Sahlgren, M. (2005). An Introduction to Random Indexing (pdf) Paper presented at Methods and Applications of Semantic Indexing Workshop at the 7th International Conference on Terminology and Knowledge Engineering, TKE 2005, August 16, Copenhagen, Denmark.
Textkategorisering och klustring 17 Steinbach, M., Karypsis, G. & Kumar, V. (2000). A Comparison of Document Clustering Techniques. KDD-2000 Workshop on Text Mining, Boston, USA.
Diskurs 18  
Språkgenerering 20  
Textsammanfattning 17.4 Dalianis, H. (2000). SweSum - A Swedish Text Summarizer (html)Technical report TRITA-NA-P0015, IPLab-174, KTH Nada.
Utvärdering av språkteknologiska system Olika "Methodology boxes" Hassel, M. (2004). Summaries and the process of summarization
Automatisk utvärdering Olika "Methodology boxes"  
Språkinlärning: mänsklig och datorstödd Området ej beskrivet i boken Karlström, P., Cerratto Pargman, T. och Ramberg, R. (2004). Tools, Language Technology and Communication in Computer Assisted Language Learning . Kapitel i antologin Writing and digital media, Kluwer Academic Publishers.
Språkstatistik 3: Ordtaggning och probabilistisk parsning 8, 12  
Språkinlärning: maskinell 8.5-8.6, 17.2, 4.5 Nivre, J. (2002). On Statistical Methods in Natural Language Processing . In Bubenko, J. & Wangler, B. (eds) Promote IT. Second Conference for the Promotion of Research in IT at New Universities and University Colleges in Sweden. University of Skövde, 684-694.
Lokalisering och internationalisering tb  
Maskinöversättning 21  
Dialogsystem 19  
Talteknologi 7  

Kursupplägg

Varje vecka hålls två föreläsningar, en tillämpningsföreläsning och en terminalövning (viis variation kan förekomma). På föreläsningarna gås teorin igenom. På tillämpningsföreläsningarna visas hur teorin kan tillämpas i en språkteknologisk produkt. På terminalövningarna får du själv tillämpa teorin i liten skala.

Kursplan

Följande kursplansschema visar vad som kommer att behandlas när i kursen. Varje föreläsning och labb presenteras kort på en egen webbsida. Ha för vana att läsa igenom den webbsidan innan du går till undervisningen, för där står vilken litteratur som kommer att gås igenom och ifall det är något du bör förbereda först.

Kursregistrering

Om du vill gå kursen ska du anmäla det i förväg till kansliet/studievägledningen för ditt utbildningsprogram. Ingen förhandsanmälan ska göras till Nada.

Endast de teknologer som studievägledningen lagt in i Ladok som studerande på en kurs kan godkännas på kursen. Vill du läsa en kurs som inte är obligatorisk för dig måste du alltså först välja kursen vid ditt programs studievägledning som måste godkänna ditt val.

Så snart kursen börjat måste du registrera dig på den. Detta görs med kommandot

res checkin sprakt05

på någon av Nadas Unixdatorer. Registrera dig så snart som möjligt efter att kursen börjat!

För din egen skull bör du också ge kommandot

course join sprakt05

Detta kommando gör tre saker:

När du är klar med kursen ger du kommandot

course leave sprakt05

för att återställa allt.

Laborationer

Labbkursen består av sex laborationer och en obligatorisk demo som görs i grupper om högst två personer. Dessa labbar utgör kursmomentet LAB2, värt 1 poäng.

Enstaka labbar får inte sparas till annan kursomgång. Om du inte fullgör alla sex labbarna inom ett år från kursens slut har kursledaren rätt att kräva att du gör samtliga labbar i den nya kursomgången.

Bonuspoäng

Vi tillämpar ett bonussystem för att uppmuntra eleverna att ligga i fas med undervisningen. För varje labb som redovisas på rätt redovisningstillfälle, erhålls en bonuspoäng. Med rätt redovisningstillfälle avses den dag och tid som den aktuella laborationen är schemalagd. Man skall helst redovisa i terminalsalen vid labbtillfället, men laborationslösningar som lämnas in före 24.00 labbdagen kommer också att ge bonuspoäng. Summan av dessa poäng adderas till den på tentan uppnådda poängsumman. Detta gäller ett kalenderår räknat från kursstart. Bonuspoäng kan endast fås det år som labbresultatet rapporteras. När du är inloggad kan du se vilka labbar du är godkänd på genom att ge kommandot

res show sprakt05

Hederskodex

Grundregeln är att det jobb du gör i kursen (labbar, inlämningsuppgifter, tentor m.m.) ska du göra själv, förutom att labbarna kan göras i tvåmannagrupper. Vid redovisning av labbar ska båda i gruppen kunna redogöra i detalj även för vad labbkompisen skrivit.

Ibland, speciellt när man skriver program, kan det vara nödvändigt att fråga någon annan (en kamrat eller en handledare) om hjälp med att hitta fel. Detta är tillåtet förutsatt att du uppfyller följande villkor.

Varje annan form av samarbete och utnyttjande av andras lösningar betraktas som ett brott mot hederskodexen och kan bestraffas, t ex genom att du förlorar alla bonuspoäng eller får göra en ny uppgift.

Läs mer om Hederskodex och regler för examination vid Nadas kurser

Examination

Kursen innehåller följande moment:

Slutbetyget är medelvärdet av betygen på inlämningsuppgiften och den skriftliga tentan, avrundat uppåt.

Kursmomentet TEN2

Kursmomentet TEN2 (värt 2 poäng) examineras med en salstenta.
Tid och plats för ordinarietentan är onsdagen den 19 oktober 2005, 09-13, i sal D31 och D32

Det är en vanlig skriftlig tenta med frågor på hela kursen. Inga detaljfrågor eller omfattande utredande frågor kommer att ställas. 25 poäng av 50 ger godkänt på tentan.

Inga hjälpmedel får användas på tentan förutom kursboken Speech and Language Processing av Jurafsky & Martin.

Tentaresultatet anslås högst tre veckor efter tentan på institutionens anslagstavla på plan 3. Klagomål på rättning av tentan lämnas in skriftligen till kursledaren inom tre veckor från det att tentaresultatet anslagits.

Kursmomentet INLA

Kursmomentet INLA (värt 1 poäng) examineras genom en muntlig och skriflig presentation av en inlämningsuppgift.

Kurskatalog

Kursen har en katalog på Unixdatorerna: /info/sprakt05. På denna katalog finns textfiler, programskelett, program och liknande som har med kursen att göra.

Nadas terminalsalar

Laborationerna kommer att ske i terminalsal Röd och Gul i E-huset. Det finns arbetsmiljöregler för terminalsalarna. Dessa talar om hur man ska bete sig i salarna.

KTHs centrala bokningssystem kan ni se om terminalsalarna är bokade av andra kurser om ni vill arbeta med laborationerna utanför kursen schema.

Synpunkter på kursen

Eftersom denna kurs kommer att ges för många elever under flera års tid är vi tacksamma för synpunkter på kursen. Ge gärna kommentarer om kursen under kursens gång till kursledaren. En datorstödd kursutvärdering kommer att göras. Synpunkter kan lämnas till lärarna. Läs gärna förra årets kursanalys.

Språktekniklänkar

NorDoknet (Nordisk språkteknologi)
Viggos samlade språktekniklänkar
.
Språkteknologi i Sverige
Fredriks länkar.
Information Retrieval - C. J. van RIJSBERGEN

Upp till kursens hemsida.


Sidansvarig: Ola Knutsson <knutsson@nada.kth.se>
Senast ändrad 7 oktober 2005
Tekniskt stöd: <webmaster@nada.kth.se>