Nada

^ Upp till kursens hemsida.

Lab 4: Annoteringsprojekt

Introduktion

Den här labben har formen av ett mini-projekt där ni ges ett antal sekvenser som ni ska ta annotera, dvs ta fram så mycket information ni kan om dem, och sedan skriva en liten rapport som har formen av en vetenskaplig artikel. Scenariot är att ni har deltagit i ett EST-projekt för kyckling och att ni är givna så kallade transcripts, dvs EST-sekvenser som har satts grupperats efter överlapp och sedan satts ihop för approximera cDNA för en gen. Varje grupp får en egen uppsättning gener.

Program

Det kan vara bra att veta att Blast kan användas för mer än att jämföra proteinsekvenser med en proteindatabas. Det du gör är att välja vilket program som blastall ska använda. Det generalla förfarandet är

blastall -p blastprogram -d databasnamn -i infil -o utfil

Du väljer blastprogram enligt följande:
blastp
Frågesekvenser är protein, databas innehåller proteiner.
blastx
Frågesekvenser är DNA, databas innehåller proteiner.
blastn
Frågesekvenser är DNA, databas innehåller DNA.
tblastn
Frågesekvenser är protein, databas innehåller DNA.
tblastx
Frågesekvenser är DNA och databas innehåller DNA, men vi vill jämföra som proteiner och använder bästa översättningen av både fråge- och databas-sekvenser.
Det kan vara bekvämt och enkelt att leta upp databaser på WWW som erbjuder sökmöjligheter. NCBI erbjuder tex Blast mot olika databaser. På Nadas datorer kommer ni åt följande databaser:
sprot
Proteindatabasen SwissProt.
britchick
De sekvenser ni fått är tagna från en samling EST:er framtagna av ett Brittiskt forskarlag. För att använda fastacmd på den här databasen, tex från en Blast-träff med identifieraren gnl|bl_ord_id|100053, måste man skriva

fastacmd -d britchick -s "gnl|bl_ord_id|100053"

Märk att ni har fått DNA-sekvenser som kan vara bra att översätta till aminosyrasekvenser. För detta har ni tidigare använt transeq. Genom att ge väljarna -2 eller -3 kan man få det programmet att översätta med start på andra eller tredje basen också! Det kan vara bra eftersom man i en EST inte vet var en gen startar: Det kan vara mitt i den kodande regionen, men det kan också vara en bit tidigare, i en UTR, untranslated region. Samma sajt som erbjuder SwissProt har också en webbaserad tjänst som gör översättning. Där får man resultatet i sex läsramar: Tre framåt, från 5'-änden, och tre bakåt, från 3'-änden, men de senare ska inte behövas.

Uppgift

Alla registrerade till kursen, med undantag från några som började på labben tidigt, har fått ett mejl med en länk till de sekvenser som ska användas. Hör av er om det är några problem med att komma åt dem!

Ta fram så mycket information ni kan om de givna sekvenserna. Det kan var homologi, struktur, fylogenetiskt sammanhang, genstruktur, mm. Kom ihåg att sekvenserna med all sannolikhet är ofullständiga, och det kanske bara är en liten del av sekvensen som faktiskt kodar för en gen. Använd gärna olika tjänster som ni kan hitta på WWW. Titta på tex Ensembl, PubMed, SwissProt, olika proteinstrukturprediktorer, och motiv-databaser. Vad har du hittat i kursboken som verkar intressant? Använd gärna Google eller liknande för att hitta information och tjänster.

När du är nöjd skriver du en rapport på engelska eller svenska som ska innehålla Abstract, Introduktion, eventuellt Materials and methods, Results och Discussion. De sista två kan eventuellt kombineras. Om man använt olika tjänster och databaser som inte är välkända, eller om man har råkat på litteratur om generna, är en referenslista på slutet ett måste. Skriv kort och koncist och ta gärna med beskrivande bilder.

Skriv i rapporten vilket nummer (se länken i brevet: i 'gallusX.fa' är X ert nummer) på datasetet så att det är lätt att dubbelkolla era resultat!

En skriftlig version av rapporten ska lämnas in. Handskrivna rapporter godkänns ej.

Om rapporten lämnas in före tentamen kan betyget på rapporten dra upp betyget på tentan: Om betyget på rapporten är högre än betyget på tentan blir kursbetyget ett steg högre än tentabetyget, men högst 5.

^ Upp till kursens hemsida.


Sidansvarig: Lars Arvestad <arve@nada.kth.se>
Senast ändrad 24 februari 2004
Tekniskt stöd: <webmaster@nada.kth.se>