Nada

^ Upp till kursens hemsida.

Lab 1: Litteratursökning och sekvensjämförelser

Innan ni börjar

1 Entrez och PubMed

Ni ska bekanta er med en av de viktigaste resurserna för en bioinformatiker: Entrez, NCBI:s webbbaserade system som länkar samman information om tidskriftsartiklar, gener, proteiner, sjukdomar, mm i ett enda gränssnitt. Entrez erbjuder en sökruta där man lägger in sina söktermer (som kan använda ett snårigt frågespråk, men det behöver vi ej här) och väljer vilken databas man vill använda. I denna uppgift är det PubMed och Nucleotide som ni behöver. PubMed lagrar artikelinformation från alla tidskrifter som kan ha med medicin att göra, och lite till, och är egentligen ett online gränssnitt till NIH:s Medline. Nucleotide är egentligen Genbank, som är en databas som syftar till att spara världens alla tillgängliga DNA sekvenser. Eftersom tidskrifter numera kräver att forskare deponerar sina sekvenser i Genbank innan en artikel deponeras är koppling mellan PubMed/Medline och Genbank ganska bra.
  1. Scenario A. Antag att du minns att det finns en artikel av bland andra Gilad och Lancet om olfactory-receptorer runt år 2001, specifikt ortologer mellan mus och människa. Använd PubMed till att hitta artikeln. Passa på att spara de DNA sekvenser som är associerade med artikeln på en fil i Fasta-format. Ni behöver dem senare! Om ni klickar på "related articles" för den artikel vi letat fram, hur många av de 20 första verkar handla just om olfactory-gener? Varför gör inte alla det?
  2. Scenario B. Säg att du vill veta mer om hur man väljer parametrar för gap i sekvenslinjering och söker med orden "gap opening parameters" på PubMed. Hur många artiklar har just med sekvenslinjering att göra? Kan ni lägga till något ord för att få fler relevanta träffar? Om ni använder 'related articles', kan ni förbättra resultatlistan? PubMed erbjuder också möjligheten att välja ut flera av de listade artiklarna (klick-rutan till vänster om artikeln) och sedan visa artiklar som är relaterade till dessa. Prova om ni kan få fram en lista med artiklar som handlar om gap-parametrar med hjälp av denna funktion!
  3. Hur tror ni att funktionen 'related articles' fungerar?
  4. Antag att du vill lista alla artiklar som artikeln Gilad et al citerar. Hur bär du dig åt och hur stödjer PubMed den operationen?

2 Sekvensjämförelser

I den här uppgiften ska ni linjera DNA- och protein-sekvenser och undersöka möjligheter och begränsningar med ett multilinjerings-program: ClustalW. ClustalW används i ett terminalfönster och anropas med ett filnamn som argument, tex:

clustalw sekvensfil

Sekvensfilen ska vara på Fasta-format. Man kan ställa om diverse parametrar till ClustalW, men det är inte något som ni behöver göra i den här labben. Programmet genererar två utdata filer. En träd-fil med suffixet .dnd beskriver i vilken ordning sekvenserna linjerade. Själva linjeringen hittas i en fil med ändelsen .aln (alltså sekvensfil.aln i exemplet ovan) i form av en textfil som ger en hygglig överblick. Denna aln-fil kan även läsas av programmet seaview som presenterar linjeringen i ett eget fönster med en färgkodning av bokstäverna. Programmet kan även användas för att tex editera sekvenser och starta linjeringar på delar av sekvenserna. Tyvärr är användargränssnittet mycket udda och det är antagligen bäst för oss att enbart använda det för att titta på linjeringar. Obs. Ni kan råka ut för att ClustalW protesterar mot att de tio första tecknen i sekvensnamnen är lika. Namnet i en Fasta-formatterad sekvens är allt mellan '>' och första blanka (alternativt radslut). Använd en text-editor för att ta bort ett eventuellt gemensamt prefix så att ClustalW kan skilja på sekvenserna.

Uppgifter

  1. Linjera DNA-sekvenserna för olfactory generna som du sparade i uppgift 1a. Vad tycker du om resultatet?
  2. Använd programmet transeq för att översätta DNA-linjeringen till en peptid-linjering. Vad tycker du om resultatet? Transeq kan du använda direkt i terminalfönstret med kommandot

    transeq dnafil

    eller via WWW. Det finns dessutom en massa parametrar att använda, men deras standardvärden duger bra i den här labben.
  3. Översätt nu dina olinjerade DNA-sekvenser till peptider och linjera dessa. Jämför resultatet med det förra!

3 Databassökning och linjering

I den här uppgiften ska ni arbeta med nukleära hormonreceptorer (NHR), en familj gener som är viktiga i cellsignalering. NHR brukar delas upp i 6-7 huvudsakliga delfamiljer och den ni ska arbeta med är nummer 4 (enda anledningen är att där fanns ett lämpligt antal sekvenser). Er uppgift är att undersöka om zebrafisken (Danio rerio) har NHR gener i familj 4. Zebrafisken har nyligen blivit fullt sekvenserad och genomet analyseras nu för fullt för att leta upp gener och annan information. Enligt åtminstone en av de tillgängliga webbresurserna för NHR relaterad information finns det ännu inga kända medlemmar i familj 4 hos zebrafisken. Kan ni göra bättre med hjälp av en databas med genprediktioner som tagits fram av ensembl.org? Som ovan ska ni använda clustalw och seaview för att linjera och titta på resultatet. För sökningar bland genprediktionerna ska Blast användas. Blast används på tex följande sätt:

blastall -p blastp -d databasnamn -i söksekvenser

Lägg märke till att man har en "frontend", blastall, som sedan tittar på väljaren -p för att avgöra vilket blast-program som ska användas; I den här övningen är det blastp för proteinjämförelser. Väljaren -d anger vilken av de installerade databaserna som ska användas och ni har en som heter 'DanioRerio' till ert förfogande. Med väljaren -i anges vilken fil med söksekvenser (återigen i Fasta-format) som ska läsas. Dessutom har blast ytterligare några praktiska väljare:
-o filnamn
Anger var resultaten ska sparas. Utan denna skrivs resultatet ut på skärmen.
-e E
Visa bara resultat med E-värdet E eller bättre.
-b heltal
Ange hur många databasträffar det ska returneras en linjering för. Endast de heltal bästa får en linjering.
Ni kan också köra kommandot

blastall

utan argument för att se vad man kan justera. Ytterligare ett praktiskt program från Blast-paketet är fastacmd. Blast rapporterar inte hela sekvenser, bara namn och de delar som används i en lokal linjering. Om ni har utdata från blast som anger att sekvensen genx har en bra linjering så kan ni skriva

fastacmd -d DanioRerio -s genx

för att få fram en Fasta-formaterad sekvens. Alternativt ger

fastacmd -d DanioRerio -i fil

alla sekvenser från DanioRerio som har namn lagrade i fil (ett namn per rad). Det data ni har tillgång till är först och främst proteinsekvenserna familj 4 från människa, mus (Mus musculus), råtta (Rattus norvegicus), fluga (Drosophila melanogaster) och hund (Canis familiaris) lagrade i en Fasta-formatterad fil. Dessutom har ni tillgång till familj 1, familj 2, familj 3, familj 5 och familj 6, alla med motsvarande arter representerade så gott det går (hunden är tex inte så väl sekvenserad att den är representerad i alla familjer).

Uppgifter

  1. Använd blast till att hitta kandidater till NRB-familj 4 från Danio rerio.
  2. Eftersom alla delfamiljerna är homologa finns det gott om likheter dem emellan. Hur ska ni avgöra om en kandidat inte hör till en annan familj?
  3. Glöm inte att det är prediktion av gener som ni använder. Hittar ni några dåliga prediktioner?
  4. Hur många medlemmar i familj 4 tror ni att zebrafisken har?
I er redovisning av den här uppgiften ska ni allraminst kunna visa upp sökresultat från Blast samt en linjering av er (möjligtvis) utökade familj. Själklart ska ni kunna argumentera för era slutsatser.

^ Upp till kursens hemsida.


Sidansvarig: Lars Arvestad <arve@nada.kth.se>
Senast ändrad 28 januari 2004
Tekniskt stöd: <webmaster@nada.kth.se>