Hur SUNET försöker lösa problemen med svenska bokstäver i datorpost

Bakgrund

Styrelsen för det svenska universitetsdatornätet, SUNET, har beslutat att starta ett projekt för att få till stånd en bättre hantering av svenska tecken i datorpost. Nuvarande situation med flera olika teckenkoder som används parallellt är klart otillfredsställande.

Det huvudsakliga problemet är att de tre sista bokstäverna i det svenska alfabetet alltför ofta kan bli felaktigt visade på bildskärmen hos mottagaren av ett datorbrev. Detta kan ha två orsaker:

  1. Avsändaren och mottagaren använder olika teckenkod ( svensk 7-bits teckenkod, Latin-1, Mac-teckenkod, PC-teckenkod etc).
  2. Något av de program som sköter transporten av brevet har förstört eller förändrat teckenkoden till någonting som inte passar mottagarens datorpostprogram.

    En vanlig form av förvanskning -- att man får EDV i stället för de tre nationella svenska bokstäverna -- beror på att något program på vägen mellan avsändare och mottagare nollställer den högsta biten i varje oktett/byte. Detta är dock helt enligt den grundstandard, SMTP, som gäller för datorpost på SUNET och Internet.

Ny rekommendation från 1 januari 1995

Vid ett möte den 28 september med datorpostansvariga vid svenska universitet och högskolor och efter hörande av SUNET:s tekniska referensgrupp har SUNET beslutat att från den 1 januari 1995 rekommendera att datorpost utanför den egna organisationen hanteras enligt den nya standarden MIME för datorpost på Internet. Även inom den egna organisationen bör datorpost hanteras enligt samma standard.

Den teckenkod som ska användas för svensk text är Latin-1. Där representeras de tre sista bokstäverna i det svenska alfabetet av höga oktetter.

Enligt det sedan början av 80-talet använda protokollet för datorpost, SMTP, ska dock inga höga oktetter användas. Fortfarande gäller att man under INGA omständigheter får skicka dessa oktetter ut på nätet "rakt upp och ner". I stället bör i första hand utvidgningen ESMTP av SMTP-protokollet tillämpas. Det innebär att höga oktetter skickas bara om det mottagande programmet bekräftar att det kan hantera brev med höga oktetter. I andra hand skall text i teckenkoden Latin-1 transportkodas enligt MIME-metoden Quoted-Printable.

Detta innebär att den gamla rekommendationen att använda svensk 7-bits teckenkod i datorpost inte längre gäller efter 1 januari 1995.

Vi bedömmer dock inte tiden som mogen att även förorda MIME generellt för "Internet News" - officiella Internet-rekommendationer saknas ännu och antalet News-hanterings-program som klarar att läsa och skapa News-inlägg med MIME är lågt. Rekommendationen att använda svensk 7-bits teckenkod för News kvarstår alltså tills vidare. (Höga oktetter skall alltså inte skickas i News-inlägg.)

Det är givetvis inte tillfredställande att använda fundamentalt olika sätt att representera svensk text i datorpost och i News, med tanke på behoven av nära samverkan mellan dessa kommunikationsformer. SUNET vill därför stimulera till en öppen diskussion om hur problemen med nationella bokstäver ska lösas i News. Tills vidare bör den föras i News-gruppen swnet.mail.

SUNET avser att rekommendera generell användning av teckenkoden Latin-1 i rena textfiler och HTML-filer som tillhandahålls via Gopher, World Wide Web och anonym FTP. Även Gopher-menyer och titelfältet för WWW-sidor bör använda Latin-1. Diskussion om en sådan rekommendation är lämplig och genomförbar bör föras i News-gruppen swnet.mail.

Stödåtgärder

För att underlätta den beslutade övergången till MIME kommer SUNET att utvärdera datorpostprogram i Macintosh-, MS-Windows- och Unix-miljöer. Utvärderingen skall avse MIME-kompatibilitet och MIME-användbarhet. SUNET kommer därefter att kunna ge rekommendationer om lämpliga datorpostprogram.

SUNET kommer också att vidareutveckla konverteringsprogrammet EMIL så att det får ökad funktionalitet och blir lättare att installera och konfigurera. Med hjälp av EMIL är det möjligt att ge MIME-stöd till datormiljöer som av någon orsak inte omedelbart kan gå över till MIME.

Ytterligare information

Mer information om MIME i allmänhet och detta SUNET-projekt i synnerhet kan fås via World Wide Web, URL:

http://www.nada.kth.se/sunet-mime/

En del av dokumenten kan också hämtas via s.k. anonym FTP från ftp.nada.kth.se, i katalogen pub/sunet-mime.

Diskussion om detta projekt föreslås ske i News-mötet swnet.mail. Frågor och tips till projektgruppen kan skickas till <sunet-mime-info@sunet.se>


Om du undrar över något av de tekniska orden

Teckenkod = en fullständig uppsättning regler för hur olika tecken ska representeras i form av nollor och ettor i datorn.

Svensk 7-bits teckenkod = den teckenkod för svensk text som var vanlig i datorer i början på 80-talet. Liknar den amerikanska teckenkoden ASCII mycket, men bland annat hakparenteser och bakåtlutande snedstreck har ersatts med svenska bokstäver. Den är en svensk standard och kallas i MIME för SEN_850200_B. Går också under den oegentliga benämningen "svensk ASCII".

Latin-1 = den teckenkod som kommer att rekommenderas för användning i SUNET. Används i Microsoft Windows och många Unixdatorer. Den är dubbelt så stor som ASCII och svensk 7-bits teckenkod och rymmer därför alla ASCII-tecken och dessutom alla bokstäver med accenter och liknande som används i västeuropeiska språk. Är en internationell standard och kallas i MIME för ISO-8859-1.

Höga oktetter = oktetter där högsta biten är 1. All information i en dator lagras som bitar, som antingen är noll eller ett. Ofta behandlas åtta sådana som en enhet, en oktett eller byte. Åtta bitar ger 256 olika kombinationsmöjligheter, man säger att oktetten har ett värde mellan 0 och 255. Höga oktetter har värden mellan 128 och 255. I teckenkoden Latin-1 ingår 256 tecken, eftersom varje tecken representeras av en oktett. Bland annat de svenska nationella bokstäverna representeras i Latin-1 av höga oktetter.

Quoted-Printable = metod definierad i MIME för att under transporten av ett datorbrev tillfälligt representera höga oktetter med låga oktetter. Om de tre besvärliga svenska bokstäverna är kodade enligt Latin-1 så representeras de stora bokstäverna av teckentripplarna =C5 =C4 =D6 och de små av =E5 =E4 =F6, enligt Quoted-Printable.

SMTP = Simple Mail Transfer Protocol: den grundstandard för datorpost som används i SUNET och Internet. SMTP definieras i Internet-dokumentet RFC 821.

MIME = Multipurpose Internet Mail Extensions: ett tillägg till bl.a. SMTP som beskriver hur brev innehållande "oamerikanska" tecken eller multimedia-objekt kan skickas på Internet. MIME definieras i dokumenten RFC 1521 och RFC 1522.

ESMTP = Extended Simple Mail Transfer Protocol: En modifiering av SMTP som gör det möjligt att skicka också höga oktetter i datorbrev. Detta görs genom användning av kommandot EHLO och parametern BODY=8BITMIME till kommandot MAIL FROM. Detta definieras i Internet-dokumenten RFC 1651 och RFC 1652.

RFC = Request for Comments: En serie av tekniska dokument som har tagits fram under utvecklingen av Internet. Bland annat definieras alla kommunikationsprotokoll på Internet i olika RFC-dokument. RFC:erna får kopieras och spridas gratis och tillhandahålls på många datorer på Internet, bland annat på SUNET:s dator sunic.sunet.se.

Internet News: Det första världsomspännande, helt öppna datorkonferenssystemet. Diskussionerna är uppdelade på tusentals olika intresseområden, s.k. News-grupper. Alla användare på en Internet-ansluten News-dator kan läsa andras artiklar i en News-grupp och skicka egna dit.

World Wide Web (WWW), Gopher, anonym FTP: Olika metoder för att läsa och hämta information, bilder, program m.m. som finns tillgängliga på Internet.

HTML = HyperText Markup Language: Det dokumentformat som normalt används för information som görs tillgänglig i World Wide Web.


SUNET-MIME-projektet. Senast ändrad 1994-11-04