(aao-fel-pm.txt1 E 941021 OJ) Olle Järnefors PROMEMORIA Kungl Tekniska Högskolan Version D Teknisk Service - Data 1994-10-21 SUNET-MIME 08-790 71 26 Fax:08-10 25 10 Telex:11421 kth s ! Ett 70-tal sätt som ÅÄÖ kan bli fel på ====================================== Sammanfattning: Stor förvirring råder beträffande hur de svenska bokstäverna ÅÄÖ ska representeras i datorpost på Internet och i netnews (USENET). Några använda metoder och förekommande förvanskningar redovisas: 6 teckenkoder, 4 transportkodningar, ! 50 translittereringsmetoder, 10 typer av förstörd text med mera. OBS: Denna fil bör visas med en oproportionell font (där alla tecken tar lika stor plats i sidled) för att komma till sin fulla rätt. Nyheter i denna version: Se sista avsnittet. Text markerad med "!" längst till vänster är ny eller ändrad i : förhållande till version D. Markeringen ":" visar skillnader : mot version C. Innehåll: 1. Inledning 2. Direkt teckenrepresentation 3. Ej återställd transportkodning 4. Translitterering till ASCII, ofta utförd manuellt 5. Transportförvanskad representation 6. Någon gång observerade representationssätt 7. Översikt av ÅÄÖ i vanliga teckenkoder : 8. Dokumenthistorik 1. Inledning ------------ Detta är en inventering av de många olika sätt som förekommer när det gäller att _representera_ de nationella svenska bokstäverna Å Ä Ö å ä ö i datorbrev på Internet i Sverige och artiklar i netnews (USENET). I inventeringen tar jag också upp de vanligaste formerna av _automatisk förvanskning_ av dessa bokstäver man kan bli offer för. Jag har personligen observerat så gott som alla av dessa i datorpost från Internet eller artiklar i netnews. För enkelhets skull bortser jag från E med akut accent, tyskt Y och andra svenska bokstäver som inte ingår i svenska alfabetet men ändå används rätt ofta i svensk text. Det är vanskligt att i just en textfil som tillhandahålls på ett publikt datornät skriva om sådant som våra datorer och nät ofta misslyckas med att representera korrekt. Därför är denna text tillgänglig i tre versioner: aao-fel-pm.txt1 Texten är kodad enligt standarden ISO 8859-1 (också kallad Latin-1). Detta bör fungera utan problem i moderna Unix-system, MS Windows, MS Windows NT och OS/2. aao-fel-pm.txts Texten är kodad i svensk 7-bitskod enligt standarden SS 63 61 27. Denna form rekommenderas av SUNET för användning i datorpost. aao-fel-pm.txta Texten är kodad i (amerikansk) ASCII enligt standarden ANSI X3.4. De svenska nationella bokstäverna finns inte tillgängliga och har, utom vid risk för missförstånd, ersatts med AAO. De olika representationerna/förvanskningarna har jag försett med unika _o-nummer_ (otygsnummer). Bokstäverna redovisas i ordningsföljden Å Ä Ö å ä ö Antingen skriver jag den sekvens av ASCII-tecken bokstaven representeras av direkt, eller också vilken oktett den representeras av, indirekt angiven med två hexadecimala siffror. Speciella markeringar som används: Markering Innebörd --------- -------- (+) vanlig förekommer ibland (-) ovanlig 2. Direkt teckenrepresentation ------------------------------ o1 (+) Svenska 7-bitskoder 5D 5B 5C 7D 7B 7C (hexadecimal representation) o2 (+) Latin-1 (= ISO 8859-1), MS Windows-teckenkod, DEC MCS C5 C4 D6 E5 E4 F6 (hexadecimal representation) o3 IBM PC-teckenkoder (CP437 och CP850) 8F 8E 99 86 84 94 (hexadecimal representation) o4 Macintosh-teckenkoder 81 80 85 8C 8A 9A (hexadecimal representation) o5 (-) HP ROMAN-8 D0 D8 DA D4 CC CE (hexadecimal representation) o6 (-) NeXT, PostScript 86 85 96 DA D9 F0 (hexadecimal representation) 3. Ej återställd transportkodning --------------------------------- o7 Quoted-Printable med Latin-1 som teckenkod =C5 =C4 =D6 =E5 =E4 =F6 (teckensekvenser) Tillsammans med eller i stället för dessa kan förekomma: =c5 =c4 =d6 =e5 =e4 =f6 o8 (-) Så kallad mnemonisk teckenkod &AA &A: &O: &aa &a: &o: (teckensekvenser) Det förekommer också att det första tecknet i dessa o9 sekvenser i stället är CTRL-] (1D) o10 eller SP följt av BS (20 08). 4. Translitterering till ASCII, ofta utförd manuellt ---------------------------------------------------- o11 A A O a a o Vanligt är att man ersätter de svenska bokstäverna med teckenpar för att minska förväxlingsriskerna. För Å och å används ofta någon av följande representationer: oa1 AA aa oa2 A* a* oa3 *A *a oa4 A. a. oa5 .a .a ! oa6 A' a' ! oa7 'A 'a För Ä Ö ä ö används ofta någon av: oo1 AE OE ae oe oo2 A: O: a: o: oo3 :A :O :a :o oo4 A" O" a" o" oo5 "A "O "a "o oo6 A% O% a% o% oo7 %A %O %a %o Otygsnumret för kombinationer av dessa metoder beräknas ur formlerna: ! o_nr = 5*(oo_nr-1) + oa_nr + 11 om oa_nr <= 5 ! o_nr = 2*(oo_nr-1) + oa_nr + 51 om 6 <= oa_nr <= 7 5. Transportförvanskad representation ------------------------------------- o47 (+) EDV-förstörd text (Latin-1 med högsta biten nollställd) E D V e d v o48 (-) Enklaste fall-back ? ? ? ? ? ? Andra fall-back-tecken kan förekomma: " ", "_", "#", "!", "x", "^" o49 (-) Alla ÅÄÖåäö är helt försvunna. o50 (-) PXZ-förstörd text (den ISO-kompatibla teckenkoden ROMAN-8, när högsta biten blivit nollställd) P X Z T L N När text skriven med IBM PC-, Macinstosh- eller NeXT-teckenkod får högsta biten nollställd får man olika styrtecken inne i texten: o51 (-) IBM PC-teckenkoder 0F 0E 19 06 04 14 (CTRL-O, CTRL-N, CTRL-Y, CTRL-F, CTRL-D, CTRL-T) o52 (-) Macintosh-teckenkoder 01 00 05 0C 0A 1A (CTRL-A, NUL, CTRL-E, FF, LF, CTRL-Z) o53 (-) NeXT, PostScript 06 05 16 5A 59 70 (CTRL-F, CTRL-E, CTRL-V, "Z", ";", "p") 6. Någon gång observerade representationssätt --------------------------------------------- o54 (-) Artikel <1994May2.171600.5818@lin.foa.se> i swnet.general ) ( ! o55 (-) Brev <199409082211.AAA27130@mail.swip.net> 60 5E 5F : o56 (-) Vad som skickades ut från statsrådsberedningens BBS i : början av 1994 : 70 3F 20 7. Översikt av ÅÄÖ i vanliga teckenkoder ---------------------------------------- 7 8 P M R N = = = = = = 5B Ä 7 = svensk 7-bitskod (SS 63 61 27) 5C Ö 8 = Latin-1 (ISO 8859-1), MS Windows 5D Å P = IBM PC-koder 7B ä M = Macintosh-koder 7C ö R = ROMAN-8 (HP) 7D å N = NeXT-kod, PostScript 80 Ä 81 Å 84 ä 85 Ö Ä 86 å Å 8A ä 8C å 8E Ä 8F Å 94 ö 96 Ö 99 Ö 9A ö C4 Ä C5 Å CC ä CE ö D0 Å D4 å D6 Ö D8 Ä D9 ä DA Ö å E4 ä E5 å F0 ö F6 ö : 8. Dokumenthistorik : ------------------- : : Bp1 940913 Första nätpublicerade version. : B 940922 Fler fall-back-tecken tillagda. : C 941014 Fler varianter av förvanskning o48 har tillkommit. Texten finns : nu tillgänglig i engelsk översättning, aao-errors-memo.txta. : D 941017 Varianten o56 tillagd. Fullständig dokumenthistorik. ! E 941021 Nytt sätt att translitterera Å dök upp i soc.culture.nordic, ! så att antalet skrivsätt har nått upp till 70-nivån. (aao-fel-pm.txt1: SLUT)