(aao-fel-pm.txta E 941021 OJ) Olle Jarnefors PROMEMORIA Kungl Tekniska Hogskolan Version D Teknisk Service - Data 1994-10-21 SUNET-MIME 08-790 71 26 Fax:08-10 25 10 Telex:11421 kth s ! Ett 70-tal satt som de svenska bokstaverna kan bli fel pa ========================================================= Av Olle Jarnefors, TS-Data, KTH (08-790 71 26, ) Sammanfattning: Stor forvirring rader betraffande hur de nationella svenska bokstaverna ska representeras i datorpost pa Internet och i netnews (USENET). Nagra anvanda metoder och forekommande forvanskningar redovisas: 6 teckenkoder, 4 transportkodningar, ! 50 translittereringsmetoder, 10 typer av forstord text med mera. OBS: Denna fil bor visas med en oproportionell font (dar alla tecken tar lika stor plats i sidled) for att komma till sin fulla ratt. Nyheter i denna version: Se sista avsnittet. Text markerad med "!" langst till vanster ar ny eller andrad i : forhallande till version D. Markeringen ":" visar skillnader : mot version C. Innehall: 1. Inledning 2. Direkt teckenrepresentation 3. Ej aterstalld transportkodning 4. Translitterering till ASCII, ofta utford manuellt 5. Transportforvanskad representation 6. Nagon gang observerade representationssatt 7. Oversikt av de nationella svenska bokstaverna i vanliga teckenkoder : 8. Dokumenthistorik 1. Inledning ------------ Detta ar en inventering av de manga olika satt som forekommer nar det galler att _representera_ de nationella svenska bokstaverna i datorbrev pa Internet i Sverige och artiklar i netnews (USENET). I inventeringen tar jag ocksa upp de vanligaste formerna av _automatisk forvanskning_ av dessa bokstaver man kan bli offer for. Jag har personligen observerat sa gott som alla av dessa i datorpost fran Internet eller artiklar i netnews. For enkelhets skull bortser jag fran E med akut accent, tyskt Y och andra svenska bokstaver som inte ingar i svenska alfabetet men anda anvands ratt ofta i svensk text. Det ar vanskligt att i just en textfil som tillhandahalls pa ett publikt datornat skriva om sadant som vara datorer och nat ofta misslyckas med att representera korrekt. Darfor ar denna text tillganglig i tre versioner: aao-fel-pm.txt1 Texten ar kodad enligt standarden ISO 8859-1 (ocksa kallad Latin-1). Detta bor fungera utan problem i moderna Unix-system, MS Windows, MS Windows NT och OS/2. aao-fel-pm.txts Texten ar kodad i svensk 7-bitskod enligt standarden SS 63 61 27. Denna form rekommenderas av SUNET for anvandning i datorpost. aao-fel-pm.txta Texten ar kodad i (amerikansk) ASCII enligt standarden ANSI X3.4. De svenska nationella bokstaverna finns inte tillgangliga och har, utom vid risk for missforstand, ersatts med AAO. De olika representationerna/forvanskningarna har jag forsett med unika _o-nummer_ (otygsnummer). Bokstaverna redovisas i ordningsfoljden Antingen skriver jag den sekvens av ASCII-tecken bokstaven representeras av direkt, eller ocksa vilken oktett den representeras av, indirekt angiven med tva hexadecimala siffror. Speciella markeringar som anvands: Markering Innebord --------- -------- (+) vanlig forekommer ibland (-) ovanlig 2. Direkt teckenrepresentation ------------------------------ o1 (+) Svenska 7-bitskoder 5D 5B 5C 7D 7B 7C (hexadecimal representation) o2 (+) Latin-1 (= ISO 8859-1), MS Windows-teckenkod, DEC MCS C5 C4 D6 E5 E4 F6 (hexadecimal representation) o3 IBM PC-teckenkoder (CP437 och CP850) 8F 8E 99 86 84 94 (hexadecimal representation) o4 Macintosh-teckenkoder 81 80 85 8C 8A 9A (hexadecimal representation) o5 (-) HP ROMAN-8 D0 D8 DA D4 CC CE (hexadecimal representation) o6 (-) NeXT, PostScript 86 85 96 DA D9 F0 (hexadecimal representation) 3. Ej aterstalld transportkodning --------------------------------- o7 Quoted-Printable med Latin-1 som teckenkod =C5 =C4 =D6 =E5 =E4 =F6 (teckensekvenser) Tillsammans med eller i stallet for dessa kan forekomma: =c5 =c4 =d6 =e5 =e4 =f6 o8 (-) Sa kallad mnemonisk teckenkod &AA &A: &O: &aa &a: &o: (teckensekvenser) Det forekommer ocksa att det forsta tecknet i dessa o9 sekvenser i stallet ar CTRL-] (1D) o10 eller SP foljt av BS (20 08). 4. Translitterering till ASCII, ofta utford manuellt ---------------------------------------------------- o11 A A O a a o Vanligt ar att man ersatter de svenska bokstaverna med teckenpar for att minska forvaxlingsriskerna. For och anvands ofta nagon av foljande representationer: oa1 AA aa oa2 A* a* oa3 *A *a oa4 A. a. oa5 .a .a ! oa6 A' a' ! oa7 'A 'a For anvands ofta nagon av: oo1 AE OE ae oe oo2 A: O: a: o: oo3 :A :O :a :o oo4 A" O" a" o" oo5 "A "O "a "o oo6 A% O% a% o% oo7 %A %O %a %o Otygsnumret for kombinationer av dessa metoder beraknas ur formlerna: ! o_nr = 5*(oo_nr-1) + oa_nr + 11 om oa_nr <= 5 ! o_nr = 2*(oo_nr-1) + oa_nr + 51 om 6 <= oa_nr <= 7 5. Transportforvanskad representation ------------------------------------- o47 (+) EDV-forstord text (Latin-1 med hogsta biten nollstalld) E D V e d v o48 (-) Enklaste fall-back ? ? ? ? ? ? Andra fall-back-tecken kan forekomma: " ", "_", "#", "!", "x", "^" o49 (-) Alla nationella svenska bokstaver ar helt forsvunna. o50 (-) PXZ-forstord text (den ISO-kompatibla teckenkoden ROMAN-8, nar hogsta biten blivit nollstalld) P X Z T L N Nar text skriven med IBM PC-, Macinstosh- eller NeXT-teckenkod far hogsta biten nollstalld far man olika styrtecken inne i texten: o51 (-) IBM PC-teckenkoder 0F 0E 19 06 04 14 (CTRL-O, CTRL-N, CTRL-Y, CTRL-F, CTRL-D, CTRL-T) o52 (-) Macintosh-teckenkoder 01 00 05 0C 0A 1A (CTRL-A, NUL, CTRL-E, FF, LF, CTRL-Z) o53 (-) NeXT, PostScript 06 05 16 5A 59 70 (CTRL-F, CTRL-E, CTRL-V, "Z", ";", "p") 6. Nagon gang observerade representationssatt --------------------------------------------- o54 (-) Artikel <1994May2.171600.5818@lin.foa.se> i swnet.general ) ( ! o55 (-) Brev <199409082211.AAA27130@mail.swip.net> 60 5E 5F : o56 (-) Vad som skickades ut fran statsradsberedningens BBS i : borjan av 1994 : 70 3F 20 7. Oversikt av de nationella svenska bokstaverna i vanliga teckenkoder ---------------------------------------------------------------------- 7 8 P M R N = = = = = = 5B [ 7 = svensk 7-bitskod (SS 63 61 27) 5C \ 8 = Latin-1 (ISO 8859-1), MS Windows 5D ] P = IBM PC-koder 7B { M = Macintosh-koder 7C | R = ROMAN-8 (HP) 7D } N = NeXT-kod, PostScript 80 [ 81 ] ] = 84 { [ = 85 \ [ \ = 86 } ] } = 8A { { = 8C } | = 8E [ 8F ] 94 | 96 \ 99 \ 9A | C4 [ C5 ] CC { CE | D0 ] D4 } D6 \ D8 [ D9 { DA \ } E4 { E5 } F0 | F6 | : 8. Dokumenthistorik : ------------------- : : Bp1 940913 Forsta natpublicerade version. : B 940922 Fler fall-back-tecken tillagda. : C 941014 Fler varianter av forvanskning o48 har tillkommit. Texten finns : nu tillganglig i engelsk oversattning, aao-errors-memo.txta. : D 941017 Varianten o56 tillagd. Fullstandig dokumenthistorik. ! E 941021 Nytt satt att translitterera dok upp i ! soc.culture. nordic, sa att antalet skrivsatt har natt ! upp till 70-nivan. (aao-fel-pm.txta: SLUT)