En computer gemmer hvert bogstav og symbol på tekst som en sekvens af bits - binære ettaller og nuller . Systemer der koder for alfabetet, tegnsætning og andre symboler udviklet i det 20. århundrede , hvilket fører til ANSI og Unicode. ANSI, der opstod tidligere bruger færre bits, men plads til ikke-europæiske sprog med vanskelighed , Unicode omfatter mange asiatiske og Mellemøstlig karakterer samt den romerske sæt bruges til engelsk og andre europæiske sprog. Size
ANSI sæt koder tegn ved hjælp otte bits , eller en byte data , så det kan håndtere op til 256 forskellige symboler på en gang. Unicode system bruger 16 bit eller to bytes , imødekommende 256 x 256 eller 65.536 symboler. Derudover har Unicode 17 kodning planer , så en i alt mere end 1 million symboler . For sprog med ikke-latinske tegnsæt , bruger ANSI en ekstra 16- bit tal kaldes en tegntabel. En computer gemmer dette nummer én gang, ikke med hvert tegn , der giver mere fleksibilitet til ANSI kodningsprotokol .
Languages
ANSI sæt kendt som " Windows 1252 " hvor " 1252 " henviser til den kode sidetal , er de mest populære , der dækker engelsk og flere europæiske sprog. Andre tegntabeller definere yderligere sprog , som f.eks 1254 for tyrkiske og 1255 for hebraisk. Unicode, på grund af sin større skriftstørrelse, i sagens natur kan rumme flere symboler , herunder for Thai, punktskrift , Cherokee og oldpersisk .
Platforms
ANSI voksede fra Microsofts Windows-operativsystem, er at have udviklet af Microsoft og IBM. Forskere fra Apple og Xerox samarbejdet om Unicode , som Microsoft senere vedtaget . På tidspunktet for offentliggørelse , understøtter Windows både ANSI og Unicode. Mac OS X bruger sin egen otte- bit tegn kode , svarende til ANSI, og understøtter også Unicode. Linux -operativsystemet indeholder også Unicode support.
Sortering
romerske tegnsæt har traditionelt tillod brugere at organisere og sortere oplysninger ved hjælp af rækkefølgen af sine karakterer. ANSI -koder fulgte den romerske karakter rækkefølge, så værdien af et "T" er større end for en "B ", gør computer opgaver såsom sortering næsten automatisk . Selvom Unicode også kan sortere oplysninger baseret på tegnenes rækkefølge , det er en mere kompleks proces . De første 127 Unicode-tegn omfatter øvre - og nedre -case latinske bogstaver , så sortering for engelsk og andre europæiske sprog. Hver ikke -romersk sprog har sin egen slags formel eller algoritme.