Unicode šifriranje: standard za kodiranje znakova

Svaki korisnik Interneta u pokušaju postavljanja jedne ili druge od svojih funkcija barem je jednom na zaslonu vidio napisane na latinskim slovima

riječ "Unicode". Što je to, naučit ćete čitajući ovaj članak.

Unicode što je to

definicija

Unicode enkodiranje je standard kodiranja znakova. Predložio ju je neprofitna organizacija Unicode Inc. 1991. Standard je dizajniran tako da u jednom dokumentu kombinira što je moguće više različitih tipova simbola. Stranica koja se stvara na temelju njega može sadržavati slova i hijeroglife iz različitih jezika (od ruskog do korejskog) i matematičkih znakova. Svi znakovi u ovom kodiranju prikazuju se bez ikakvih problema.

Razlozi za stvaranje

Jednom, dugo prije nego što se pojavio Unicode sustav, kodiranje je odabrano na temelju postavki autora dokumenta. Zbog toga često čitate jedan dokument, morali ste koristiti različite tablice. Ponekad je to trebalo učiniti nekoliko puta, što je znatno kompliciralo život običnog korisnika. Kao što je već spomenuto, rješenje tog problema 1991. godine predložilo je neprofitna organizacija Unicode Inc., koja je predložila novu vrstu kodiranja znakova. Bio je pozvan kombinirati moralno zastarjele i raznovrsne standarde. "Unicode" - kodiranje, što je omogućilo postizanje nezamislivih u to vrijeme: stvoriti alat koji podržava ogroman broj znakova. Rezultat je nadmašio mnoga očekivanja - pojavili su se dokumenti koji istodobno sadrže engleski i ruski tekst, latinski i matematički izrazi.

No stvaranje jedinstvenog kodiranja prethodi potreba za rješavanjem nekih problema koji su nastali zbog ogromne raznolikosti standarda koji su već postojali u to doba. Najčešći su:

  • elfic spisi, ili "karkozyabry";
  • ograničeni skup znakova;
  • problem kodiranja konverzije;
  • dupliciranje fontova.

Unicode standard

Kratka povijesna digresija

Zamislite da na dvorište 80.. Računalni hardver nije tako čest i ima oblik različit od danas. Iako je svaka OS je jedinstvena i rafinirana specifičnim potrebama svakog entuzijasta-a. Potreba za razmjenu informacija se pretvara u dodatni preraditi sve. Pokušaj pročitati dokument stvoren od strane drugog operativnog sustava, često se prikazuje neobičan skup znakova, a igra počinje s kodiranjem. To nije uvijek to učiniti brzo, a ponekad je potrebno dokument nije moguće otvoriti u šest mjeseci, pa čak i kasnije. Ljudi koji često razmjenjuju podatke, stvoriti za sebe tablice konverzije. I onda raditi na njima otkriva zanimljiv detalj: potreba da ih stvoriti u dva smjera, „od mojih svoj” naprijed-nazad. Provjerite banalno inverzija stroj za računanje ne može, za to u desnom stupcu izvora, a lijeva - rezultat, ali ne i obrnuto. Ako vidite potrebu koristiti posebne znakove u dokumentu, morali su se prvo dodaje, a zatim još jedan, i objasniti partneru što treba učiniti s tim likovima ne postati „besmislice”. I nemojmo zaboraviti da je za svaki kodiranje morali razviti ili provoditi svoje fontove, što je dovelo do stvaranja velikog broja duplikata u OS.

Zamislite dalje da su fontovi na stranici, vidjet ćete 10 komada identičan Times New Roman s malom napomenom: za UTF-8, UTF-16, ANSI, UCS-2. Zatim te shvatiti da je razvoj univerzalnih standarda bila imperativ?

Unicode kodiranje

„utemeljitelja kreatora”

Počeci stvaranja Unicode može se naći u 1987, kada je Joe Becker s Xerox, zajedno sa Lee Collins i Mark Davis iz Apple počeo istraživanje na području praktičnog stvaranja univerzalnog skupa znakova. U kolovozu 1988., Joe Becker je objavio nacrt prijedloga za stvaranje 16-bitni višejezični međunarodnom sustavu kodiranja.

Nekoliko mjeseci kasnije Unicode radna skupina proširena na Ken Whistler i Mike Kernegana iz RLG, Glenn Wright Sun Microsystems i nekoliko drugih stručnjaka, što omogućuje završetak rada na preliminarnoj formiranje zajedničkog kodiranja standarda.

Unicode kodiranje

Opći opis



Unicode se temelji na konceptu simbola. Ta se definicija shvaća kao apstraktni fenomen koji postoji u određenom obliku pisanja i realiziran je kroz grafeme (njeni "portreti"). Svaki znak postavljen je u Unicode jedinstvenim kodom koji pripada određenom bloku standarda. Na primjer, graphe B je na engleskom i ruskom alfabetu, ali u Unicodeu odgovara dva različita znaka. Oni su pretvoreni u mala slova, to jest, svaki od njih je opisan ključem baze podataka, skupom svojstava i punim imenom.

Prednosti Unicodea

Od ostalih suvremenika, kodiranje Unicodea obilježava ogromna rezerva likova za "šifriranje" znakova. Činjenica je da su njegovi prethodnici imali 8 bita, tj. Podržavali su 28 znakova, ali novi razvoj imao je 216 znakova, što je bio divovski korak naprijed. To omogućava kodiranje gotovo svih postojećih i distribuiranih alfabeta.

Dolaskom Unicode, nije bilo potrebe za korištenjem tablica konverzija: kao jedini standard, jednostavno je poništio njihovu potrebu. Isto tako, "krakozyabry" također je nestalo u zaborav - jedini standard ih je onemogućio, kao i uklonio potrebu stvaranja dvostrukih fontova.

Unicode razvoj

Naravno, napredak ne prestaje, a od prve prezentacije prošlo je 25 godina. Međutim, Unicodeov kodiranje tvrdoglavo održava svoj položaj u svijetu. U mnogim je aspektima to bilo moguće zahvaljujući činjenici da je postao lako implementiran i proširen, prepoznavši ga programeri vlasničkih (plaćenih) i open source softvera.

unicode kodiranje (standard za kodiranje znakova)

Mi ne bi trebali vjerovati da danas vidimo isti kod „Unicode” kao kvartalu stoljeća prije. U ovom trenutku, to je bio zamijenjen verzija 5.h.h, a broj kodiranih simbola porastao je na 231. Na mogućnost korištenja veće marže maraka odbio dalje održavati podršku za Unicode 16 (kodiranje, gdje je maksimalni iznos njihovog ograničenog broja 216). Od svog osnutka pa do verzije 2.0.0 „Unicode Standard” je povećan broj znakova koje je uključeno gotovo 2 puta. mogućnosti i nastavak rasta u narednim godinama. Za verziji 4.0.0 već postoji potreba da se poveća sama standarda, a to je učinjeno. Kao rezultat toga, „Unicode” je pronašao formu u kojoj danas poznajemo.

Unicode što je to takvo

Što još postoji u Unicodeu?

Uz ogroman, sve veći broj likova, "Unicode" -određivanje tekstualnih podataka ima još jednu korisnu značajku. Govorimo o takozvanoj normalizaciji. Umjesto pomicanja čitavog simbola dokumenta prema znaku i zamjenom odgovarajućih ikona iz tablice rezultata, koristi se jedan od postojećih algoritama za normalizaciju. O čemu se radi?

Umjesto trošenja računalnih resursa na redovitu provjeru istog simbola, koji može biti sličan u različitim pismima, koristi se poseban algoritam. Omogućuje vam da izradite slične znakove u zasebnom grafikonu tablice za pretraživanje i uputite se već na njih, a ne da više puta provjeravate sve podatke.

Postoje četiri takva algoritma razvijena i implementirana. U svakoj od njih, transformacija se odvija u skladu s strogo definiranim načelom, koji se razlikuje od ostalih, stoga nije moguće imenovati jednog od njih najučinkovitijim. Svaki je razvijen za specifične potrebe, implementiran i uspješno korišten.

Unicode tekstno kodiranje

Širenje standarda

Za 25 godina svoje povijesti Unicode šifriranje vjerojatno je dobila najveću distribuciju na svijetu. Prema ovom standardu, programi i web stranice također se prilagođavaju. Širinu aplikacije može se reći činjenicom da Unicode danas koristi više od 60% internetskih resursa.

Sada znate kada se pojavio standardni "Unicode". Što je to, također poznajete i moći ćete cijeniti cijelu vrijednost izuma koju je izradila skupina stručnjaka iz tvrtke Unicode Inc. prije više od 25 godina.

Dijelite na društvenim mrežama:

Povezan
Rad s tekstom. Kako odrediti kodiranje datotekeRad s tekstom. Kako odrediti kodiranje datoteke
ASCII (američki standardni kod za razmjenu informacija) - osnovno kodiranje teksta za latinicuASCII (američki standardni kod za razmjenu informacija) - osnovno kodiranje teksta za latinicu
ASCII, simboli: opis, tablica koda i prikaziASCII, simboli: opis, tablica koda i prikazi
Kodiranje je ... Potpisani sustavi: kodiranje podatakaKodiranje je ... Potpisani sustavi: kodiranje podataka
Što je kodiranje i dekodiranje? Primjeri. Metode kodiranja i dekodiranja podataka numeričkih,…Što je kodiranje i dekodiranje? Primjeri. Metode kodiranja i dekodiranja podataka numeričkih,…
Zašto je binarno kodiranje univerzalno? Programske metodeZašto je binarno kodiranje univerzalno? Programske metode
UTF-8 - kodiranje znakovaUTF-8 - kodiranje znakova
Htaccess (kodiranje): postavka, primjeri upotrebeHtaccess (kodiranje): postavka, primjeri upotrebe
Smiješi su japanski znakovi i tekst. Japanski osmijeh kaomojiSmiješi su japanski znakovi i tekst. Japanski osmijeh kaomoji
Kodiranje tekstaKodiranje teksta
» » Unicode šifriranje: standard za kodiranje znakova
LiveInternet