КампутарыІнфармацыйныя тэхналогіі

Кадыроўка "Юнікод": стандарт кадавання сімвалаў

Кожны карыстальнік Інтэрнэту ў спробах наладзіць тую ці іншую яго функцыю хоць бы аднойчы бачыў на дысплеі напісанае лацінскімі літарамі слова «Юнікод». Што гэта такое, вы даведаецеся, прачытаўшы гэты артыкул.

вызначэнне

Кадыроўка "Юнікод" - стандарт кадавання сімвалаў. Ён быў прапанаваны некамерцыйнай арганізацыяй Unicode Inc. ў 1991 годзе. Стандарт распрацаваны з мэтай аб'яднання як мага большай колькасці рознатыповых знакаў у адным дакуменце. Старонка, якая створана на яго аснове, можа ўтрымліваць у сабе літары і іерогліфы з розных моў (ад расейскай да карэйскага) і матэматычныя знакі. Пры гэтым усе сімвалы ў дадзенай кадоўцы адлюстровываюцца без праблем.

прычыны стварэння

Калісьці, задоўга да з'яўлення адзінай сістэмы "Юнікод", кадоўка выбіралася зыходзячы з пераваг аўтара дакумента. Па гэтай прычыне нярэдка, каб прачытаць адзін дакумент, трэба было выкарыстоўваць розныя табліцы. Часам гэта даводзілася рабіць па некалькі разоў, што істотна ўскладняла жыццё звычайнаму карыстальніку. Як ужо было сказана, рашэнне гэтай праблемы ў 1991 годзе было прапанавана некамерцыйнай арганізацыяй Unicode Inc., якая прапанавала новы тып кадавання знакаў. Ён быў закліканы аб'яднаць маральна састарэлыя і разнастайныя стандарты. "Юнікод" - кадоўка, якая озволила дамагчыся неймавернага на той момант: стварыць інструмент, які падтрымлівае вялізная колькасць знакаў. Вынік перасягнуў многія чакання - з'явіліся дакументы, адначасова якія змяшчаюць як англійская, так і рускі тэкст, латынь і матэматычныя выразы.

Але стварэнні адзінай кадоўкі папярэднічала неабходнасць дазволу шэрагу праблем, якія ўзніклі з-за велізарнай разнастайнасці стандартаў, ужо існавалі на той момант. Самыя распаўсюджаныя з іх:

  • эльфійскія пісьмёны, або «кракозябры»;
  • абмежаванасць набору сімвалаў;
  • праблема пераўтварэнні кадовак;
  • дубляванне шрыфтоў.

Невялікі гістарычны экскурс

Уявіце, што на двары 80-е. Кампутарная тэхніка яшчэ не так распаўсюджана і мае выгляд, выдатны ад сённяшняга. У той час кожная АС па-свойму ўнікальная і дапрацавана кожным энтузіястам пад канкрэтныя патрэбы. Неабходнасць абмену інфармацыяй ператвараецца ў дадатковую дапрацоўку за ўсё на свеце. Спроба прачытаць дакумент, створаны пад іншай АС, часцяком выводзіць на экран незразумелы набор сімвалаў, і пачынаюцца гульні з кадоўкай. Не заўсёды атрымліваецца зрабіць гэта хутка, і часам неабходны дакумент атрымоўваецца адкрыць праз паўгода, а то і пазней. Людзі, якія часта абменьваюцца інфармацыяй, ствараюць для сябе табліцы пераўтварэнні. І вось праца над імі выяўляе цікавую дэталь: ствараць іх трэба па двух напрамках: «з маёй у тваю» і назад. Зрабіць банальную інверсію вылічэнняў машына не можа, для яе ў правым слупку зыходнік, а ў левым - вынік, але ніяк не наадварот. Калі з'яўлялася неабходнасць выкарыстоўваць якія-небудзь спецыяльныя сімвалы ў дакуменце, іх неабходна было спачатку дадаць, а потым яшчэ і растлумачыць партнёру, што яму трэба зрабіць, каб гэтыя сімвалы не ператварыліся ў «кракозябры». І не будзем забываць, што пад кожную кадоўку даводзілася распрацоўваць або ўкараняць уласныя шрыфты, што прыводзіла да стварэння велізарнай колькасці дубляў у АС.

Уявіце яшчэ, што на старонцы шрыфтоў вы ўбачыце 10 штук ідэнтычных Times New Roman з маленькімі пазнакамі: для UTF-8, UTF-16, ANSI, UCS-2. Цяпер вы разумееце, што распрацоўка універсальнага стандарту была настойлівай неабходнасцю?

«Бацькі-стваральнікі»

Вытокі стварэння Unicode варта шукаць у 1987 годзе, калі Джо Бекер з Xerox разам з Лі Колінз і Маркам Дэвісам з кампаніі Apple пачалі даследаванні ў сферы практычнага стварэння універсальнага набору знакаў. У жніўні 1988 гады Джо Бекер апублікаваў праект прапановы па стварэнні 16-бітнай міжнароднай шматмоўны сістэмы кадавання.

Праз некалькі месяцаў рабочая група Unicode была пашырана за кошт уключэння Кена Уістлера і Майка Кернегана з RLG, Глен Райт з Sun Microsystems і некалькіх іншых спецыялістаў, што дазволіла завяршыць работы па папярэдняй фарміраванні адзінага стандарту кадавання.

агульнае апісанне

У аснове Unicode ляжыць паняцце сімвала. Пад гэтым вызначэннем разумеецца абстрактнае з'ява, якое існуе ў канкрэтным выглядзе пісьменства і якое рэалізуецца праз графемы (свае «партрэты»). Кожны знак задаецца ў "Юнікодзе" унікальным кодам, якія належаць канкрэтнаму блоку стандарту. Напрыклад, Графема B ёсць і ў англійскай, і ў рускім алфавітах, але ў Unicode ёй адпавядаюць 2 розных знака. Да іх прымяняецца пераўтварэнне ў маленькую літару, т. Е. Кожны з іх апісваецца ключом базы дадзеных, наборам уласцівасцяў і поўным назвай.

перавагі Unicode

Ад астатніх сучаснікаў кадзіроўка "Юнікод" адрознівалася велізарным запасам знакаў для «шыфравання» знакаў. Справа ў тым, што яго папярэднікі мелі 8 біт, то ёсць падтрымлівалі 28 сімвалаў, а вось новая распрацоўка мела ўжо 216 сімвалаў, што стала гіганцкім крокам наперад. Гэта дазволіла закадаваць практычна ўсе існуючыя і распаўсюджаныя алфавіты.

Са з'яўленнем "Юнікода" адпала патрэба выкарыстоўваць табліцы пераўтварэнні: як адзіны стандарт ён проста зводзіў на нішто іх неабходнасць. Сапраўды гэтак жа адышлі ў нябыт і «кракозябры» - адзіны стандарт зрабіў іх немагчымымі, роўна як і выключыў неабходнасць стварэння дубляў шрыфтоў.

развіццё Unicode

Вядома, прагрэс не стаіць на месцы, і з моманту першай прэзентацыі мінула ўжо 25 гадоў. Аднак кадзіроўка "Юнікод" упарта ўтрымлівае свае пазіцыі ў свеце. Шмат у чым гэта стала магчымым дзякуючы таму, што ён стаў лёгка укараняемым і пашырыўся, будучы прызнаным распрацоўнікам прапрыетарнага (платнага) і адкрытага ПА.

Пры гэтым не варта меркаваць, што сёння нам даступная тая ж кадзіроўка "Юнікод", што і чвэрць стагоддзя таму. На дадзены момант яе версія змянілася на 5.х.х, а колькасць кадаваных сімвалаў ўзрасла да 231. Ад магчымасці выкарыстоўваць большы запас знакаў адмовіліся, каб усё яшчэ захаваць падтрымку для Unicode-16 (кадоўкі, дзе максімальная іх колькасць абмяжоўвалася лічбай 216). З моманту свайго з'яўлення і да версіі 2.0.0 "Юнікод-стандарт" павялічыў колькасць знакаў, якія ў яго ўваходзілі, практычна ў 2 разы. Рост магчымасцяў працягваўся і ў наступныя гады. Да версіі 4.0.0 ўжо з'явілася неабходнасць павялічыць сам стандарт, што і было зроблена. У выніку "Юнікод" здабыў той выгляд, у якім мы яго ведаем сёння.

Што яшчэ ёсць у Unicode?

Акрамя велізарнага, пастаянна папаўняе колькасці сімвалаў, "Юнікод" -кодирование тэкставай інфармацыі мае яшчэ адну карысную рысу. Гаворка ідзе пра так званую нармалізацыі. Замест таго каб прагортваць ўвесь дакумент сімвал за сімвалам і падстаўляць адпаведныя значкі з табліцы адпаведнасці, выкарыстоўваецца адзін з існуючых алгарытмаў нармалізацыі. Пра што гаворка?

Замест таго каб марнаваць рэсурсы вылічальнай машыны на рэгулярную праверку аднаго і таго ж сімвала, які можа быць падобным у розных алфавітах, выкарыстоўваецца адмысловы алгарытм. Ён дазваляе прынесьці падобныя сымбалі асобнай графой табліцы падстаноўкі і звяртацца ўжо да іх, а не раз за разам пераправяраць усе дадзеныя.

Такіх алгарытмаў распрацавана і ўкаранёна чатыры. У кожным з іх пераўтварэнне адбываецца па строга вызначаным прынцыпе, адрозніваецца ад іншых, таму назваць нейкі адзін з іх найбольш эфектыўным не ўяўляецца магчымым. Кожны распрацоўваўся для пэўных патрэб, быў ўкаранёны і паспяхова выкарыстоўваецца.

распаўсюджванне стандарту

За 25 гадоў сваёй гісторыі кадзіроўка "Юнікод" атрымала, верагодна, найбольшае распаўсюджванне ў свеце. Пад гэты стандарт падганяюцца таксама праграмы і web-старонкі. Аб шыраце прымянення можа казаць той факт, што Unicode сёння выкарыстоўваюць больш за 60% інтэрнэт-рэсурсаў.

Зараз вам вядома, калі з'явіўся стандарт "Юнікод". Што гэта такое, вы таксама ведаеце і зможаце ацаніць усе значэнне вынаходкі, зробленага групай спецыялістаў Unicode Inc. больш за 25 гадоў таму.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 be.birmiss.com. Theme powered by WordPress.