КампутарыІнфармацыйныя тэхналогіі

Змястоўны і алфавітны падыход да вымярэння інфармацыі

Развіццё камп'ютэрнай тэхнікі ў новым інфармацыйным стагоддзі выклікае мноства дадатковых пытанняў, адкрывае новыя магчымасці і веды. Але разам з гэтым і ўзнікае мноства дылем, якія неабходна вырашыць. Так, напрыклад, вывучаючы кампутарную тэхніку, важна разумець, як яна апрацоўвае, запамінае і перадае файлы, што такое кадаваньне дадзеных і ў якім фармаце ажыццяўляецца вымярэнне інфармацыі. Але галоўным прадметам абмеркавання становіцца пытанне аб тым, якія існуюць асноўныя падыходы да вымярэнні інфармацыі. Прыклады і тлумачэння кожнага аспекту будуць падрабязна апісаны ў дадзеным артыкуле.

Інфармацыя ў кампутарнай навуцы

Каб пачынаць разбірацца ў інфармацыйных падыходах захоўвання дадзеных, перш неабходна даведацца, што ў кампутарнай сферы мае інфармацыя і што яна паказвае. Бо калі ўзяць інфарматыку як навуку, то яе асноўным аб'ектам вывучэння з'яўляецца менавіта інфармацыя. Само слова лацінскага паходжання і ў перакладзе на нашу мову азначае "азнаямленне", "тлумачэнне", "звядзенне". Кожная навука выкарыстоўвае розныя вызначэння гэтага паняцця. У кампутарнай сферы гэта ўсё тыя звесткі пра розныя з'явы і аб'ектах, хто вакол нас, якія памяншаюць меру нявызначанасці і ступень нашага няведання пра іх. Але, каб захоўваць усе файлы, дадзеныя, знакавыя знакі ў электроннай вылічальнай машыне, неабходна ведаць алгарытм іх пераводу ў бінарны выгляд і існуючыя адзінкі вымярэння колькасці дадзеных. Алфавітны падыход да вымярэння інфармацыі паказвае, як менавіта кампутарная машына ператварае сімвалы ў бінарны код нулікі і адзінак.

Кадаванне інфармацыі электроннай вылічальнай машынай

Кампутарная тэхніка здольная распазнаваць, апрацоўваць, запамінаць і перадаваць толькі інфармацыйныя дадзеныя ў двайковым кодзе. Але калі гэта аўдыёзапіс, тэкст, відэа, графічная выява, як машына здольная розныя тыпы дадзеных ператвараць у бінарны тып? І як яны ў такім выглядзе захоўваюцца ў памяці? На гэтыя пытанні адказы можна знайсці, калі вы ведаеце алфавітны падыход да вызначэння колькасці інфармацыі, змястоўны аспект і тэхнічную сутнасць кадавання.

Кадаванне інфармацыі складаецца ў тым, каб зашыфраваць сімвалы ў бінарны код, які складаецца з знакаў "0" і "1". Гэта тэхнічна проста арганізаваць. Сігнал ёсць, калі стаіць адзінка, нуль паказвае на адваротнае. Некаторыя задаюцца пытаннем аб тым, чаму кампутар не можа, як і чалавечы мозг, захоўваць складаныя колькасці, бо яны менш па памеры. Але электроннай вылічальнай тэхніцы лягчэй апераваць велізарным бінарным кодам, чым захоўваць у сваёй памяці складаныя колькасці.

Сістэмы вылічэння ў кампутарнай сферы

Мы прывыклі лічыць ад 1 да 10, складаць, адымаць, памнажаць і рабіць розныя аперацыі над лікамі. Кампутар жа здольны апераваць толькі дзвюма лічбамі. Але робіць гэта за долі мілісекунд. Як кампутарнай машынай вырабляецца кадаванне і дэкадаванне сымбаляў? Гэта досыць просты алгарытм, які можна разгледзець на прыкладзе. Алфавітны падыход да вымярэння інфармацыі, адзінкі вымярэння дадзеных мы разгледзім крыху пазней, пасля таго, як стане зразумелай сутнасьць кадавання і дэкадаванні дадзеных.

Існуе мноства кампутарных праграм, якія наглядна ажыццяўляюць перавод сістэм падліку або тэкставай радкі ў двайковы код і назад.

Мы ж ажыццявім разлікі ўручную. Кадаванне інфармацыі вырабляецца звычайным дзяленнем на 2. Такім чынам, дапусцім, у нас ёсць дзесятковы лік 217. Нам неабходна пераўтварыць яго ў двайковы код. Для гэтага дзелім яго на лік 2 да таго моманту, пакуль у астатку не атрымаецца нуль або адзінка.

  • 217/2 = 108 з астаткам 1. Асобна выпісваем рэшткі, менавіта яны і будуць ствараць наш канчатковы адказ.
  • 108/2 = 54. Тут астаткам з'яўляецца лік 0, так як 108 нацэлілася дзеліцца. Не забываем пазначаць сабе рэшткі. Бо калі страціць хоць адну лічбу, першапачатковае лік ужо будзе іншым.
  • 54/2 = 27, рэшту 0.
  • 27/2 = 13, запісваем 1 у рэшта. Нашы колькасці з рэшты ствараюць бінарны код, які неабходна счытваць ў зваротным парадку.
  • 13/2 = 6. Тут адзінка ў астатку, выпісваем яе.
  • 6/2 = 3 з астаткам 0. У канчатковым адказе лічбаў павінна быць на адну больш, чым ўсіх дзеянняў, вырабленых вамі.
  • 3/2 = 1 з астаткам 1. Запісваем рэшту і лік 1, якое з'яўляецца канчатковым дзяленнем.

Калі афармляць адказ, пачынаючы з лічбы ў першым дзеянні, у выніку атрымаецца 10011011, але гэта няправільна. Бінарнае лік неабходна перапісаць у зваротным парадку. Вось канчатковы вынік перакладу лікі: 11011001. Зместавы і алфавітны падыход да вымярэння інфармацыі выкарыстоўваюць дадзеныя менавіта такога фармату для захоўвання і перадачы. Двайковы код запісваецца ў кодавую табліцу і захоўваецца там, пакуль не спатрэбіцца вывесці яго на экран манітора. Затым ажыццяўляецца пераклад інфармацыі ў звыклы для нас выгляд, званы дэкадаваннем.

На малюнку добра бачны алгарытм перакладу з бінарнага віду ў дзесятковы код. Ён ажыццяўляецца па простай формуле. Першую лічбу кода памнажаем на 2 у ступені 0, прыбаўляем да яе наступную лічбу, памножаную на 2 у большай ступені, і гэтак далей. У выніку, як відаць з карцінкі, атрымліваем тое ж лік, што і першапачатковае пры кадаванні.

Алфавітны падыход да вымярэння інфармацыі: сутнасць, адзінкі

Каб вымераць аб'ём дадзеных у тэкставай паслядоўнасці знакаў, неабходна выкарыстоўваць існуючы падыход. Тут не важна змест тэксту, галоўнае - колькаснае суадносіны знакаў. Дзякуючы гэтаму аспекту вылічваецца велічыня тэкставага паведамлення, закадаванай на кампутары. У адпаведнасці з дадзеным падыходам колькасная велічыня тэксту прапарцыйная ліку знакаў, уведзеных з клавіятуры. Дзякуючы гэтаму метад вымярэння інфармацыйнага аб'ёму часцяком называюць аб'ёмным. Сімвалы могуць быць зусім рознымі па велічыні. Зразумела, што такія лічбы як 0 і 1 нясуць 1 біт інфармацыі, а літары, знакі прыпынку, прабел - іншы вагу. Можна паглядзець ASCII-табліцу, каб даведацца бінарны код таго ці іншага знака. Каб палічыць неабходны нам тэкставы аб'ём, трэба скласці вага ўсіх знакаў - складовых частак ўсяго тэксту. Гэта і ёсць алфавітны падыход да вызначэння колькасці інфармацыі.

У кампутарнай навуцы існуе мноства тэрмінаў, якімі ўсё часцей аперуюць ва ўжытку. Так, алфавіт у інфарматыцы азначае набор усіх знакаў, уключаючы дужкі, прабел, знакі прыпынку, сімвалы кірыліцы, лацінкі, якія з'яўляюцца нічым іншым як тэкставай складовай часткай. Тут маюць месца два вызначэння, па якіх і будзе разлічвацца дадзеная велічыня.

1. Дзякуючы першаму азначэнні можна разлічыць встречаемості знакаў у тэкставым паведамленні, калі іх верагоднасць з'яўлення зусім розная. Так, можна сказаць, што некаторыя літары ў расейскіх словах з'яўляюцца вельмі рэдка, напрыклад, «Коммерсанта» або «ё».

2. Але ў некаторых выпадках мэтазгодней вылічыць патрэбную нам велічыню, прадставіўшы равновероятностное з'яўленне кожнага знака. І тут будзе выкарыстоўвацца іншая формула разліку.

У гэтым і заключаецца алфавітны падыход да вымярэння інфармацыі.

Равновероятностная встречаемості знакаў у тэкставым файле

Каб растлумачыць дадзенае вызначэнне, неабходна дапусціць, што ўсе знакі ў тэксце або паведамленні з'яўляюцца з аднолькавай частатой. Каб палічыць, які аб'ём памяці яны займаюць у кампутары, неабходна акунуцца ў тэорыю верагоднасці і простых лагічных высноў.

Дапусцім, на экране манітора выведзены тэкст. Перад намі стаіць задача палічыць, які аб'ём памяці кампутара ён займае. Хай тэкст складаецца з 100 знакаў. Атрымліваецца, што верагоднасць з'яўлення адной літары, сімвала ці знака будзе складаць адну сотую частку ўсяго аб'ёму. Калі пачытаць кнігу па тэорыі верагоднасці, можна знайсці такую досыць простую формулу, якая дакладна вызначыць лікавую велічыню шанцу з'яўлення таго ці іншага знака ў любой пазіцыі тэксту.

Напэўна, доказ формул і тэарэм не ўсім будзе цікава, таму, улічваючы формулы вядомых навукоўцаў, выводзіцца разліковае выраз:

i = log 2 (1 / p) = log 2 N (біт); 2 i = N,

дзе i - гэта тая велічыня, якую нам неабходна даведацца, p - лікавае значэнне магчымасці ўзнікнення знака ў тэкставай пазіцыі, N у большасці выпадкаў складае 2, бо кампутарная машына кадуе дадзеныя ў бінарны код, які складаецца з двух велічынь.

Алфавітны аб'ёмны падыход да вымярэння інфармацыі мяркуе, што вага аднаго Знакавыя знака складае 1 біту - мінімальнай адзінцы вымярэння. Па формуле можна вызначыць, чаму раўняецца байт, кілабайт, мегабайт і інш.

Розная верагоднасць встречаемості знакаў у тэксце

Калі меркаваць, што знакі з'яўляюцца з рознай частатой (адпаведна, і ў любы пазіцыі тэксту іх верагоднасць з'яўлення розная), тады можна сказаць, што іх інфармацыйны вага таксама розны. Неабходна вылічаць па іншай формуле вымярэнне інфармацыі. Алфавітны падыход тым і універсальны, што прадугледжвае як роўную, так і розную магчымасць частоты встречаемості знака ў тэксце. Мы не будзем закранаць складаную формулу разліку дадзенай велічыні з улікам рознай верагоднасці встречаемості знака. Неабходна разумець, што такія літары, як "Коммерсанта", "х", "ф", "ч", у рускіх словах сустракаюцца значна радзей. Таму ўзнікае неабходнасць лічыць частату з'яўлення па іншай формуле. Правёўшы некаторыя разлікі, навукоўцы прыйшлі да высновы, што інфармацыйны вага рэдка трапляюцца сімвалаў значна больш, чым вага літар, якія часта сустракаюцца. Каб вылічыць аб'ём тэксту, неабходна ўлічваць велічыню паўтораў кожнага сімвала і яго інфармацыйны вага, а таксама памер алфавіту.

Вымярэнне інфармацыі: тонкасці змястоўнага аспекта

Можна не ўлічваць алфавітны падыход да вымярэння інфармацыі. Інфарматыка прапануе яшчэ адзін аспект вымярэння дадзеных - змястоўны. Тут ужо вырашаецца крыху іншая задача. Дапусцім, чалавек, які сядзіць за кампутарам, атрымлівае інфармацыю пра з'яву або якім-небудзь прадмеце. Загадзя зразумела, што ён не ведае нічога, таму ёсць нейкае лік магчымых або чаканых варыянтаў. Пасля прачытання паведамлення нявызначанасць знікае, застаецца адзін варыянт, велічыню якога і неабходна вылічыць. Звяртаемся да дапаможнай формуле. Велічыня будзе вылічацца ў мінімальнай адзінцы - бітах. Як і алфавітны падыход да вымярэння колькасці інфармацыі, правільная формула будзе абраная з улікам 2-х магчымых сітуацый: рознай і роўнай верагоднасці встречаемості падзей.

Падзеі, встречаемые з роўнай верагоднасцю

Як і ў выпадку, калі ўжываецца аб'ектыўны алфавітны падыход да вымярэння інфармацыі, шуканая формула пры змястоўным падыходзе разлічваецца з улікам ужо вядомай заканамернасці, якую вывеў навуковец Хартл:

2 i = N,

дзе i - гэта велічыня падзеі, якую нам неабходна знайсці, а N - лік падзей, сустракаемых з равновероятностной частатой. Велічыня i лічыцца ў мінімальнай адзінцы вылічэння - бітах. Можна i выказаць праз лагарыфм.

Прыклад разліку равновероятностного падзеі

Дапусцім, у нас на талерцы ляжыць 64 пельменяў, у адным з якіх схаваны сюрпрыз замест мяса. Неабходна палічыць, колькі інфармацыі ўтрымлівае падзея, калі выцягнулі менавіта гэты пельмень з сюрпрызам, гэта значыць ажыццявіць вымярэнне інфармацыі. Алфавітны падыход такі ж просты, як і аб'ектыўны. У двух выпадках выкарыстоўвалася бы адна і тая ж формула для разліку колькаснага аб'ёму інфармацыйных матэрыялаў. Падстаўляем вядомую формулу велічыні: 2 i = 64 = 2 6. Вынік: i = 6 біт.

Вымярэнне інфармацыі з улікам рознай верагоднасці з'яўлення падзеі

Дапусцім, у нас ёсць некаторы падзея з верагоднасцю з'яўлення p. Будзем лічыць, што велічыня i, разлічваецца ў бітах, - гэта лік, характарызуе той факт, што падзея адбылася. Зыходзячы з гэтага, можна сцвярджаць, што велічыні можна разлічыць па існуючай формуле: 2 i = 1 / p.

Адрозненні алфавітнага і змястоўнага падыходаў да інфармацыйнага вымярэнні

Чым аб'ёмны падыход адрозніваецца ад змястоўнага? Бо формулы разліку велічынь колькасці інфармацыі зусім адны і тыя ж. Розніца ў тым, што алфавітны аспект можна выкарыстоўваць, калі вы працуеце з тэкстамі, а змястоўны дазваляе вырашаць любыя задачы тэорыі верагоднасці, вылічваць аб'ём інфармацыі няма каго падзеі з улікам яго верагоднага з'яўлення.

высновы

Алфавітны падыход да вымярэння інфармацыі гэтак жа, як і змястоўны, дае магчымасць даведацца, якія адзінкі вымярэння дадзеных і які аб'ём будуць займаць тэкставыя знакі або любыя іншыя звесткі. Мы можам перавесці любыя тэкставыя і лікавыя файлы, паведамленні ў кампутарны код і назад, пры гэтым заўсёды ведаць, колькі памяці яны будуць займаць у кампутарнай вылічальнай машыне.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 be.birmiss.com. Theme powered by WordPress.