Формула вычисления мощности алфавита

Формула вычисления мощности алфавита

Формула Хартли для определения количества информации, содержащейся в сообщении длины n.

Как говорит нам Википедия, формула Хартли определяет количество информации, содержащееся в сообщении длины n.

То есть, имеется алфавит А, из букв которого составляется сообщение:

Количество возможных вариантов разных сообщений:

где N — возможное количество различных сообщений, шт; m — количество букв в алфавите, шт; n — количество букв в сообщении, шт.

Тогда формула Хартли определяется как:
,
где I — количество информации, бит.

Формула Хартли была предложена Ральфом Хартли в 1928 году как один из научных подходов к оценке сообщений.

Развитие высоких технологий привело к появлению большого количества терминов и понятий, с которыми сталкиваются все пользователи в процессе работы с компьютерами. Продвинутые юзеры имеют представление о большинстве из них, однако, для новичков разобраться со всеми терминами очень сложно. Одним из таковых терминов, о которых имеют представление не все даже опытные пользователи, является мощность алфавита. Что подразумевается под этим понятием и как она рассчитывается?

Методы измерения информации в электронном виде

Мощность алфавита может пригодиться очень многим пользователям в процессе работы. Однако перед тем как дать определение этому термину и разобраться в методах его расчета необходимо немного поговорить о том, как измеряется электронная информация, поскольку это является материальной базой, на основании которой базируется дальнейшая теория.

Каждый человек знает о том, что любая величина имеет свою систему измерений. Например, температура измеряется в градусах, расстояние выражается в метрах, временные интервалы строятся из секунд и так далее. Однако немногие пользователи знают о том, в каких величинах измеряется текстовая информация в электронном виде. Для этих целей в информатике и было создано определение мощность алфавита.

Определение термина

Исходя из того, что значение абсолютно любой величины, известной в наши дни человечеству, является неким параметром, состоящим из набора измерительных единиц, то определение понятию мощности алфавита проще всего сделать следующим образом: мощность алфавита — это количество символов, которое входит в состав любого языка.
Однако это всего-лишь общее определение, которое отражает только поверхностное значение мощности алфавита, поскольку само определение носит более глубокий характер. Чтобы понять всю его суть необходимо разобраться с тем, что представляют собой символы, с точки зрения высоких технологий. Все символы, используемые в компьютере, включают в себя буквы, цифры, знаки препинания и набор специальных символов. Однако это еще не все, поскольку для определения мощности алфавита необходимо еще учитывать и пробел, который предназначен для разделения слов между собой.

Давайте в качестве примера рассмотрим русскую раскладку клавиатуры, которая используется для печати русскоязычного текста и состоит из 34 букв, 10 цифр и 11 дополнительных символов, суммарное количество которых составляет 54, что, в свою очередь, классифицируется как мощность алфавита русской раскладки клавиатуры..

Информационный вес символов

Давайте постепенно продвигаться далее. Мощность алфавита не заключается в одном лишь числе букв и цифр, которые используются в напечатанном тексте. Для определения этого параметра необходим более глубокий подход.
Давайте на секунду задумаемся о том, какой минимальный объем символов входит в состав одной буквы, цифры или специального знака? Правильный ответ — два. Каждый символ в компьютере обладает своим информационным весом, благодаря которому машина способна распознавать какую информацию ввел пользователь. Все дело в том, что машина не способна распознавать информацию в том виде, в котором ее представляют люди. Вместо этого, он использует специальный машинный язык, состоящий из нулей и единиц, при помощи которых происходит преобразование текстовой информации в двоичный код, понятный компьютерной системе.
Что касается информационного веса, то он выражается в битах и является стандартной единицей для измерения информации в электронном виде.

Читайте также:  Как конвертировать pdf в doc

Немного о двоичном коде

Теперь мы имеем более-менее доступным для понимания определением мощности алфавита. Однако для понимания всей глубины теории представления электронной информации машинами необходимо иметь представление о двоичном коде. Давайте рассмотрим этот вопрос на примере мощности алфавита, состоящей из четырех любых символов, каждый из которых имеет вес два бита.

Следуя из всего вышесказанного, четыре символа будут иметь весь четыре бита, восемь — три и так далее. На основании этого принципа и происходит расчет веса текстовой информации, выраженной в электронном виде, компьютерными системами.

Вычисления мощности алфавита и ее практическое использование

С терминологией и основными теоретическими терминами мы разобрались, поэтому теперь давайте рассмотрим какая существует взаимосвязь между мощностью алфавита и его весом. Чтобы более наглядно провести взаимосвязь между ними давайте рассмотрим одну формулу: N=2b, в которой первая переменная соответствует количеству символов, а вторая — количеству знаков, используемых компьютерами в машинном языке.
Из этого математического выражения следует, что 21=2, 22=4, 23=8, 24=16 и так далее. На основании этого можно сделать весьма разумный и обоснованный вывод: число символов, используемых в машинном языке, представляет собой вес символа.

Как измеряется объем информации?

Рассмотренные выше примеры являются очень простыми, на примере которых можно дать общее представление мощности алфавита. Однако на деле все выглядит намного сложнее, поскольку каждый пользователь в процессе набора текста использует не только строчные, но и заглавные буквы, а также различные шрифты, языковую раскладку, знаки препинания, специальные символы, цвета и многое другое. Исходя из этого можно предположить, что общее число всех суммарных символов равняется 256. Поскольку 256 равняется 28 в двоичном коде, то в этом случае вес каждого символа составляет 8 битам или одному байту.

Таким образом, обладая всеми необходимыми параметрами, мы можем рассчитать объем электронной информации. Например, мы напечатали 30 страниц печатной информации, на каждой из которых содержится 50 строк по 60 различных символов. Используя известную нам формулу, производим необходимые вычисления:

— информационный вес одной строки будет равен: 50 х 60 = 3000 байт;
— а весь текст будет весить: 3000 х 50 = 150 000 байт.

Стоит отметить, что конечный результат можно выражать не только в байтах, а переводить стандартную единицу измерения в килобайты, мегабайты и другие. Для этого необходимо величину более младшего порядка разделить на 1024, поскольку именно столько единиц младшей величины образуют старшую единицу измерения.

Заключение

Прочитав эту статью, вы получили общее представление о том, что представляет собой мощность алфавита, а также о методах ее расчета. Однако был рассмотрен исключительно математический подход, в котором не учитываются некоторые другие параметры, основным из которых является смысловая нагрузка. Этот аспект является одним из наиболее важных для понимания, поскольку независимо от объема символов, если они не несут никакой информационной ценности, то его ценность равна нулю. Однако рассчитать вес бессмысленного набора символов все равно можно.

Если говорить в общем, то мощность алфавита, как один из терминов информатики, не представляет собой ничего сложного для понимания. Но многие пользователи пренебрегают этим терминов, поскольку считают его бесполезным, однако, на практике все обстоит совершенно иначе. В наши дни пользователи работают преимущественно с электронной информацией, которая со временем может полностью вытеснить печатную, поэтому необходимо иметь представление о том, как эта информация выражается в машинном виде и каким образом она рассчитывается.

Читайте также:  Как узнать пароль роутера если забыл

Алфавитом в информатике называется система знаков, с помощью которой можно подать информационное сообщение. Чтобы понять сущность этого определения, приведем немного дополнительных теоретических фактов:

  1. Любые сообщения состоят из алфавита. Например, данная статья — сообщение. Тогда она состоит из символов русского алфавита.
  2. Под символом мы можем понимать минимально значимую частицу алфавита. Также неделимые частицы называют атомами. Символами в русском алфавите являются "а", затем "б", "в", и так далее.
  3. В теории, алфавиту необязательно быть закодированным как-либо. Например, в печатной книге символы алфавита означают сами себя, значит, не имеют какой-либо кодировки.

Но на практике мы имеем следующее: компьютер не понимает, что такое буквы. Поэтому для передачи информационного сообщения его сначала нужно закодировать понятным компьютеру языком. Для того чтобы двигаться дальше, необходимо ввести дополнительные термины.

Что такое мощность алфавита

Под мощностью алфавита мы подразумеваем общее количество символов в нем. Для того чтобы узнать, какова мощность алфавита, необходимо просто посчитать количество символов в нем. Давайте разбираться. Для русского алфавита мощность алфавита равна 33 или же 32 символам, если не использовать "ё".

Давайте предположим, что все символы в нашем алфавите встречаются с равной вероятностью. Это предположение можно понимать так: допустим, у нас есть мешок с подписанными кубиками. Число кубиков в нем бесконечно, и каждый подписан лишь одним символом. Тогда при равномерном распределении, сколько бы мы кубиков ни доставали из мешка, количество кубиков с разными символами будет одинаково, или будет стремиться к этому при росте числа кубиков, которые мы достаем из мешка.

Оценка веса информационных сообщений

Почти сто лет назад американский инженер Ральф Хартли вывел формулу, с помощью которой можно оценивать количество информации в сообщении. Его формула работает для равновероятных событий и выглядит так:

Где "i" — количество неделимых информационных атомов (битов) в сообщении, "M" — мощность алфавита. Следуем далее. С помощью математических преобразований можем определить, что мощность алфавита можно вычислять так:

Эта формула в общем виде задает связь между количеством равновероятных событий "M" и количеством информации "i".

Рассчитываем мощность

Скорее всего, вам уже известно из школьного курса информатики, что в современных вычислительных системах, построенных на архитектуре фон Неймана, используется двоичная система кодировки информации. Так кодируются как программы, так и данные.

Для того чтобы представить текст в вычислительной системе, используют равномерный код из восьми разрядов. Равномерным код считается потому, что содержит фиксированный набор элементов — 0 и 1. Значения в таком коде задаются определенным порядком этих элементов. С помощью восьмиразрядного кода мы можем закодировать сообщения весом 256 бит, ведь по формуле Хартли: M8=2 8 = 256 бит информации.

Такая ситуация с кодировкой символов двоичным кодом сложилась исторически. Но теоретически мы могли бы использовать и другие алфавиты для представления данных. Так, к примеру, в четырехзнаковом алфавите у каждого символа был бы вес не один, а два бита, в восьмизнаковом — 3 бита и так далее. Это рассчитывается с помощью двоичного логарифма, который был приведен выше (i = log2M).

Читайте также:  Как очистить кэш в вайбере на айфоне

Так как в алфавите мощностью 256 бит для обозначения одного символа отводится восемь двоичных разрядов, было решено ввести дополнительную меру информации — байт. Один байт содержит один символ кодовой таблицы ASCII и содержит в себе восемь бит.

Как измеряют информацию

Восьмибитная кодировка текстовых сообщений, которая используется в кодовой таблице ASCII, позволяет вместить базовый набор символов латиницы и кириллицы в прописном и строчном варианте, цифры, символы знаков препинания и другие базовые символы.

Для того чтобы измерять более крупные объемы данных, используют специальные приставки к словам байт и бит. Такие приставки приведены в таблице ниже:

Многие люди, изучавшие физику возразят, что рационально было бы использовать классические приставки для обозначения единиц информации (вроде кило- и мега-), но на самом деле это не совсем корректно, ведь такие префиксы к величинам обозначают умножение на ту или иную степень числа десять, когда в информатике везде используется двоичная система измерений.

Правильные названия единиц измерения данных

Для того чтобы устранить некорректности и неудобства, в марте 1999 года Международной комиссией в области электротехники были утверждены новые приставки к единицам, которые используются для определения объема информации в электронной вычислительной технике. Такими приставками стали "меби", "киби", "гиби", "теби", "эксби", "пети". Пока эти единицы еще не прижились, так что, скорее всего, необходимо время для введения этого стандарта и начала широкого применения. Как осуществлять переход от классических единиц к новоутвержденным, вы можете определить по следующей таблице:

Предположим, что мы имеем текст, который содержит K символов. Тогда, используя алфавитный подход, можно вычислить объем информации V, который в нем содержится. Он будет равен произведению мощности алфавита на информационный вес одного символа в нем.

По формуле Хартли мы знаем, как вычислить объем информации через двоичный логарифм. Предположив, что количество знаков алфавита равно N и количество знаков в записи информационного сообщения равняется K, получим такую формулу для вычисления информационного объема сообщения:

Алфавитный подход свидетельствует о том, что информационный объем будет зависеть только лишь от мощности алфавита и размера сообщений (то есть количества символов в нем), но никак не будет связан со смысловым содержанием для человека.

Примеры расчета мощности

На уроках информатики часто дают задачи на нахождение мощности алфавита, длины сообщения или информационного объема. Вот одна из таких задач:

"Текстовый файл занимает 11 Кбайт дискового пространства и содержит 11264 символа. Определите мощность алфавита данного текстового файла".

Каким будет решение, можно увидеть на картинке ниже.

Таким образом, алфавит мощностью 256 символов несет в себе всего лишь 8 бит информации, что в информатике называют одним байтом. Байт описывает 1 символ таблицы ASCII, что, если задуматься, совсем не много.

Один байт — это много или мало?

Современные хранилища данных вроде дата-центров Google и Facebook содержат не меньше, чем десятки петабайт информации. Точное количество данных, впрочем, трудно будет подсчитать даже им самим, ведь тогда нужно будет остановить все процессы на серверах и закрыть пользователям доступ к записи и редактированию их личной информации.

Но чтобы вообразить такие немыслимые объемы данных, необходимо четко понимать, что все складывается из маленьких деталей. Необходимо понимать, чему равна мощность алфавита (256) и сколько бит содержит 1 байт информации (как вы помните, 8).

Ссылка на основную публикацию
Установить gvlk ключ что это
В связи с недавним выходом окончательной RTM версии пакета Microsoft Office 2016, корпоративные заказчики уже могут начинать переход на новую...
Топ вай фай адаптеров для пк
На заре развития интернета люди пользовались только проводным трафиком. После этого в «моду» начали входить модемы, которые подключались к беспроводному...
Топ дешевых наушников с хорошим звуком
Проводные наушники должны умереть! Так решил мобильный рынок и производители смартфонов, стремительно избавляющиеся от устаревшего 3,5 мм джека. Стоит ли...
Установить openal32 dll для windows 7
Данная библиотека задействуется во многих процессах во время работы компьютера. Например, она используется в играх, мультимедиа и различных программах. Иногда...
Adblock detector