Читайте также:
|
|
При определении H1=H(a1) – энтропии опыта по оценке неопределенности, содержащейся в одной букве алфавита, мы считали, что буква независима. Это означает, что при составлении сообщения, в котором каждая буква содержит 4,35 бит информации, можно прибегнуть к помощи урны, в которой лежат тщательно перемешанные 1000 бумажек, из которых 175 не содержат ничего («пробел»), на 90 написана буква «О», на 72 – «Е» и т.д. Извлекая из такой урны бумажки, мы получим ничего не значащую фразу. Эта фраза будет похожа на русскую речь, но будет очень далека от разумного текста. Несходство полученной фразы с осмысленным сообщением объясняется тем, что на самом деле буквы в тексте не независимы друг от друга. Так, например, если мы знаем, что очередной буквой явилась гласная, то значительно возрастает вероятность появления на следующем месте согласной буквы и т.д.
Наличие в русском тексте определенных закономерностей приводит к дальнейшему уменьшению степени неопределенности одной буквы сообщения. Количественно это уменьшение можно оценить использованием условной энтропии H 2 = H a1(a2), которая является
энтропией опыта a2, состоящего в определении одной буквы текста при условии, что нам известен исход опыта a1, состоящего в определении предшествующей буквы.
Таким образом, особенности языка вносят определенную зависимость опытов, отражающихся в энтропии.
Известно, что с возрастанием числа букв в словах сообщения энтропия одной буквы уменьшается. К.Шенноном введено понятие избыточности языка:
,
где – предельное значение энтропии с учетом
вероятности сочетаний букв в словах сообщения, H 0 – средняя неопределенность букв (в русском алфавите H 0 = 4,35 бит).
Применительно к русскому языку избыточность заметно превышает 50 %. Это обстоятельство объясняется тем, что выбор следующей буквы осмысленного текста более, чем на 50 % определяется самой структурой языка и, следовательно, случаен лишь в сравнительно небольшой степени. Именно избыточность языка позволяет сокращать телеграфный текст за счет отбрасывания некоторых легко отгадываемых слов, предлогов, союзов. Она же позволяет легко восстанавливать истинный текст даже при наличии значительного числа ошибок в телеграмме или описок в книге.
Н = , где статистический опыт, заключающийся в результате отгадывания буквы при условии, что нам известна какой была предыдущая буква, т.е. нам известен результат предыдущего опыта 1.
Дата добавления: 2015-10-21; просмотров: 111 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Информация в сложном опыте | | | Код Шеннона-Фано |