Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Избыточность в языке

Читайте также:
  1. NASIL является вопросительным словом. В русском языке ему соответствует слово - как.
  2. Беседа на русском языке между мистером Гурджиевым и мадам де Зальцманн
  3. В английском языке есть только одно слово для обозначения процесса мышления.
  4. В китайском языке слово «кризис» обозначается двумя иероглифами - «опасное время» и «время возможностей, шанс».
  5. В турецком языке используется латинский алфавит. Всего в языке 29 букв, из них 21 согласная и 8 гласных.
  6. Грамматическая семантика. Учение о грамматической форме в языке.
  7. Знание языка стрессов важнее знания любого иностранного языка, ибо НА ЯЗЫКЕ СТРЕССОВ С ЧЕЛОВЕКОМ ГОВОРИТ ЕГО СОБСТВЕННАЯ ЖИЗНЬ.

При определении H1=H(a1) – энтропии опыта по оценке неопределенности, содержащейся в одной букве алфавита, мы считали, что буква независима. Это означает, что при составлении сообщения, в котором каждая буква содержит 4,35 бит информации, можно прибегнуть к помощи урны, в которой лежат тщательно перемешанные 1000 бумажек, из которых 175 не содержат ничего («пробел»), на 90 написана буква «О», на 72 – «Е» и т.д. Извлекая из такой урны бумажки, мы получим ничего не значащую фразу. Эта фраза будет похожа на русскую речь, но будет очень далека от разумного текста. Несходство полученной фразы с осмысленным сообщением объясняется тем, что на самом деле буквы в тексте не независимы друг от друга. Так, например, если мы знаем, что очередной буквой явилась гласная, то значительно возрастает вероятность появления на следующем месте согласной буквы и т.д.

Наличие в русском тексте определенных закономерностей приводит к дальнейшему уменьшению степени неопределенности одной буквы сообщения. Количественно это уменьшение можно оценить использованием условной энтропии H 2 = H a1(a2), которая является

энтропией опыта a2, состоящего в определении одной буквы текста при условии, что нам известен исход опыта a1, состоящего в определении предшествующей буквы.

Таким образом, особенности языка вносят определенную зависимость опытов, отражающихся в энтропии.

Известно, что с возрастанием числа букв в словах сообщения энтропия одной буквы уменьшается. К.Шенноном введено понятие избыточности языка:

,

где – предельное значение энтропии с учетом

вероятности сочетаний букв в словах сообщения, H 0 – средняя неопределенность букв (в русском алфавите H 0 = 4,35 бит).

Применительно к русскому языку избыточность заметно превышает 50 %. Это обстоятельство объясняется тем, что выбор следующей буквы осмысленного текста более, чем на 50 % определяется самой структурой языка и, следовательно, случаен лишь в сравнительно небольшой степени. Именно избыточность языка позволяет сокращать телеграфный текст за счет отбрасывания некоторых легко отгадываемых слов, предлогов, союзов. Она же позволяет легко восстанавливать истинный текст даже при наличии значительного числа ошибок в телеграмме или описок в книге.

Н = , где статистический опыт, заключающийся в результате отгадывания буквы при условии, что нам известна какой была предыдущая буква, т.е. нам известен результат предыдущего опыта 1.

 

 


Дата добавления: 2015-10-21; просмотров: 111 | Нарушение авторских прав


Читайте в этой же книге: Энтропия. Формула Шеннона | Формула Шеннона | Свойства энтропии | Энтропия сложных событий | Свойства условной энтропии | Анализ экономичности кода | Решение |
<== предыдущая страница | следующая страница ==>
Информация в сложном опыте| Код Шеннона-Фано

mybiblioteka.su - 2015-2024 год. (0.005 сек.)