Читайте также:
|
|
В науке уже давно известны закономерности, свойственные всем текстам, с учетом которых (явным или неявным образом) были построены многие современные информационно-поисковые системы, а также системы автоматической классификации и глубинного анализа текстов (Text Mining).
В 1949 году профессор филологии из Гарварда Джордж Зипф (George К. Zipf) собрал достаточный статистический материал и экспериментально показал, что распределение слов естественного языка подчиняется закону, который можно сформулировать следующим образом. Если к какому-либо достаточно большому тексту составить список всех используемых в нем слов, а затем проранжировать эти слова — расположить их в порядке убывания частоты вхождения в данном тексте и пронумеровать в возрастающем порядке, — то для любого слова произведение его порядкового номера в этом списке (ранга) и частоты его вхождения в тексте будет величиной постоянной. Эта закономерность называется первым законом Зипфа.
Закономерности, присущие информационным системам. Закономерность Брэдфорда.
Частным случаем законов Зипфа и Вейбулла также является закономерность Брэдфорда, связанная с распределением не слов в текстах, а статей, документов или Web-сатраниц, соответственно, в рамках тематических каталогов, баз данных или Web-сайтов.
Основной смысл закономерности С. Брэдфорда (химика, который в свое время исследовал количество публикаций в научных журналах) заключается в следующем: если научные журналы расположить в порядке убывания числа помещенных в них статей по конкретному предмету, то полученный список можно разбить на три зоны таким образом, чтобы количество статей в каждой зоне по заданному предмету было одинаковым. Эти три зоны составляли:
Дата добавления: 2015-08-02; просмотров: 72 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Принципы управления информационными ресурсами | | | Закономерности, присущие информационным системам. Прогноз Мура и информационная сфера. |