Скрытый web. Проблемы скрытого web.

Особенности информационных ресурсов | Освоить инструмент понимания этих текстов. | Информационный потенциал общества | Применяя разные технологии к одному и тому же материальному ресурсу, можно получить разные изделия, продукты. Эта же концепция справедлива и для технологии переработки информации. | В состав Программного обеспечения входят общесистемные и специальные программные продукты, а также техническая документация. | Законодательные и нормативные акты Российской Федерации в области информационных ресурсов | Виды информационных ресурсов | Методика работы с информационными ресурсами | Принципы управления информационными ресурсами | Закономерности, присущие информационным системам. Закон Зипфа. |

Читайте также:

Чаще всего пользователь находит на необходимые ему новые источники в Сети через информационно-поисковые системы, такие как Google, Yahoo! или "Яндекс", которые для многих стали "де-факто" стандартными. Однако кроме видимой для поисковых систем части вэб-пространства существует огромное количество страниц, которые ими не охватываются. При этом доступ пользователя к таким ресурсам в принципе возможен (хотя иногда "слегка прикрыт" паролями). Как правило, эти вэб- страницы доступны в Интернет, однако выйти на них трудно, а порой невозможно, если не знать точного адреса. Эти ресурсы уже десять лет как имеют собственное название - "скрытый" (deep) вэб, которое ввел Джилл Иллсворт (Jill Ellsworth) в 1994 году, обозначив им источники, недоступные для обычных поисковых систем. Сегодня такие ресурсы называют также невидимым (invisible) вэб. Они чаще всего охватывают динамически формируемые вэб-страницы, содержание которых хранится в базах данных и доступно лишь по запросам пользователей.

В 2000 году американская компания BrightPlanet (www.brightplanet.com) опубликовала сенсационный доклад, в котором утверждается, что в вэб-пространстве в сотни раз больше страниц, чем их удалось проиндексировать самыми популярными поисковыми системами. Эта же компания разработала программу LexiBot, которая позволяет сканировать некоторые динамические вэб-станицы, формируемые из баз данных, и запустив ее получила неожиданные данные. Выяснилось, что для традиционных поисковых систем огромная часть Сети попросту невидима. Топология паутины - "галстук-бабочка".

В ноябре 1999, Андрей Бредер (Andrei Broder) и его соавторы из компаний AltaVista, IBM и Compaq совершили прорыв, математически описав "карту" реасурсов и гиперсвязей вэба. Исследования опровергли расхожее мнение, будто Интернет - это единое густое пространство. Проследив с помощью поискового механизма AltaVista свыше 200 млн. вэб-страниц и несколько млрд. ссылок, размещенных на этих страницах, ученые пришли к следующим выводам о структуре вэб-пространства, котороая соответствует, по их мнению, ориентированному графу с топологией "галстука-бабочки" (Bow Tie), в котором вершины соответствуют страницам, а ребра - соединяющим страницы гиперссылкам. В рамках этой модели задача анализа структуры связей между отдельными вэб-страницами было обнаружено наличие:

- центральное ядро (28% вэб-страниц) - компоненты сильной связности (SCC) или узел галстука, составляют вэб-страницы, взаимосвязанные так тесно, что,следуя гиперссылкам, из любой из них в конечном счете можно попасть на любую другую.

- 22% вэб-страниц - это "отправные вэб-страницы" (IN). Они содержат гиперссылки, которые в конечном счете ведут к ядру, но из ядра к ним попасть нельзя.

- столько же - 22% - "оконечных вэб-страниц" (OUT), к которым можно прийти по ссылкам из ядра, но нельзя вернуться назад.

- 22% вэб-страниц - отростки - полностью изолированы от центрального ядра: это либо "мысы", связанные гиперссылками со страницами любой другой категории, либо "перешейки", соединяющие две вэб-страницы, не входящие в ядро.

Четыре основных множества - более 90% исследуемых вэб-страниц, топологически относящихся к одной компоненте связности - обусловили название модели - "галстук- бабочка" (Bow tie).

Дата добавления: 2015-08-02; просмотров: 70 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Закономерности, присущие информационным системам. Прогноз Мура и информационная сфера.	\|	В 30-40-е Герольд Ласвелли годы использовал подобную методику для изучения содержимого пропагандистских сообщений военного времени.

mybiblioteka.su - 2015-2025 год. (0.006 сек.)