Читайте также:
|
|
Чаще всего пользователь находит на необходимые ему новые источники в Сети через информационно-поисковые системы, такие как Google, Yahoo! или "Яндекс", которые для многих стали "де-факто" стандартными. Однако кроме видимой для поисковых систем части вэб-пространства существует огромное количество страниц, которые ими не охватываются. При этом доступ пользователя к таким ресурсам в принципе возможен (хотя иногда "слегка прикрыт" паролями). Как правило, эти вэб- страницы доступны в Интернет, однако выйти на них трудно, а порой невозможно, если не знать точного адреса. Эти ресурсы уже десять лет как имеют собственное название - "скрытый" (deep) вэб, которое ввел Джилл Иллсворт (Jill Ellsworth) в 1994 году, обозначив им источники, недоступные для обычных поисковых систем. Сегодня такие ресурсы называют также невидимым (invisible) вэб. Они чаще всего охватывают динамически формируемые вэб-страницы, содержание которых хранится в базах данных и доступно лишь по запросам пользователей.
В 2000 году американская компания BrightPlanet (www.brightplanet.com) опубликовала сенсационный доклад, в котором утверждается, что в вэб-пространстве в сотни раз больше страниц, чем их удалось проиндексировать самыми популярными поисковыми системами. Эта же компания разработала программу LexiBot, которая позволяет сканировать некоторые динамические вэб-станицы, формируемые из баз данных, и запустив ее получила неожиданные данные. Выяснилось, что для традиционных поисковых систем огромная часть Сети попросту невидима. Топология паутины - "галстук-бабочка".
В ноябре 1999, Андрей Бредер (Andrei Broder) и его соавторы из компаний AltaVista, IBM и Compaq совершили прорыв, математически описав "карту" реасурсов и гиперсвязей вэба. Исследования опровергли расхожее мнение, будто Интернет - это единое густое пространство. Проследив с помощью поискового механизма AltaVista свыше 200 млн. вэб-страниц и несколько млрд. ссылок, размещенных на этих страницах, ученые пришли к следующим выводам о структуре вэб-пространства, котороая соответствует, по их мнению, ориентированному графу с топологией "галстука-бабочки" (Bow Tie), в котором вершины соответствуют страницам, а ребра - соединяющим страницы гиперссылкам. В рамках этой модели задача анализа структуры связей между отдельными вэб-страницами было обнаружено наличие:
- центральное ядро (28% вэб-страниц) - компоненты сильной связности (SCC) или узел галстука, составляют вэб-страницы, взаимосвязанные так тесно, что,следуя гиперссылкам, из любой из них в конечном счете можно попасть на любую другую.
- 22% вэб-страниц - это "отправные вэб-страницы" (IN). Они содержат гиперссылки, которые в конечном счете ведут к ядру, но из ядра к ним попасть нельзя.
- столько же - 22% - "оконечных вэб-страниц" (OUT), к которым можно прийти по ссылкам из ядра, но нельзя вернуться назад.
- 22% вэб-страниц - отростки - полностью изолированы от центрального ядра: это либо "мысы", связанные гиперссылками со страницами любой другой категории, либо "перешейки", соединяющие две вэб-страницы, не входящие в ядро.
Четыре основных множества - более 90% исследуемых вэб-страниц, топологически относящихся к одной компоненте связности - обусловили название модели - "галстук- бабочка" (Bow tie).
Дата добавления: 2015-08-02; просмотров: 70 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Закономерности, присущие информационным системам. Прогноз Мура и информационная сфера. | | | В 30-40-е Герольд Ласвелли годы использовал подобную методику для изучения содержимого пропагандистских сообщений военного времени. |