Читайте также:
|
|
Назначением большинства программ в конечном итоге является (должно являться) упрощение работы, выполняемой человеком. Пользовательские данные — это результат работы человека. Если этот результат будет утерян, работу придется выполнять снова, что нельзя назвать упрощением. Поэтому любая программа должна обеспечивать сохранность данных пользователя, будь то простое текстовое сообщение, 3D-модель или научная статья. О важности данных может судить только сам пользователь, но никак не программа, с которой он взаимодействует. Путей для обеспечения сохранности данных может быть много: это и автоматическое сохранение любых изменений, и обратимость операций, и создание резервного архива (backup).
Формирование команд по принципу «объект -> действие»
При формировании многих команд может применяться одна из двух моделей:
1. Сначала указать объект, а затем действие, которое необходимо совершить с этим объектом (модель «объект-действие»).
2. Сначала указать действие, а затем объект, к которому следует применить это действие (модель «действие-объект»).
Предпочтительной является первая модель — «объект-действие». Во-первых, она исключает многие модальные ошибки, поскольку переключение действия обычно сопровождается переключением режимов работы. Во-вторых, она проще для восприятия человеком, поскольку, как правило, локус внимания пользователя уже находится на объекте, когда возникает необходимость выполнить какое-то действие с этим объектом.
Использование второй модели — «действие-объект» — тоже допустимо, но только в тех случаях, когда ее применение достаточно аргументировано.
Монотонность
Привычки могут формироваться у человека лишь в том случае, если каждое действие можно выполнить всегда одним и тем же образом. Интерфейс можно назвать монотонным, когда каждое элементарное действие в нем можно выполнить ровно одним способом (т.е. жестом). Часто для одного и того же действия предусматривается несколько способов выполнения: через меню, сочетанием клавиш, щелчком мыши и т.п. Однако подобная практика затрудняет формирование привычек, поскольку пользователь должен каждый раз выбирать, каким способом выполнить действие. И лишь когда он станет выполнять действие всегда только одним способом, т.е. сам сведет немонотонный интерфейс к монотонному, у него появится возможность формировать привычку для выполнения этого действия. Если сразу спроектировать интерфейс так, чтобы он был монотонным, то это сократит время обучения пользователя. Исключение, вероятно, может составлять случай, когда проектируется интерфейс для пользователей с разными устройствами. Например, часть пользователей пользуется настольным ПК с клавиатурой и мышью, а часть — планшетным ПК с сенсорным экраном. Однако и в этом случае стоит подумать о других альтернативах, например, нахождении способа взаимодействия, который будет применим на разных устройствах, или разработке разных версий интерфейса для разных устройств. Иначе есть риск создать интерфейс, который не будет устраивать ни ту, ни другую группу пользователей.
Видимость
Интерфейс программы должен своевременно информировать пользователя о:
1) текущем состоянии системы и смене состояния в результате действий пользователя;
2) способах управления и воздействия на систему.
В случае отсутствия информации о состоянии системы возрастает количество ошибок, допускаемых при работе с программой. Информирование пользователя о состоянии системы включает в том числе и предоставление различного рода обратной связи: подсветку объекта, на который наведен указатель мыши, индикацию о том, что действие пользователя воспринято программой и находится в обработке и т.п.
Состоятельность
Элемент управления является не только видимым, но и состоятельным, если по одному его виду пользователь может определить, как именно с ним взаимодействовать: кнопки — нажимать, полосы прокрутки — перемещать, и т.п. Таким образом, принцип состоятельности дополняет принцип видимости.
Взаимодействие с подобными по виду элементами и объектами должно происходить всегда единообразно, иначе будут возникать ошибки, связанные с модальностью интерфейса. Примером может являться интерфейс, в котором в одной ситуации элемент, выглядящий как кнопка, необходимо нажать, а в другой ситуации элемент, выглядящий подобным образом, необходимо переместить.
Закон фиттса
Время достижения цели прямо пропорционально дистанции до цели и обратно пропорционально размеру цели.
Правила проектирования интерфейса:
· Использование горячих клавиш
· У пользователя должна быть возможность отменить введенные данные, вернуться на предыдущий шаг или вообще прервать выполнение начатой операции.
· Всплывающие подсказки
· Предусмотреть быстрый доступ к функционалу программы
· Индивидуальная настройка интерфейса (размер, цвет текста, расположение кнопок)
· Если компьютер выполняет какие-то длительные действия необходимо показать пользователю, что ПК работает, а не завис.
· Сохранение некоторых данных в памяти компьютера (при заполнении анкеты пользователь вводит фио, адрес и если эти данные потребуются в другом месте они должны заполниться автоматически)
· Использовать списки и меню (например чтобы пользователь заполнял не код операции, а выбрал из списка саму операцию)
· Визуальные подсказки (Изменять форму курсора в зависимости от типа действия)
· Использовать панель инструментов (когда пользователи освоят программу они им понадобятся)
· Вывести на панель только основные функции остальные скрыть (например под стрелкой)
· При переходе из старой системы в новую сохранить контрольные точки в интерфейсе
по дисциплине «Базы данных»
1. Информация и данные сходства и различия. Технологии баз данных. Модели данных. Принципы построения баз данных и управления ими. Реляционные базы данных (СУБД). Совокупная стоимость владения, решения по оптимизации. Сетевые СУБД. Облачные технологии.
Термин данные происходит от слова data - факт, а информация (informatio) означает разъяснение, изложение, т.е. сведения или сообщение.
Данные - это совокупность сведений, зафиксированных на определенном носителе в форме, пригодной для постоянного хранения, передачи и обработки. Преобразование и обработка данных позволяет получить информацию.
Информация - это сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний. Информация - это результат преобразования и анализа данных.
Отличие информации от данных состоит в том, что данные - это фиксированные сведения о событиях и явлениях, которые хранятся на определенных носителях, а информация появляется в результате обработки данных при решении конкретных задач. Например, в базах данных хранятся различные данные, а по определенному запросу система управления базой данных выдает требуемую информацию.
База данных (БД) - именованная совокупность данных, отражающая состояние объектов и их отношений в рассматриваемой предметной области (ПО).
С понятием базы данных тесно связано понятие системы управления базой данных. Это комплекс программных средств, предназначенных для создания структуры новой базы, наполнения ее содержимым, редактирования содержимого и визуализации информации. Под визуализацией информации базы понимается отбор отображаемых данных в соответствии с заданным критерием, их упорядочение, оформление и последующая выдача на устройство вывода или передача по каналам связи.
Основными объектами любой базы данных являются ее таблицы. Простейшая база данных имеет хотя бы одну таблицу.
Структуру двумерной таблицы образуют столбцы и строки. Их аналогами в структуре простейшей базы данных являются поля и записи. Если записей в таблице пока нет, значит, ее структура образована только набором полей. Изменив состав полей базовой таблицы (или их свойства), мы изменяем структуру базы данных и, соответственно, получаем новую базу данных.
Свойства полей базы данных
• Имя поля — определяет, как следует обращаться к данным этого поля при автоматических операциях с базой.
• Тип поля — определяет тип данных, которые могут содержаться в данном поле.
• Размер поля — определяет предельную длину (в символах) данных, которые могут размещаться в данном поле.
• Формат поля — определяет способ форматирования данных в ячейках, принадлежащих полю.
• Маска ввода — определяет форму, в которой вводятся данные в поле (средство автоматизации ввода данных).
• Значение по умолчанию
• Условие на значение
• Обязательное поле.
Ядром любой БД является модель данных, с помощью которой могут быть представлены объекты, предметные области и взаимосвязи между ними.
Модель данных – совокупность структур данных и операции их обработки.
Рассмотрим три основных типа моделей данных: иерархическую, сетевую и реляционную.
Иерархическая модель представляет собой совокупность элементов, расположенных в порядке их подчинения от общего к частному и образующих перевернутое по структуре дерево (граф). (файловая система и реестр винды,)
Поиск данных всегда начинается с корня. Затем производится спуск с одного уровня на другой пока не будет достигнут искомый уровень. Перемещения от одной записи к другой осуществляются с помощью ссылок.
Основное достоинство иерархических баз данных состоит в экономичном использовании ресурсов памяти и соответственно высоком быстродействии системы. Недостатком является жесткие связи и при изменении модели возникает необходимость в перепрограммировании БД.
В сетевой модели данных понятия главного и подчиненных объектов несколько расширены. Любой объект может быть и главным и подчиненным (в сетевой модели главный объект обозначается термином «владелец набора», а подчиненный — термином «член набора»). Один и тот же объект может одновременно выступать и в роли владельца, и в роли члена набора. Это означает, что каждый объект может участвовать в любом числе взаимосвязей.
Использование иерархической и сетевой моделей ускоряет доступ к информации, но требует значительных ресурсов памяти, так как каждый элемент данных содержит ссылки на другие элементы.
Реляционная модель(РМД) была разработана в начале 1970-х годов Эдгаром Ф. Коддом. Реляционная модель ориентирована на организацию данных в виде двумерных таблиц. Каждая реляционная таблица представляет собой двумерный массив и обладает следующими свойствами:
· каждый элемент таблицы — один элемент данных
· все ячейки в столбце таблицы однородные, то есть все элементы в столбце имеют одинаковый тип (числовой, символьный и т. д.)
· каждый столбец имеет уникальное имя
· одинаковые строки в таблице отсутствуют
· порядок следования строк и столбцов может быть произвольным
12 правил Кодда
правило 0: Основное правило (Foundation Rule): Реляционная СУБД должна быть способна полностью управлять базой данных, используя связи между данными:
Чтобы быть реляционной системой управления базами данных (СУБД), система должна использовать исключительно свои реляционные возможности для управления базой данных.
правило 1: Явное представление данных (The Information Rule):
Информация должна быть представлена в виде данных, хранящихся в ячейках. Данные, хранящиеся в ячейках, должны быть атомарны. Порядок строк в реляционной таблице не должен влиять на смысл данных.
правило 2: Гарантированный доступ к данным (Guaranteed Access Rule):
Доступ к данным должен быть свободен от двусмысленности. К каждому элементу данных должен быть гарантирован доступ с помощью комбинации имени таблицы, первичного ключа строки и имени столбца.
правило 3: Полная обработка неизвестных значений (Systematic Treatment of Null Values):
Неизвестные значения NULL, отличные от любого известного значения, должны поддерживаться для всех типов данных при выполнении любых операций. Например, для числовых данных неизвестные значения не должны рассматриваться как нули, а для символьных данных — как пустые строки.
правило 4: Доступ к словарю данных в терминах реляционной модели (Active On-Line Catalog Based on the Relational Model):
Словарь данных должен сохраняться в форме реляционных таблиц, и СУБД должна поддерживать доступ к нему при помощи стандартных языковых средств, тех же самых, которые используются для работы с реляционными таблицами, содержащими пользовательские данные.
правило 5: Полнота подмножества языка (Comprehensive Data Sublanguage Rule):
Система управления реляционными базами данных должна поддерживать хотя бы один реляционный язык, который
(а) имеет линейный синтаксис,
(б) может использоваться как интерактивно, так и в прикладных программах,
(в) поддерживает операции определения данных, определения представлений, манипулирования данными (интерактивные и программные), ограничители целостности, управления доступом и операции управления транзакциями (begin, commit и rollback).
правило 6: Возможность модификации представлений (View Updating Rule):
Каждое представление должно поддерживать все операции манипулирования данными, которые поддерживают реляционные таблицы: операции выборки, вставки, модификации и удаления данных.
правило 7: Наличие высокоуровневых операций управления данными (High-Level Insert, Update, and Delete):
Операции вставки, модификации и удаления данных должны поддерживаться не только по отношению к одной строке реляционной таблицы, но по отношению к любому множеству строк.
правило 8: Физическая независимость данных (Physical Data Independence):
Приложения не должны зависеть от используемых способов хранения данных на носителях, от аппаратного обеспечения компьютеров, на которых находится реляционная база данных.
правило 9: Логическая независимость данных (Logical Data Independence):
Представление данных в приложении не должно зависеть от структуры реляционных таблиц. Если в процессе нормализации одна реляционная таблица разделяется на две, представление должно обеспечить объединение этих данных, чтобы изменение структуры реляционных таблиц не сказывалось на работе приложений.
правило 10: Независимость контроля целостности (Integrity Independence):
Вся информация, необходимая для поддержания целостности, должна находиться в словаре данных. Язык для работы с данными должен выполнять проверку входных данных и автоматически поддерживать целостность данных.
правило 11: Дистрибутивная независимость (Distribution Independence):
База данных может быть распределённой, может находиться на нескольких компьютерах, и это не должно оказывать влияние на приложения. Перенос базы данных на другой компьютер не должен оказывать влияния на приложения.
правило 12: Согласование языковых уровней (The Nonsubversion Rule):
Если используется низкоуровневый язык доступа к данным, он не должен игнорировать правила безопасности и правила целостности, которые поддерживаются языком более высокого уровня.
Совокупная стоимость владения (англ. Total cost of ownership, TCO) — это методика, предназначенная для определения затрат на информационные системы (и не только), рассчитывающихся на всех этапах жизненного цикла системы.
Совокупная стоимость владения - сумма материальных и временных затрат, связанных с приобретением, развертыванием, конфигурированием и обслуживанием программного и аппаратного обеспечения.
Совокупная стоимость владения включает затраты:
- на обновление программного обеспечения и оборудования;
- на обучение, обслуживание, администрирование и техническую поддержку.
Упрощенная методика расчета TCO Методика позволяет понять структуру затрат на информационные технологии. Все затраты разделяются на прямые и косвенные.
Прямые затраты — явные — составляют затраты, проходящие через бухгалтерию (заработная плата сотрудников, закупки оборудования и программного обеспечения, оплата услуг консалтинга и др.).
Непрямые затраты — неявные — выявляются сложнее. В них включаются затраты на устранение сбоев или проблем на компьютерах, простои рабочего времени, командировочные, затраты на предотвращение рисков и затраты на устранение их последствий, затраты на обучение персонала и другие подобные затраты.
Обычно неявные затраты превышают явные.
Говоря про TCO применительно к СУБД, можно выделить следующие составные части:
1. Стоимость самой СУБД, состоящая из первоначального платежа за приобретение лицензий и ежегодных платежей за поддержку от производителя.
2. Стоимость сопровождения СУБД, которая определяется заработной платой сотрудников, ответственных за обслуживание и администрирование баз данных.
3. Стоимость платформы для разворачивания СУБД — серверного оборудования и операционной системы. Эта стоимость также складывается из первоначального платежа за приобретение оборудования и лицензий на ОС, а также ежегодных платежей за поддержку от производителей.
2. Технологии экспертных систем. Базы знаний. Извлечение знаний из данных. Информационные хранилища. Совокупная стоимость владения, решения по оптимизации. OLAP-технология.
Экспертные системы -это направление исследований в области искусственного интеллекта по созданию вычислительных систем, умеющих принимать решения, схожие с решениями экспертов в заданной предметной области. Экспертные системы является плодом совместной работы экспертов в данной предметной области, инженеров по знаниям и программистов и дают возможность менеджеру или специалисту получать консультации экспертов по любым проблемам, о которых этими системами накоплены знания.
Под искусственным интеллектом обычно понимают способности компьютерных систем к таким действиям, которые назывались бы интеллектуальными, если бы исходили от человека.
Основными компонентами информационной технологии, используемой в экспертной системе, являются (рис.): интерфейс пользователя, база знаний, интерпретатор, модуль создания системы.
База знаний содержит факты, описывающие проблемную область, а также логическую взаимосвязь этих фактов. Центральное место в базе знаний принадлежит правилам. Правило определяет, что следует делать в данной конкретной ситуации, и состоит из двух частей: условие, которое может выполняться или нет, и действие, которое следует произвести, если выполняется условие.
Все используемые в экспертной системе правила образуют систему правил, которая даже для сравнительно простой системы может содержать несколько тысяч правил.
Оболочка экспертных систем представляет собой готовую программную среду, которая может быть приспособлена к решению определенной проблемы путем создания соответствующей базы знаний. В большинстве случаев использование оболочек позволяет создавать экспертные системы быстрее и легче в сравнении с программированием.
Процесс извлечения знаний из данных называется анализом данных (Data Mining).
Сферы использования Data Mining:
· Розничная торговля
o анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе;
o исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов. Оно дает ответы на вопросы типа "Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит новые батарейки и пленку?"
o создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи.
· Банковское дело
o выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества
o прогнозирование изменений клиентуры. Data Mining помогает банкам строить прогнозные модели ценности своих клиентов, и соответствующим образом обслуживать каждую категорию.
· Страхование
o выявление мошенничества
o анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышает суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.
Без мощного аналитического инструментария извлечение полезных знаний, скрытых в огромных количествах сырых, необработанных данных, представляет собой сложную, практически невыполнимую задачу. Экспоненциальный рост данных, в отличие от природы данных и целей анализа, сложности анализа перемемешанных структурных данных и текста, представляет собой фактор, делающий из сбора и анализа данных настоящую проблему.
Data Mining предоставяет инструментарий для автоматического изучения как исторических данных так и совершенствующихся моделей для прогнозирования последствий будущих ситуаций. Самые лучшие инструментальные программные средства Data Mining предоставляют многообразие алгоритмов машинного обучения для моделирования, таких как Нейронная сеть, Дерево решений, Байесовские сети и другие.
Технологии информационного хранилища обеспечивают сбор данных из существующих внутренних баз предприятия и внешних источников, формирование, хранение и эксплуатацию информации как единой, хранение аналитических данных (знаний) в форме, удобной для анализа и принятия управленческих решений. К внутренним базам данных предприятия относятся локальные базы подсистем ЭИС (бухгалтерский учет, финансовый анализ, кадры, расчеты с поставщиками и покупателями и т.д.). К внешним базам – любые данные, доступные по интернету и размещенные на web cepвеpax предприятий-конкурентов, правительственных и законодательных органов, других учреждений.
Всем хранилищам данных свойственны следующие общие черты:
Хранилища данных могут быть разбиты на два типа: корпоративные хранилища данных (enterprise data warehouses) и киоски данных (data marts).
Корпоративные хранилища данных содержат информацию, относящуюся ко всей корпорации и собранную из множества оперативных источников для консолидированного анализа. Обычно такие хранилища охватывают целый ряд аспектов деятельности корпорации и используются для принятия как тактических, так и стратегических решений. Киоски данных содержат подмножество корпоративных данных и строятся для отделов или подразделений внутри организации. Киоски данных часто строятся силами самого отдела и охватывают конкретный аспект, интересующий сотрудников данного отдела.
Отличие реляционных баз данных, используемых в ЭИС, от информационного хранилища заключается в следующем:
• Реляционные базы данных содержат только оперативные данные организации. Информационное хранилище обеспечивает доступ как к внутренним данным организации, так и к внешним источникам данных, доступным по интернету.
• База данных ориентирована на одну модель данных функциональной подсистемы ЭИС. Базы обеспечивают запросы оперативных данных организации. Информационные хранилища поддерживают большое число моделей данных, включая многомерные, что обеспечивает ретроспективные запросы (запросы за прошлые годы и десятилетия), запросы как к оперативным данным организации, так и к данным внешних источников.
• Данные информационных хранилищ могут размещаться не только на сервере, но и на вторичных устройствах хранения.
Совокупная стоимость владения, решения по оптимизации.
Под совокупной стоимостью владении понимается сумма прямых и косвенных затрат, которые несет владелец системы за период жизненного цикла последней.
Прямые затраты.
1.1. Основные затраты: создание информационной системы; оборудование — серверы, клиентские места, периферия, сетевые компоненты; ПО, приложения, утилиты, управляющее ПО; обновление (модернизация).
1.2. Эксплуатационные затраты: управление задачами; поддержка работоспособности системы — персонал, функционирование справочной службы, обучение, закупки, подготовка контрактов на поддержку системы; разработка инфраструктуры, бизнес приложений.
1.3. Прочие затраты: создание коммуникаций — глобальные сети, взаимодействие с поставщиками сервиса, удаленный доступ, Internet, доступ клиента; управление и поддержка — аутсорсинг, сопровождение, справочная система.
Косвенные затраты
Затраты, связанные с оплатой действий, напрямую не являющихся рабочими функциями Контроль, отправка и получение почты, телефонные разговоры, ввод информации, переводы, расходы n.i помещение, потери от плановых и внеплановых простоев, коммунальные услуги и поддержку административного и конторского персонала
Говоря про TCO применительно к СУБД, можно выделить следующие составные части:
OLAP (on-line analytical processing) — набор технологий для оперативной обработки информации, включающих динамическое построение отчётов в различных разрезах, анализ данных, мониторинг и прогнозирование ключевых показателей бизнеса. В основе OLAP-технологий лежит представление информации в виде OLAP-кубов.
Известные производители коммерческих OLAP-продуктов, согласно OLAP Report на 2007 год: Microsoft, Hyperion, Cognos, Business Objects, MicroStrategy, SAP, Cartesis, Systems Union/MIS AG, Oracle, Applix.
Чем отличается олап куб от таблицы город, время, товары, прибыль.
3. Понятие гипертекста и гипертекстовые технологии. Дескрипторная классификация документов (списки ключевых слов, понятий, поисковые запросы как основа классификации, электронное рубрицирование, «истинная» электронная классификация). Фактографические БД.
Гипертекстовая технология – это технология представления неструктурированной свободно наращиваемой информации. Этим она отличается от других технологий, где создаются модели структурирования данных, например, в базах данных. Вместо поиска информации по ключу (например, по запросу в базах данных) гипертекстовая технология предлагает перемещение по ключу от одних объектов информации к другим с учетом их смысловой, семантической близости.
Гипертекстовая технология ориентирована на обработку информации не вместо человека, а вместе с человеком, т. е. становится авторской. Удобство ее использования состоит в том, что пользователь сам определяет подход к изучению или созданию материала с учетом своих индивидуальных способностей, знаний, уровня квалификации и подготовки. Гипертекст содержит не только информацию, но и аппарат ее эффективного поиска для перемещения.
Структурно гипертекст состоит из информационного материала, тезауруса гипертекста, списка главных тем и алфавитного словаря.
Информационный материал подразделяется на информационные статьи, состоящие из заголовка статьи и текста. Информационная статья может представлять собой файл, закладку в тексте, web-страницу. Заголовок (имя файла) – это название темы или наименование описываемого в информационной статье понятия.
Тезаурус гипертекста - это автоматизированный словарь, отображающий семантические отношения между информационными статьями и предназначенный для поиска слов по их смысловому содержанию. Тезаурус гипертекста состоит из тезаурусных статей. Тезаурусная статья имеет заголовок и список заголовков родственных тезаурусных статей, где указаны тип родства и заголовки информационных статей. Заголовок тезаурусной статьи совпадает с заголовком информационной статьи.
Формирование тезаурусных статей в соответствии с моделью гипертекста означает индексирование текста. Полнота связей, отражаемых в модели, и точность установления этих связей в тезаурусных статьях, в конечном итоге, определяют полноту и точность поиска информационной статьи гипертекста.
Список главных тем содержит заголовки информационных статей с организационными отношениями. Обычно он представляет собой меню, содержание книги, отчета или информационного материала.
Алфавитный словарь содержит перечень наименований всех информационных статей в алфавитном порядке. Он реализует организационные отношения.
Гипертексты, составленные вручную, используются давно. К ним относятся справочники, энциклопедии, а также словари, снабженные развитой системой ссылок.
Дескрипторная система классификации - система структурирования объектов информации для облегчения их дальнейшего использования с применением специальных меток-описателей - дескрипторов.
Короче говоря - раскладывание по папочкам на которых написано: "кот", "пес", "дом". Надо тебе найти что-то про котов черных по имени Вася. Открываешь папку "кот", находишь папку "цвет" и "имя", открываешь, находишь в них папку "черный" или "вася" соответственно и так далее.
Особенно широко дескрипторы используются в библиотечной системе поиска. Суть дескрипторного метода классификации заключается в следующем:
· отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;
· выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;
· создается словарь дескрипторов (пример), т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.
Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов: синонимические, указывающие некоторую совокупность ключевых слов как синонимы; родо-видовые, отражающие включение некоторого класса объектов в более представительный класс; ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.
Пример.
Синонимическая связь: студент - учащийся - обучаемый.
Родо-видовая связь: университет - факультет - кафедра.
Ассоциативная связь: студент - экзамен - профессор - аудитория
Современная компьютерная техника снимает ограничения по объёму каталогов и снижает трудоёмкость их составления. Поэтому получила распространение идея приписывать документам все ключевые слова, используемые в документе, и в электронном каталоге иметь инверсный файл записи адресов документов, использовавших каждое ключевое слово.
Под ключевыми словами в данном случае понимаются наиболее существенные для выражения содержания документа полнозначные слова и словосочетания, обладающие назывной (номинативной) функцией
Задачей систем автоматического (электронного) рубрицирования является разбиение поступающего потока текстов на тематические подпотоки в соответствии с заранее заданными рубриками.
Под рубрикатором понимается классификационная таблица иерархической классификации, содержащая полный перечень включенных в систему классов и предназначенная для систематизации информационных фондов, массивов и изданий, а также для поиска в них (ГОСТ 7.74-96).
Дата добавления: 2015-11-16; просмотров: 83 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Специальные программы лицензирования производителей ПО | | | Критерии оценки качества рубрицирования |