Реализация семантического анализа в системе ДИАЛИНГ
Основой семантического анализатора в системе ДИАЛИНГ является Русский семантический словарь (РОСС), созданный коллективом под руководством Н.Н. Леонтьевой. Этот же словарь использовался в системе ПОЛИТЕКСТ и системе французско-русского перевода ФРАП.
Структура словаря содержит следующие поля.
- Лексема;
- Категория лексемы;
- Семантический класс лексемы;
- Грамматический класс лексемы;
- Валентная структура лексемы;
- Семантические и грамматические ограничения на выражение каждого актанта из валентной структуры;
- Английские эквиваленты лексемы;
Категории лексем, представленных в словаре, следующие:
- ЭТК.ОБ – слова, обозначающие предмет или одушевленное лицо (например, молоток, директор).
- ЭТК.СИТ – слова, обозначающие действие, явление, ситуацию или процесс(например, дегенерация).
- ЭТК – слова, для которых затруднительно указать, к какой из категорий 1) или 2) оно относится.
- ОТН – слова, обозначающие семантические отношения (например, признак, часть).
- ОПЕР – слова, не имеющие собственного смысла, но модифицирующие смысл других слов (например, еще, уже, не).
Семантический класс лексемы определяется набором семантических характеристик (СХ). Из СХ строятся формулы при помощи логических связок И, ИЛИ. Каждому слову ставится в соответствие некоторая такая формула. Используются следующие типы СХ:
- АБСТР – любое абстрактное существительное или прилагательное
- АРТ – артефакт, все, что сделано человеком.
- ВЕЛИЧ – прилагательные, относящиеся к какой-либо количественной характеристике (сильный, низкий)
- ВЕЩВО – вещество.
- ВЛАСТЬ – государственные учреждения и должности.
- ВМЕСТЛ – любая тара.
- ВОСПР – все глаголы и существительные, относящиеся к чувствам и ощущениям (видеть, слышать).
- ВРЕД – нежелательный результат чего-либо.
- ГЕОГР – географический объект.
- ГОС – государство.
- ДВИЖ – глаголы движения (идти, ехать, кидать).
- ДОЛЖ – должность, профессия.
- Д-УСТР – деталь устройства.
- ИЗМ – действия, изменяющие что-либо (увеличивать, резать).
- ИНТЕЛ – действия, связанные с интеллектуальной деятельностью (думать, решать).
- ИНТРВЛ – временной интервал (месяц, год, день).
- ИНФ – информация (знание, команда, сообщение).
- КОМУНИК – глаголы коммуникации (говорить, выступать).
- НОСИНФ – носитель информации.
- Н-ТРЕБ – набор требований (закон, правила).
- ОДЕЯТ – область деятельности (спорт, наука, культура, промышленность).
- ОДУШ – одушевленный объект (человек, начальник).
- ОРГ – организация.
- ПРЕДМ – любой предмет (нечто, меньшее человека по размеру).
- ПРОТЯЖ – протяженные объекты (река, дорога, граница).
- СОЦ – общественные явления, ситуации, события.
- УСТР – устройство.
- ФИН – финансы.
- ХОР – все, что оценивается положительно.
- ЭМОЦ – прилагательные, выражающие эмоции (счастливый, несчастный, грустный).
- ЯВЛЕН – ситуация с неявной причиной (ураган, похолодание).
Кроме того, при записи формул применяются три операторные характеристики:
- СОБИР – множество однотипных объектов. Например: СХ(народ)=СОБИР,ОДУШ.
- ОТСУТ – отрицание наличия чего-либо. Например: СХ(стоять)=ОТСУТ,ДВИЖ.
- КАУЗ – каузация (быть причиной чего-либо).
В системе применяется следующая система семантических отношений, многие из которых аналогичны применяемым в других системах.
Дата добавления: 2015-07-15; просмотров: 70 | Нарушение авторских прав
Читайте в этой же книге: Распознавание языка | Семантический анализ. | Основные модели лингвистических систем. | Стратегия разбора и синтеза текстов в зависимости от типа языка. | Морфологический (лексико-грамматический) анализ. | Синтаксический анализ. | Модели, основанные на Link Grammar. | Модели, использующие структуры уровня именных и глагольных групп. | Лингвистический процессор Ю.Д. Апресяна, И.М. Богуславского и Л.Л. Иомдина. | Предикаты моделей управления; |
mybiblioteka.su - 2015-2024 год. (0.006 сек.)