Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Стратегия разбора и синтеза текстов в зависимости от типа языка.

Читайте также:
  1. F1x.2 Синдром зависимости.
  2. II. В зависимости от вида учитываемых в составе затрат ресурсов
  3. II. Общие требования и правила оформления текстов исследовательских работ.
  4. IV Разрешение космологической идеи о всеобщей зависимости явлений по их существованию вообще
  5. IV Расчет количеств исходных веществ, необходимых для синтеза
  6. Алгоритм синтеза счетчика
  7. Анаэробные пути ресинтеза АТФ

Для целей понимания и синтеза речи можно принять следующую типологию естественных языков.
Все языки можно разделить на аналитические и синтетические. В аналитических языках грамматические значения выражаются главным образом отдельными словами, в то время как в синтетических грамматические значения выражаются как правило аффиксами в составе словоформы.
Примером аналитического языка могут служить китайский и английский языки.
Практически все аналитические языки относятся также к изолирующим, так что понятия изолирующий язык и аналитический язык можно считать в этом смысле синонимами. Само понятие изолирующего языка означает отсутствие словоизменения и высокую грамматическую значимость порядка слов.
Синтетические языки можно разбить на флективные (фузионные) и агглютинативные.
Для флективных языков характерна многофункциональность грамматических морфем: одни и те же аффиксы могут служить для образования различных грамматических форм. В то же время одни и те же грамматические формы могут достигаться за счет использования разных аффиксов. Примерами флективных языков могут служить все славянские и балтийские языки, латынь.
Для агглютинативных языков характерна грамматическая однозначность аффиксов: один аффикс служит для образования одной грамматической формы. Одни и те же грамматические формы достигаются одними и теми же аффиксами. Примерами агглютинативных языков могут служить тюркские и финно-угорские языки, иврит.

Очевидно, что для аналитических языков этап морфологического разбора должен включать:

  1. Выделение внутри предложений отдельных слов.
  2. Определение грамматической формы для слов, значение которых не зависит от порядка слов в предложении (предлоги, союзы, часть местоимений и наречий) и набора всех грамматических форм для слов, зависимых от положения внутри предложения.
  3. Уточнение грамматической формы для слов, зависимых от положения внутри предложения, на основе этого самого положения.

Для синтетических языков морфологический разбор включает:

  1. Выделение внутри предложений отдельных словоформ.
  2. Определение всех вариантов комбинаций основ и аффиксов для каждой словоформы и, соответственно, вариантов грамматических форм.
  3. Устранение грамматической неоднозначности на основе комбинаторного словаря, содержащего все контексты употребления слов.

Этап синтаксического анализа простого предложения (в т.ч. в составе сложного) в системе MyLingvo начинается с поиска предиката – сказуемого. Если сказуемое является глаголом, то можно определить по словарю его валентность – то есть способность слова в данной грамматической форме сочетаться с другими элементами. У глагола значением валентности является количество типов актантов, которые он может присоединить. Например, у безличного глагола светает валентность нулевая, у непереходного глагола спать валентность 1 (на подлежащее), у глагола купить валентность 3 или 4 (кто, что, у кого; в ряде трактовок также — за сколько). Акта?нт в лингвистике — активный, значимый участник ситуации, речевая конструкция, заполняющая семантическую или синтаксическую валентность предиката. Актант, как правило, обязательно сопровождает предикат; его опущение возможно только в ограниченных случаях и подчиняется специальным правилам.
Заполнение актантов при анализе в аналитических и синтетических языках также имеет свои отличия.
В синтетических языках определяющим понятием является падеж (лат.casus). Основные падежи, встречающиеся в синтетических языках, и их семантическая трактовка отражена в таблице:

Наличие описания синтаксиса языка также необходимо на стадии синтеза. Это описание должно содержать информацию о типичном порядке слов в языке (см. ниже) и типичной грамматической форме, которой в данном языке передается некий элемент семантической структуры.
С точки зрения порядка слов в предложении языки могут быть разделены на основе базового порядка, в котором в предложении стоят подлежащее (Subject), сказуемое (англ. Verb) и прямое дополнение (Object) (в русском языке прямое дополнение выражается существительным или личным местоимением в винительном падеже без предлога).
Всего существует 6 возможных типов языков:

  1. SVO – Подлежащее Сказуемое Объект. Примеры: русский, английский, китайский.
  2. SOV – Подлежащее Объект Сказуемое. Примеры: все кавказские языки, японский, латынь.
  3. VSO – Сказуемое Субъект Объект.
  4. VOS – Сказуемое Объект Субъект.
  5. OSV – Объект Субъект Сказуемое.
  6. OVS – Объект Сказуемое Субъект.

Порядок слов может различаться в главном и придаточном предложениях в составе сложного, а также в вопросительных предложениях по отношению к повествовательным. Это также следует учитывать при синтезе текста. Кроме того следует учитывать следующие особенности:


Дата добавления: 2015-07-15; просмотров: 114 | Нарушение авторских прав


Читайте в этой же книге: Продукционные системы | Исчисление предикатов | Нейронные сети | Генетические алгоритмы | Тема 4. Языки искусственного интеллекта | Понятие о логическом программировании | Экспертные системы | Сущность проблемы обработки естественного языка | Распознавание языка | Семантический анализ. |
<== предыдущая страница | следующая страница ==>
Основные модели лингвистических систем.| Морфологический (лексико-грамматический) анализ.

mybiblioteka.su - 2015-2024 год. (0.009 сек.)