Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Морфологический (лексико-грамматический) анализ.

Читайте также:
  1. Анализ.
  2. Анализ.
  3. Конкурентный анализ. Модель 5 сил Портера.
  4. Корреляционный анализ.
  5. Межкультурный анализ. Стратегии международного маркетинга.
  6. Механизм принятия решений на рынке ценных бумаг. Фундаментальный и технический анализ.
  7. Модальный анализ.

Существуют четыре основных вида алгоритмов морфологического анализа:

  1. морфологический анализ со словарем основ;
  2. морфологический анализ методом логического умножения;
  3. морфологический анализ без словарей;
  4. морфологический анализ со словарем словоформ;

Применение первых двух способов в большинстве практических случаев более оправдано.

Морфологический анализ со словарем основ является наиболее распространенным способом анализа. Для его проведения требуется словарь основ слов и ряд вспомогательных таблиц. Основа – это неизменяемая часть слова, которая выражает его лексическое значение, то есть соотнесённость звуковой оболочки слова с соответствующими предметами или явлениями объективной действительности. Применительно к русскому языку основа – это часть слова без окончания. В английском языке основа слова, как правило, полностью совпадает с самим словом.
Если слово имеет несколько вариантов основ, то словарь, как правило, содержит все варианты. Обычно в этом случае один из вариантов основы помечается как основной, а другие варианты содержат ссылку на него. Это необходимо для дальнейшего семантического анализа, чтобы устранить различные смысловые трактовки для одного и того же слова. Дополнительные таблицы содержат, как правило, список возможные варианты изменяемых частей слов (в русском языке – окончаний) с соответствующими им значением грамматических признаков.
В общем случае производится поиск всего слова в словаре словоформ, если слово не найдено, от него отделяется последняя буква и производится повторный поиск. Так продолжается до тех пор, пока основа не будет найдена либо пока не останется букв. В случае удачного поиска из словаря извлекаются варианты частей речи, соответствующих этой основе. Затем производится поиск в таблице изменяемых частей слова. При этом пропускаются варианты соответствующие частям речи, к которым данная основа не может относиться. Таким образом, определяются грамматические признаки разбираемой словоформы. Впрочем тут возможно появление неоднозначности, о методах преодоления которой мы пока говорить не будем.

В основу метода морфологического анализа методом логического умножения положены положения формальной морфологии. Вводится понятие словарной функции – функции, определенной на словоформах, и сопоставляющей им некоторую информацию (последовательность нулей и единиц).
На предварительном этапе строится таблица в которой каждой возможной букве изменяемой части (с учетом позиции в этой самой изменяемой части) ставится в соответствие вектор нулей и единиц. Каждая из позиций такого вектора соответствует определенной комбинации грамматических признаков. Единица означает, что данная буква в данной позиции может соответствовать этой комбинации грамматических признаков, ноль – что не может.
На первом этапе этот метод также предполагает членение словоформы на основу и изменяемую часть. Далее по предварительно созданной таблице векторов каждой букве изменяемой части подбирается вектор. Далее над векторами производится операция логического умножения. Таким образом определяется возможная (возможные) комбинация (-ии) грамматических признаков.

Морфологический анализ без словарей также называется независимым анализом. Он проводится без использования словарей лишь с использованием таблицы аффиксов, списка слов-исключений и списка служебных неизменяемых слов (например, союзов, междометий, предлогов). Этот способ используется достаточно редко.

Также малооправданным представляется морфологический анализ со словарем словоформ, подразумевающий наличие словаря, содержащего список все возможных словоформ (например, все варианты сочетаний падежа и числа для каждого существительного) с соответствующими им грамматическими признаками. Кроме значительного роста словаря возникает еще одна проблема: в случае отсутствия словоформы в словаре мы не будем иметь о ней никаких грамматических признаков, что не позволит системе в дальнейшем оперировать неизвестным словом как частично известным, попытаться установить его смысл и т. д.

Стандартные списки окончаний русских слов для морфологического анализа представлены в следующих таблицах:

Списки окончаний существительных

Списки окончаний полных прилагательных и причастий

Списки окончаний кратких прилагательных и причастий

Списки окончаний глаголов

Для русского языка, как и для большинства синтетических языков, задача лексико-грамматического разбора решается довольно просто и почти стопроцентной точностью, благодаря их развитой морфологии. В аналитических языках, например английском, где широко представлена лексическая многозначность, простой алгоритм, сопоставляющий каждому слову в тексте наиболее вероятный для данного слова морфологический класс, дает лишь около 90% точности.
Для увеличения точности разбора используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах.
Алгоритмы, основанные на продукционных правилах, используют правила, которые строятся автоматически на основе некоторого корпуса текстов или создаются лингвистами. О продукционных правилах более подробно будет рассказано в главе 5 (?----проверить--------!!!!).

Вероятностно-статистические алгоритмы используют, в основном, два источника информации.

- Словарь словоформ, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут быть у данной словоформы. Для каждого лексико-грамматического класса указывается частота его встречаемости относительно других морфологических классов данной словоформы.
- Информация о встречаемости всех возможных последовательностей морфологических классов попарно, по тройкам, по четверкам и т.д. с относительной частотой такой пары (тройки, четверки,…).

Эта информация обрабатывается неким статистическим алгоритмом (например, на основе скрытых цепей Маркова) для нахождения наиболее вероятного лексико-грамматического класса для каждого слова в предложении.
Оба подхода дают примерно одинаковый результат на уровне 96-98 % точности.


Дата добавления: 2015-07-15; просмотров: 252 | Нарушение авторских прав


Читайте в этой же книге: Исчисление предикатов | Нейронные сети | Генетические алгоритмы | Тема 4. Языки искусственного интеллекта | Понятие о логическом программировании | Экспертные системы | Сущность проблемы обработки естественного языка | Распознавание языка | Семантический анализ. | Основные модели лингвистических систем. |
<== предыдущая страница | следующая страница ==>
Стратегия разбора и синтеза текстов в зависимости от типа языка.| Синтаксический анализ.

mybiblioteka.su - 2015-2024 год. (0.006 сек.)