Аннотации на естественном языке

QA-система Start | Создание деревьев разбора из предложений | Лексические парсеры |

Читайте также:

Проблема машинного анализа естественной речи очень сложна. Поэтому разработчики вопросно-ответных систем предлагают решать эту проблему с двух сторон: с одной стороны, улучшать методы обработки естественных языков, обучая компьютер «понимать» язык, но, с другой стороны, постараться сделать текст боле понятным компьютерам. А именно, предлагается к информационным ресурсам составлять аннотации на естественных языках.

В таком случае возможно эффективно организовать поиск не только текстовой, но и различной мультимедиа информации: изображений, видео- и аудиозаписей. В системе Start аннотации используются следующим образом: при добавлении информации в Базу Знаний Парсер обрабатывает лишь её аннотацию, и к сгенерированным Т-выражениям прикрепляет ссылку на исходный ресурс.

Внедрение аннотаций происходит через RDF-описания (Resource Description Framework), которые прикрепляются к каждому ресурсу. Язык RDF основан на формате XML. Описание этого языка достаточно объемно, поэтому мы лишь ограничимся примером RDF-описания некоторой базы, в которой хранится географическая информация. К этой базе прикрепляются параметризованные аннотации "Many people live in? s " и "population of? s ", и шаблон ответа: "The population of ?s is ?o ", где ?o обозначает обращение к базе и извлечение свойства population у объекта ?s. При обработке такой аннотации Парсер сохранит 2 шаблона вопроса и ссылку на шаблон ответ. Если при выполнении запроса пользователя Start найдёт совпадение в Базе Знаний с шаблоном вопроса, то произойдёт обращение к внешнему ресурсу, из которого была взята аннотация, и будет сгенерирован соответствующий ответ.

Кроме того, используя параметризованные аннотации можно описывать схему поиска ответа на целый класс вопросов. Например, вопросы вида “What is the country in Africa with the largest area?” или “What country in Europe has the lowest infant mortality rate?” попадают под один шаблон: “What country in $ region has the largest $ attribute ”. Далее, в аннотации описывается общий алгоритм поиска ответа на подобные вопросы.

Некоторые вопросы являются композицией нескольких вопросов. Например, для ответа на вопрос “Is Canada’s coastline longer than Russia’s coastline?” необходимо, во-первых, вычислить длину береговой линии Канады и России, а во-вторых, сравнить полученные значения и сгенерировать ответ. Поэтому для такого рода вопросов можно описать план поиска ответа, в котором будут задаваться вспомогательные вопросы.

Заключение

Вопросно-ответная система Start использует дифференцированный подход к поиску ответов в зависимости от вида вопроса. Это даёт относительно хороший результат для большого числа общих вопросов.

Используемые в качестве основы База Знаний и тернарные выражения являются удачной моделью представления информации, которая, с одной стороны, в некоторой степени сохраняет семантические связи между словами, а с другой стороны, является достаточно простой для эффективной реализации поиска и редактирования Базы.

С помощью аннотаций можно организовать программный доступ к информационным ресурсам Интернет с использованием универсального естественно-языкового интерфейса. А использование дополнительных структур, таких как Omnibase, позволяет повысить эффективность поиска ответов на некоторые специфические виды вопросов.

И, наконец, различные словари и лингвистические модули в некоторой степени моделировать семантические особенности естественного языка и обрабатывать более сложные запросы. Задача составления таких словарей, равно как и другие проблемы, связанные с разработкой вопросно-ответных систем, неизбежно требует привлечения как специалистов не только в области computer science, но и лингвистов и филологов.

Дата добавления: 2015-11-16; просмотров: 65 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Тернарные выражения	\|	Определение частей речи для слов в предложениях

mybiblioteka.su - 2015-2024 год. (0.006 сек.)