Распознавание языка

Читайте также:

По мере развития компьютерных систем становится все более очевидным, что использование этих систем намного расширится, если станет возможным использование человеческого языка при работе непосредственно с компьютером, и в частности станет возможным управление машиной обычным голосом в реальном времени, а также введение и вывод информации в виде обычного человеческого языка.

Существующие технологии распознавания языка не имеют пока достаточных возможностей для их широкого использования, но на данном этапе исследований проводится интенсивный поиск возможностей применения коротких многозначных слов (процедур) для облегчения понимания. Распознавание языка в это время нашло реальное приложение в жизни, по-видимому, только в тех случаях, когда используемый словарь сокращен до 10 знаков, например при обработке номеров кредитных карт и других кодов доступа к базированным на компьютерах системам, которые обрабатывают переданные по телефону данные. Так что насущное задание - распознавание, по крайней мере, 20 тысяч слов естественного языка - остается пока недосягаемым. Эти возможности пока недоступны для широкого коммерческого использования. Однако ряд компаний самостоятельно пытается использовать уже существующие в данной отрасли науки знания.

Для успешного распознавания языка стоит решить следующие задания:

§ обработку словаря (фонемный состав)

§ обработку синтаксиса

§ сокращение языка (включая возможное использование твердых сценариев)

§ выбор диктора (включая возраст, пол, родной язык и диалект), тренировки дикторов

§ выбор особенного вида микрофона (принимая во внимание направленность и место расположения микрофона)

§ условия работы системы и получения результата с указанием ошибок.

Существующие сегодня системы распознавания языка основываются на сборе всей доступной (временами даже избыточной) информации, необходимой для распознавания слов. Исследователи считают, что таким способом задание распознавание образца языка, основанное на качестве сигнала, подданного, изменениям, будет достаточным для распознавания, но, однако, в это время даже при распознавании небольших сообщений нормального языка, пока невозможно после получения разнообразных реальных сигналов осуществить прямую трансформацию в лингвистические символы, которые являются желаемым результатом.

Дальше перейдем к рассмотрению естественного языка, знания, в более широкой перспективе. Коснемся философских проблем, связанных с ней. Рассмотрим современные направления науки, которые касаются естественного языка, и в то же время могут быть использованные для формирования концепции для представления знаний в системе искусственного интеллекта для целей образования.

Пониманием и синтезом текста на естественном языке занимается дисциплина, именуемая обработкой естественного языка (Natural Language Processing, NLP).
Она является частью таких направления научных исследований как искусственный интеллект и компьютерная лингвистика.
Понимание применительно к человеку характеризуется как некое субъективное состояние: если человек чувствует, что он понял нечто, то считается, что это так и есть. Применительно к компьютеру такая характеристика понимания не может быть признана приемлемой: нам нужны четкие и точно фиксируемые признаки того, что система поняла что-либо. В общем случае, впрочем, достаточно, чтобы воспринятая информация влияла не просто на объем накопленных знаний, но и изменяла алгоритм принятия решений или вносила изменение в структуру ранее полученных знаний – именно в этом случае мы имеем право сказать, что система нас поняла (в том числе, может быть, и неправильно). То есть близким по смыслу к пониманию словом применительно к компьютеру будет «усвоение».
Естественный язык в отличие, например, от компьютерных (алгоритмических) языков формировался во многом стихийно, не формализовано. Это обуславливает целый ряд сложностей в понимании текста, вызванных, например неоднозначным толкованием одних и тех же слов в зависимости от контекста, который может быть и неизвлекаем в принципе из самого текста. Следовательно, этот контекст или знание о предметной области в систему должны быть заранее внесены. К тому же зачастую практические задачи требуют точного определения времени, места того, что описано в тексте, точной идентификации людей и т.д., в то время как подобная информация находится за пределами данного текста. В этом случае система может как не обрабатывать эту информацию, так и оставить ее до выяснения контекста и даже попытаться проявить инициативу в выяснении контекста, например, в диалоге с оператором, задающим ввод текста. То, как ведет себя система в подобной ситуации, определяется стилем и схемой работы системы.
Основные проблемы понимания текста таковы:

Уже упомянутое знание системой контекста и проблемной области и обучение этому системы. Например, из предложения «мужчина вошел в дом с красным портфелем» можно извлечь как представление о мужчине с красным портфелем, так и о доме с красным портфелем, если заранее не иметь в виду, что применительно к мужчинам употребление принадлежности портфеля гораздо вероятнее, чем применительно к дому.
Различная форма передачи синтаксиса (то есть структуры) предложения в разных языках. Например, если синтаксическая роль слова (подлежащее, сказуемое, определение и т.д.) в английской речи во многом определяется положением слова в предложении относительно других слов, то в русском предложении существует свободный порядок слов и для выявления синтаксической роли слова служат его морфологические признаки (например, окончания слов), служебные слова и знаки препинания.
Проблема равнозначности. Предложения «длинноухий грызун бросился от меня наутек» и «заяц бросился от меня наутек» могут означать одно и то же, но могут иметь и разный смысл, например, если в первом случае имелся в виду длинноухий тушканчик.
Наличие в тексте новых для компьютера слов, например неологизмов. Самообучаемая система должна уметь «интуитивно» определить (возможно и неправильно, но с возможность в дальнейшем исправить себя) лексическую роль, морфологическую форму этого слова, попробовать вписать его в существующую структуру знаний, наделить его какими-то атрибутами или выяснить все это в диалоге с оператором.. Несамообучаемая система просто потеряет какое-то количество информации. К слову, люди ведут себя в подобных случаях и как самообучаемые и как несамообучаемые, а порой и вообще как необучаемые системы.
Проблема совместимости новой информации с уже накопленными знаниями. Новая информация может каким-то образом противоречить уже накопленной информации. Необходимо реализовать механизм, определяющий, в каких случаях нужно отвергнуть старую информацию, а в каких – новую.
Проблема временных противоречий. Так в предложении «я думал, что сверну горы» глагол в прошедшей форме «думал» сочетается с глаголом будущего времени «сверну».
Проблема эллипсов, то есть предложений с пропущенными фактически, но существующими неявно благодаря контексту словами. Например, в предложении «я передам пакет тебе, а ты – Ивану Петровичу» во второй части опущен глагол «передашь» и существительное «пакет». Но любому понятно, что Ивану Петровичу нужно передать пакет, а не дать, например, в ухо.

Системы, направленные на извлечение знаний из текстов на естественных языках (то есть на таких языках, на которых общаются люди в отличие, например, от алгоритмических языков), а также на синтез естественноязыкового текста на основе знаний называются лингвистическими трансляторами или лингвистическими процессорами.
Подобные системы могут интегрироваться с экспертными системами, то есть системами, служащими для того, чтобы заменять человека-эксперта в какой-либо области, например медицинская диагностика, юридическое консультирование, бизнес-планирование, диагностика различных технических неисправностей и многих других. В этом случае экспертная система с одной стороны имеет возможность высокоэффективно обучаться, накапливать новые знания, а с другой стороны, способна выдавать информацию пользователю в максимально удобной форме.
Кроме того, лингвистический процессор может быть интегрирован с системой распознавания и (или) синтеза речи, что может сделать процесс общения с компьютером максимально удобным, а следовательно и продуктивным.
Одной из наиболее очевидных направлений применения лингвистических процессоров является машинный перевод с одного естественного языка (ЕЯ) на другой.
Также подобные системы могут использоваться и используются для автоматического пополнения информационных баз и баз знаний (т.н. «data mining») в том числе путем сканирования Интернета.
Существует класс задач, относящийся к области, именуемой «планирование текста» («text planning») – порождение текстов-отчетов на естественном языке (ЕЯ) на основе некоторой информационной базы, базы знаний или процессов происходящих в некой системе.
В общем виде структура работы лингвистического процессора, ориентированного на формирование базы знаний и извлечение из нее информации, может быть представлена в виде следующей схемы:

Здесь и далее ЕЯ- естественный язык, БЗ – база знаний. Кроме указанного на схеме в состав лингвистического процессора должна быть включена подсистема первоначального или постоянного обучения (например, ввод словаря лексем и их морфологических признаков, ввод первоначальных данных о проблемной области – «априорных» знаний).
Этап работы системы, включающий формирование знаний и, возможно, формирование запросов к базе знаний, называется проблемным анализом.

В случае, если лингвистический процессор ориентирован только на машинный перевод с одного ЕЯ на другой, его схема может быть более простой:

Или даже такой

Впрочем, второй вариант значительно хуже.

На каждом из этапов работы процессора(морфологический, синтаксический, семантический, проблемный анализ) вырабатываются определенные структуры: морфологическая, синтаксическая, семантическая и структура базы знаний.
Кроме того, на каждом из этапов используются различные дополнительные структуры данных и элементы баз данных. Так на этапе морфологического анализа необходим морфологический словарь конкретного ЕЯ, в машинном переводе используются комбинаторные словари (например, англо-русский, русско-английский). Чтобы сделать систему универсальной по отношению к различным ЕЯ и различным предметным областям могут использоваться структуры специального вида, описывающие конкретную синтаксическую систему, семантическую систему и проблемную область. Эти структуры могут представлять из себя текст программ на специальном языке, описывающем с одной стороны структуру синтаксиса, семантики или проблемной области, а с другой стороны -

Введем некоторые основные понятия.
Дискурс – связный текст.
Предложение - единица речи, состоящая из некоторого числа связанных слов и содержащая сообщение о чем-либо.
Словосочетание - единица речи, состоящая из двух или нескольких слов, связанных подчинительной связью (согласованием, управлением или примыканием) и не являющаяся сообщением.
Слово – основная единица речи, служащая для обозначения предметов (в т.ч. одушевленных), действий, свойств предметов и т.д.
Лексема – слово в совокупности всех его возможных сочетаний (например, «корова», «коровы», «корове» и т.д. – все это одна лексема).
Словоформа – слово как конкретное сочетание звуков (то есть, «корова», «коровы», «корове» и т.д. – все это разные словоформы).
Морфема (часть слова) - наименьшая языковая единица, обладающая значением. Деление морфем на части приводит только к выделению незначимых элементов — фонем (звуков). Морфемы делятся на корни и аффиксы, аффиксы – в свою очередь подразделяются на префиксы(приставки), суффиксы и постфиксы (окончания).
В большинстве концепций морфема рассматривается как абстрактная языковая единица.
Конкретная реализация морфемы в тексте называется морфой или (чаще) морфом.
При этом морфы, представляющие одну и ту же морфему, могут иметь различный фонетический облик в зависимости от своего окружения внутри словоформы. Совокупность морфов одной морфемы, имеющих одинаковый фонемный состав, носит название алломорф (например корни «бег-» и «беж-» являются алломорфами).
Представляется, что морфему-корень можно представлять как совокупность всех вариантов данного корня, а о морфах говорить как о конкретных корнях.
Корень – основная значимая часть слова. Является обязательной частью любого слова - без корней слов не существует.
Аффикс – вспомогательная часть слова, присоединяемая к корню и служащая для словообразования и выражения грамматического значения. Аффиксы не могут самостоятельно, без корня, образовывать слово. Одинаковые аффиксы встрчаются в разных словах.
Синонимы – разные по написанию, но одинаковые по значению, слова (например, «железо» и «булат»).
Омонимы – слова, имеющие одинаковое написание, но разное значение (например, «пол» в значении части помещения и в значении принадлежности к тому или иному способу продолжения рода).

Рассмотрим в общих чертах содержание каждого из этапов работы лингвистического транслятора.

Дата добавления: 2015-07-15; просмотров: 139 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Сущность проблемы обработки естественного языка	\|	Семантический анализ.

mybiblioteka.su - 2015-2025 год. (0.008 сек.)