Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

ВВЕДЕНИЕ. Актуальность проблемы

Читайте также:
  1. I. Введение
  2. I. Введение
  3. I. Введение
  4. I. Введение
  5. I. ВВЕДЕНИЕ
  6. I. ВВЕДЕНИЕ
  7. I. Введение в дисциплину

Актуальность проблемы

В связи с проникновением компьютерной техники во все сферы человеческой деятельности, когда большая часть населения развитых стран общается с программным обеспечением, решая все более сложные задачи, остро встает проблема перехода от визуального и командного интерфейсов к построению интерфейсов программных систем на естественном языке.

Задача моделирования естественного языка является наиболее важной составляющей проблемы создания естественно-языковых (ЕЯ) интерфейсов. Ее решение включает как анализ фраз на естественном языке, так и генерацию текстов.

Главным инструментом для решения проблем анализа и порождения фраз и текстов является формализация семантики языка. Для построения естественно-языковых интерфейсов необходимо опираться на формальное описание семантики (системы смысла) единиц естественного языка. Таким образом, смысловая классификация единиц языка является актуальной задачей, определяющей успешность формализации смысла языка в приложении к взаимодействию программного обеспечения с пользователем. Классификация множества грамматически и семантически корректных фраз должна основываться на классификациях слов-понятий и сем языка. Успех описания семантики определяется степенью простоты и полноты лингвистической классификации слов и выражений языка. Сопоставление каждой единице языка или группе единиц соответствующей логико-математической формулы, описывающей их семантику, также является актуальной задачей, поскольку такое формальное описание дает возможность задавать лингвистические объекты с использованием математического аппарата, а также описывать их поведение на уровне программных алгоритмов. Предложенные в работе модели позволяют формализовать такие лингвистические представления, которые ранее не получили строгого математического обоснования, но могут быть полезны для порождения семантически корректных фраз в рамках построения систем общения с программным обеспечением на естественном языке.

Методы оперирования естественным языком находят применение в системах машинного перевода, в системах поиска и обмена информацией, реферировании текстов, экспертных системах и других актуальных программных приложениях.

 

Цель диссертационной работы

Цель диссертационной работы состоит в создании методов смыслового анализа и порождения фраз и текстов естественного языка на основе авторской семантической классификации слов и понятий, а также в их программной реализации для создания основных элементов естественно-языковых пользовательских интерфейсов программных систем.

 

Задачи диссертационной работы

Проблема построения естественно-языковых интерфейсов в работе рассматривается с точки зрения построения семантико-лингвистической модели и применения средств визуализации структуры естественного языка. Система визуализации основана на классификации единиц языка разных уровней. В свою очередь, построение на ее основе множества подстановочных таблиц позволяет реализовать алгоритмы генерации осмысленных высказываний. Множество подстановочных таблиц может быть положено в основу классификации более высокого уровня, чем классификация слов, – классификации высказываний. Для обеспечения единообразного доступа к элементам этих классификаций представляется необходимым сопоставить множеству языковых единиц одного уровня единую формулу, которая строится на основе общего для данного множества единиц вектора семантических признаков, однозначно задающего классификацию языковых единиц данного уровня.

В работе ставятся и решаются следующие основные задачи:

Определение вектора семантической классификации для единиц естественного языка – слов и понятий.

Разработка метода классификации слов и понятий языка на основе вектора семантической классификации, определяющего положение слов в понятийном пространстве.

Разработка словаря-классификации языковых единиц английского языка (более 10 тысяч слов).

Разработка оригинальных алгоритмов анализа и синтеза фраз естественного языка на основе подстановочных таблиц словаря.

Реализация программного обеспечения для моделирования основных элементов естественно-языкового интерфейса, визуализирующего структуру парадигматических и синтагматических отношений естественного языка.

В рамках алгоритмической и программной реализации предложенной модели решаются следующие функциональные задачи.

Выполнение морфологического анализа и синтеза словоформ английского языка.

Реализация автоматической генерации транскрипции для испанского и немецкого языков на основе написания слов.

Реализация словаря-классификации слов и понятий естественного языка (английского, русского и др.).

Разработка программной системы генерации подстановочных таблиц.

Построение обучающих систем для проверки знания слов посредством генерации осмысленной речи.

Создание шаблонов составления писем на незнакомом языке.

 

Методы исследований

В работе используются методы компонентного анализа, математической лингвистики, аппарат порождающих грамматик, методология классификации семантических объектов, методы построения интеллектуальных систем и программного интерфейса.

 

Основная идея работы

Предлагается оригинальный принцип построения формальных определений смысловых единиц языка и естественного языка в целом, как единой системы описываемых друг через друга понятий.

Предполагается, что главным средством генерации осмысленных единиц языка при построении естественно-языковых интерфейсов является построение лингвистической классификации. Для этой цели исследуются предположения:

об атомарном строении смысла и последовательном сведении значения языковых единиц к «кванту» смысла;

об определении лингвистической классификации посредством вектора семантических признаков;

о наследовании смысловых единиц классификаций низкого уровня классификациями более высоких уровней в системе классификаций естественного языка.

Предложенная лингвистическая классификация используется для построения естественно-языковых интерфейсов. Построен словарь-классификация слов и понятий на основе заданного вектора признаков. Предложен способ построения подстановочных таблиц на основе предлагаемой классификации. Выполнена программная реализация алгоритмов обработки и генерации текстовой информации на основе базы данных подстановочных таблиц. Построение «табличного» естественно-языкового интерфейса осуществляется посредством визуализации структуры естественного языка в виде иерархии подстановочных таблиц.

 

Новые научные результаты, полученные в работе

В работе предлагается оригинальный метод классификации слов и понятий языка на основе определения вектора расположения слова в понятийном пространстве. Словарь-классификация языковых единиц английского языка является одновременно не имеющим близких аналогов словарем генерации подстановочных таблиц. Предлагаемый словарь позволяет на качественно новом уровне формально описывать подмножества естественного языка, связанные общей темой. Впервые это дает возможность полуавтоматически генерировать подстановочные таблицы, как модели подмножеств языка, на основе фрагментов общего для слов языка понятийного пространства. Построены оригинальные порождающие грамматики для задания элементов вектора классификации. В предлагаемой работе впервые в качестве средства генерации фраз для естественно-языкового интерфейса рассматриваются подстановочные таблицы. Реализовано оригинальное программное обеспечение для моделирования работы базовых составляющих естественно-языковых интерфейсов.

 

Положения, выдвигаемые на защиту

Предложен оригинальный метод классификации слов и понятий языка на основе определения вектора расположения слова в понятийном пространстве.

Разработан словарь-классификация языковых единиц английского языка (более 10 тысяч слов).

Разработаны оригинальные алгоритмы анализа и синтеза фраз естественного языка на основе подстановочных таблиц словаря.

Реализовано программное обеспечение для моделирования основных элементов естественно-языковых интерфейсов.

 

Практическая значимость

Генерация осмысленной письменной речи – одна из сфер приложения рассматриваемой теории с целью построения ясных и понятных пользователю систем взаимодействия с программным обеспечением. Предложенные методики должны в перспективе позволить генерировать и анализировать речь различной степени осмысленности, представлять информацию, выделенную из речи в виде данных когнитивной классификации, и тем самым обеспечить основы для создания естественно-языковых интерфейсов между человеком и машиной. Представленная система используется в работе программы «Электронный разговорник» для построения текстов на незнакомом языке и автоматической генерации письменной речи на английском языке.

Большинство теоретических результатов работы используется в сфере обучения иностранным языкам (английский, испанский), как самим автором, так и другими профессиональными преподавателями. Практически используется метод построения фраз на незнакомом языке на основе авторского словаря, позволяющего генерировать подстановочные таблицы, используемые далее для генерации осмысленной речи.

В перспективе полученные результаты могут быть использованы для создания автоматических систем перевода и реферирования текстов с последующим хранением, поиском и извлечением нужной информации. Это связано с тем, что в рамках предлагаемого подхода классифицируются не только слова языка, но и когнитивные факты. Предлагаемая классификация слов может служить инструментом для удаления из текста семантического шума и представления предложений в приведенном виде, что может практически использоваться в системах машинного перевода.

 

Достоверность и обоснованность

Достоверность и обоснованность результатов диссертации определяются:

Сопоставлением основных положений работы с решением аналогичных задач другими исследователями.

Построением реальных авторских классификаций сем, слов и предложений естественного языка.

Практической апробацией программных продуктов для полуавтоматической и автоматической генерации осмысленной речи, в том числе на незнакомом языке.

Практическим использованием авторского пособия по составлению фраз на незнакомом языке – словаря-разговорника.

 

Личный вклад автора

Все основные теоретические и практические результаты, изложенные в работе, получены непосредственно автором. В частности, предложен оригинальный метод практического представления семантики произвольных единиц языка, а также системы их классификаций. Метод основан на определении системы векторов семантических признаков, в частности, классификации слов и понятий естественного языка. Разработаны алгоритмы порождения естественного языка на основе предложенной классификации. Иллюстрируются алгоритмы и методы построения основных элементов естественно-языкового интерфейса на основе предложенной модели языка.

 

Апробация работы

Полученные результаты представлены на семинарах ИВМ СО РАН (2000-2003 гг.); на всероссийских семинарах «Вопросы теории и практики перевода», Пензенский государственный педагогический университет (Пенза, февраль 2002 и февраль 2003); на конференции молодых ученых ИВМ СО РАН (Красноярск, апрель 2002); всероссийской конференции «Вопросы теории и практики перевода», Сибирский технологический университет (Красноярск, март 2002); на специальном семинаре для преподавателей английского языка в Красноярском государственном педагогическом университете (Красноярск, апрель 2003).

Публикации

По теме диссертации опубликовано 8 работ, в том числе словарь-классификация слов и понятий английского языка «Комбинаторный разговорник».

Структура и объем работы

Диссертация состоит из введения, 4 глав, заключения и списка использованных источников. Основное содержание работы изложено на 151 странице текста, содержит 6 рисунков, 21 таблицу. Список используемых источников включает 97 наименований.

Основное содержание работы

Во введении дана краткая постановка задачи, обоснована актуальность темы диссертационной работы, даны постановка проблемы и краткое описание содержания диссертации. В первой главе представлено обоснование темы и задач диссертационной работы. Показана актуальность исследований в области формализации языка, а именно, его семантики, для построения систем анализа и синтеза речи. Эти исследования могут быть применены для создания естественно-языковых интерфейсов при решении таких задач как:

создание семантически ориентированных систем перевода;

создание систем автоматического реферирования, сортировки, хранения, поиска и представления информации;

обучение иностранным языкам и неязыковым дисциплинам с использованием программного обеспечения с естественно-языковым интерфейсом.

Также в первой главе выполнен сравнительный анализ существующих подходов и методов анализа семантики языка. Показано, что несмотря на наличие самых глубоких исследований языка в самых различных его аспектах, в настоящее время отсутствует единая теория семантики языка, которая бы представила множество всех единиц языка как один объект - множество классификаций со своими свойствами и единообразным доступом к любому его элементу. Это объясняет оторванность многих глубоких исследований семантической структуры единиц языка от программной реализации, обеспечивающей простой и ясный естественно-языковой интерфейс. Исследована проблема построения семантических классификаций и анализа структуры слова. Показано, что на сегодня не были сформулированы принципы построения произвольных понятий и не создана их единая классификация по универсальным признакам, актуальна проблема построения и множества семантических классификаций – от текстов и слов вплоть до сем и единого кванта смысла. Такой подход позволит релизовать представление достаточно больших пластов лексики в визуальной форме во взаимодействии «программное обеспечение – пользователь». В заключении первой главы сформулированы задачи диссертационной работы.

Во второй главе излагаются общие принципы построения классификаций слов и высказываний естественного языка. Показано, что любому понятию естественного языка сопоставляется смысловое определение на основе общего для единиц одной классификации вектора признаков, где каждое слово однозначно определяется комбинацией значений элементов этого вектора. Множество объектов, отношений и их отрицаний составляют формальную систему смыслового определения любого слова. При этом для всех единиц языка в рамках одной классификации можно получить единую формулу объектов и отношений, общую для всех слов языка, где каждое слово отличается от всех остальных уникальным набором отрицаний (или утверждений) внутренних семантических объектов или отношений. Последовательность отрицаний задает вектор семантических признаков, описывающих основное семантическое значение любого слова. Вектор семантических признаков однозначно задает классификацию любых языковых единиц, которая может быть представлена либо в виде многомерного куба, либо в форме дерева классификации с одним классификационным признаком на каждом уровне. В этой же главе показано, что изменение последовательности составляющих вектора дает различные древообразные классификации, которые можно представить в форме различных словарей: словаря гиперонимов (общих и частных значений слов), словаря ассоциаций, комбинаторных словарей и т. д. Показано также, что для каждого уровня языка определяется своя семантическая классификация, свой семантический вектор и своя семантическая формула. Вместе они образуют последовательности классификаций, векторов и формул разного уровня. Во второй главе указывается на то, что представление классификаций в форме упорядоченного множества открывает большие перспективы в создании интерфейсов для решения задач построения фраз на незнакомом языке, поиска информации в базах данных и осуществления машинного перевода на основе представления высказываний в приведенном виде и использования подстановочных таблиц для обеспечения осмысленности фраз.

В третьей главе показывается практическая осуществимость построения предложенного вектора классификации и выявляется диапазон его значений. Показана возможность задавать значения вектора признаков, определяющих понятийное пространство, включающее любые слова естественного языка. Представленный в работе словарь на 10.000 слов английского языка сопоставляет словам понятия естественного языка. Этот результат дает возможность оперировать осмысленными подмножествами понятийного пространства слов и понятий языка и представлять подмножества слов в рамках естественно-языкового интерфейса для эффективного взаимодействия программ с пользователем. В главе третьей указывается на то, что такого рода интерфейс может явиться посредником между естественным языком общения людей и языком команд и запросов в программных системах. Можно комбинировать группы слов в подстановочные таблицы, позволяющие порождать осмысленные фразы языка. В этой же главе показывается, что подстановочные таблицы служат основой для построения простых и эффективных естественно-языковых интерфейсов, где выбор конкретной фразы языка доступен как компьютеру, так и пользователю, в результате чего достигается соответствие внутренней структуры данных, алгоритмов порождения языка и доступа к данным через естественно-языковой интерфейс.

В четвертой главе дано описание программного обеспечения для моделирования «табличного» естественно-языкового интерфейса. Дано описание и характеристики системы «Электронный словарь», предназначенной для электронного представления слов языка в виде семантической классификации. Иллюстрируются реализованные в этой системе алгоритмы составления и редактирования подстановочных таблиц и подбора материалов для урока английского языка. Предлагаемая программа прошла апробацию на уроках английского языка. К работе прилагается акт о внедрении программы в работу Образовательным центром «Аспект». В четвертой главе также описывается разработанная на базе классификации слов языка система «Электронный разговорник». Система использует подстановочные таблицы, генерируемые программой «Электронный словарь». Электронный разговорник позволяет автоматически генерировать семантически осмысленные фразы английского языка, что может быть использовано для тренировки понимания фраз английского языка учеником в некоторой речевой ситуации. Программа «Электронный разговорник» позволяет составлять предложения на незнакомом языке полуавтоматически на основе введенных в программу шаблонов – подстановочных таблиц, при этом налагается запрет на генерацию семантически бессмысленных фраз. Разговорник предназначен также для экспериментального моделирования и исследования сочетаемости фраз, взятых из последовательности подстановочных таблиц, в целях автоматической генерации не только осмысленных предложений, но и осмысленных текстов языка. Программа «Электронный разговорник» используется учащимися для закрепления знаний лексики английского языка.

В заключении перечислены результаты диссертационной работы, показаны дальнейшие направления исследования, сформулированы основные выводы.

В приложении приводятся примеры подстановочных таблиц, позволяющих генерировать осмысленные фразы в приложении к построению естественно-языковых интерфейсов.

 

Автор выражает искреннюю признательность в первую очередь научному руководителю, доктору технических наук Людмиле Федоровне Ноженковой за неоценимую помощь в описании и оформлении предлагаемой модели естественного языка и чуткое научное руководство. Кроме того, автор хотел бы особенно поблагодарить доцента кафедры английской филологии КГПУ, кандидата филологических наук Тамару Михайловну Кругликову за научное руководство исследованиями в 1991-1997 гг., а также кандидата физико-математических наук, преподавателя КГПУ Ю. Безгочеву за ценные замечания по результатам исследований в эти же годы. Автор также выражает глубокую признательность кандидату физико-математических наук С. В. Комогорцеву, кандидату педагогических наук Н. В. Эверт, кандидату физико-математических наук С. А. Шикунову, кандидату технических наук А. Ю. Зиновьеву, а также кандидату физико-математических наук А. М. Кутьину за продуктивные дискуссии по вопросам формализации естественного языка.


 

ГЛАВА 1. ИССЛЕДОВАНИЕ ЗАДАЧ ФОРМАЛИЗАЦИИ СЕМАНТИКИ ЯЗЫКОВЫХ ЕДИНИЦ В ПРИМЕНЕНИИ К СОЗДАНИЮ
ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ИНТЕРФЕЙСОВ

 


Дата добавления: 2015-07-08; просмотров: 158 | Нарушение авторских прав


Читайте в этой же книге: Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике | История составления словарей | Семантические поля, тезаурусы, темы и подтемы | Тождественные элементы значения слов в тексте | Порождающие грамматики | Внутренняя структура слова, ядро и периферия | Применение компонентного анализа | Проблемы создания языка описания семантики | Табличный естественно-языковой интерфейс | Общий вид формальной дефиниции |
<== предыдущая страница | следующая страница ==>
Высказывания. 2| Проблема исследования значения

mybiblioteka.su - 2015-2024 год. (0.012 сек.)