Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Некоторые теоретические построения

Читайте также:
  1. I. 2. НЕКОТОРЫЕ ГНОСЕОЛОГИЧЕСКИЕ ПРЕДПОСЫЛКИ
  2. I. Некоторые аспекты современных опытов
  3. II. Некоторые из реалий тех процессов, которые привели к образованию «зрелого монодического стиля».
  4. OUTSIDER MUSIC. НЕКОТОРЫЕ РАЗМЫШЛЕНИЯ.
  5. V. Системно-теоретические модели
  6. Б. Некоторые базисные предпосылки
  7. Базовые теоретические и практические приемы проектирования интерьеров.

К наиболее поздним теоретическим разработкам, повлиявшим на исследования в области ОЕЯ, можно отнести: 1) статистические и корпусные методы, 2) последние попытки использовать WordNet, 3) возрождение интереса к автоматному и другим, не перегруженным вычислениями, подходам, 4) инициатива совместных проектов в области создания большого грамматического и ОЕЯ инструментария.

Статистические методы используются в ОЕЯ по ряду причин, например, для устранения неоднозначности в значении/смысле слова, для порождения грамматик и синтаксического анализа, для определения стилистических признаков авторов и ораторов и т.д. Charniak[2] (1995) указывает, что можно получить точность 90% при присваивании тега части речи некоторому слову путем применения простых статистических оценок. Относительно использования статистических методов в ОЕЯ, особенно в обработке речи, можно упомянуть Jelinek[3] (1999) — на этот источник можно встретить большое число ссылок. Rosenfield[4] (2000) делает обзор статистических языковых моделей для обработки речи и выступает за байесовский подход к интеграции лингвистических теорий данных. Mihalcea & Moldovan[5] (1999) говорят, что хотя до сих пор статистические подходы и считались лучшими для устранения неоднозначности в значении/смысле слова, они полезны только в небольшом множестве текстов, и предлагают использовать WordNet для улучшения результатов статистического анализа текстов на естественном языке. WordNet — онлайновая лексическая справочная система, разработанная в Princeton University, которая представляет собой прекрасное инструментальное средство ОЕЯ, содержащее английские существительные, глаголы, прилагательные и наречия, организованные в наборы синонимов, и каждый набор представляет одно базовое лексическое понятие. Подробную информацию о WordNet можно получить в сети (http://www.cogsci.princeton.edu/~wn/). WordNet используется в целом ряде приложений и исследований, связанных с ОЕЯ. Конечный автомат — это математический прием, используемый для реализации регулярных выражений — стандартного представления для описания текстовых последовательностей. Такие разновидности автоматов, как конечные преобразователи, скрытые Марковские модели и грамматики на основе n-грамм, являются важными компонентами распознавания и синтеза речи, проверки орфографии и извлечения информации, которые, в свою очередь, представляют собой значимые приложения ОЕЯ. Обсуждение различных приложений методов с конечным числом состояний в ОЕЯ можно найти, например, у Jurafsky & Martin[6] (2000). Работе исследователей в области ОЕЯ сильно способствует наличие крупномасштабной грамматики для синтаксического анализа и порождения. Получить доступ к таким грамматикам и инструментальным средствами можно на нескольких сайтах — например, Lingo (http://lingo.stanford.edu), Computational Linguistics & Phonetics (http://www.coli.uni-sb.de/software.phtml), грамматический проект Parallel (http://www.parc.xerox.com/istl/groups/nltt/pargram/). Еще одно значительное событие за последние годы — это образование различных национальных и международных консорциумов и исследовательских групп, которые могут содействовать и помогать обмену опытом и исследованиями в ОЕЯ. LDC (Linguistic Data Consortium) (http://www.ldc.upenn.edu/) в University of Pennsylvania, например, создает, собирает и распределяет базы данных с речевым вводом и текстовые базы данных, лексиконы и другие источники для исследований и разработок в университетах, компаниях и государственных исследовательских лабораториях. Проект Parallel Grammar — еще один пример международного сотрудничества, в котором участвуют исследователи из Xerox PARC в Калифорнии, the University of Stuttgart и the University of Konstanz в Германии, the University of Bergen в Норвегии, Fuji Xerox в Японии. Цель проекта — создание грамматик с обширной покрывающей способностью для английского, французского, немецкого, норвежского, японского и урду, являющихся плодом совместных усилий с общесогласованным набором грамматических признаков (http://www.parc.xerox.com/istl/groups/nltt/pargram/). Недавно образованная Global WordNet Association — еще один пример сотрудничества. Это некоммерческая организация, обеспечивающая платформа для обсуждения, а также для совместного использования и связи WordNets для всех языков в мире. Первая международная конференция по WordNet была проведена в Индии в начале 2002 года. Исследователи из различных уголков земного шара обсуждали на ней различные вопросы по ОЕЯ.


Дата добавления: 2015-12-07; просмотров: 50 | Нарушение авторских прав



mybiblioteka.su - 2015-2024 год. (0.006 сек.)