МТ, ТМ и другие

Читайте также:

Тупиковая ветвь

В соответствии с некогда весьма популярной концепцией Interlingva процесс машинного перевода должен осуществляться в два этапа. На первом входное предложение следует перевести на искусственный язык-посредник (например, созданный на базе упрощенного английского языка), а затем результат этого перевода представить средствами выходного языка. Несмотря на то, что существует данная научная концепция уже полвека, ни одной реально работающей системы на ее основе пока не создано. Главная проблема – в разработке «посредника» и формальном описании его в терминах естественного языка.

«Электронные переводчики» первого поколения – системы прямого перевода (СПП) – представляли собой программно-аппаратные комплексы и анализировали текст «слово за словом» (смысловые связи и нюансы при этом практически не учитывались). Возможности СПП определялись доступными размерами словарей, прямо зависящими от объема памяти компьютера. Именно к категории СПП относилась IBM Mark II, сделавшая принципиально возможным Джорджтаунский эксперимент.
На смену СПП со временем пришли Т-системы (от английского Transfer – «преобразование»), в которых перевод осуществлялся на уровне синтаксических структур (так учат языку в средней школе). Они выполняли набор операций, позволяющих путем анализа переводимой фразы определять ее синтаксическую структуру по правилам грамматики входного языка, а затем преобразовывать ее в синтаксическую структуру выходного предложения и синтезировать новую фразу, подставляя нужные слова из словаря выходного языка. Работы в этом направлении сейчас уже не ведутся: практикой доказано, что реальная система соответствий сложнее и адекватный перевод требует принципиально иного алгоритма действий.
Немногим позднее становящиеся все более многочисленными системы машинного перевода в зависимости от принципа их работы стали подразделять на МТ-программы (от Machine Translation – «машинный перевод») и ТМ-комплексы (от Translation Memory – «память переводов»).

В качестве реально успешного примера МТ-программы назовем знаменитую канадскую систему METEO, выполняющую перевод метеопрогнозов с французского языка на английский и обратно (она была создана почти тридцать лет назад и эксплуатируется по сей день!). Разработчики METEO сделали ставку на то, что действительно автоматизированный машинный перевод возможен только в условиях искусственно ограниченного (как по словарному запасу, так и по грамматике) языка. И добились успеха.
Наиболее популярным в мире профессиональным TM-инструментом является пакет Translation’s Workbench фирмы TRADOS (для краткости часто также называемый TRADOS). Подобные программы используют в основном профессиональные переводчики, осознавшие выигрыш от частичной автоматизации своей работы с помощью компьютера при переводе повторяющихся текстов, сходных по тематике и структуре.
Основная идея Translation Memory – не переводить один и тот же текст дважды. Эта технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной «входной» базе. Когда система находит фрагмент, соответствующий заранее определенным критериям, то его перевод берется из «выходной» базы. Получаемый в итоге текст подлежит интенсивному пост-редактированию человеком.

В 1990 г., когда системы машинного перевода снова стали одним из приоритетных направлений развития компьютерной отрасли и вышли на новый качественный уровень, пройдя непростой этап переосмысления и взаимной интеграции, Ларри Чайлдс предложил их классификацию, актуальную до сих пор. Он разделил все «электронные переводчики» на три группы.
FAMT (Fully-Automated Machine Translation) – инструменты полностью автоматизированного машинного перевода. Такие системы пока находятся в стадии разработки, поскольку проблемы автоматического понимания, перевода и синтеза «живых» текстов еще не решены, и это едва ли случится в ближайшее время. Одним из видов FAMT-программ являются уже существующие системы перевода устной речи «на лету»... Но их возможности пока чрезвычайно ограничены.
HAMT (Human-Assisted Machine Translation) – приложения для автоматизированного машинного перевода текстов, выполняемого при участии человека; причем в эту группу входят как продукты, «выросшие» из ТМ- и МТ-систем, так и базирующиеся на иных принципах – статистическом, фразеологическом и т.д., и комплексные решения. HAMT-системы немногочисленны и пока далеко не универсальны, поскольку их реализацию сдерживают все те же объективные факторы. В этой области добилась больших успехов российская фирма ПРОМТ; интересные разработки есть и у других компаний. Мы подробно расскажем о пакете PROMT Professional 8.0.
MAHT (Machine-Assisted Human Translation) – вспомогательные средства для выполнения перевода человеком с использованием компьютера. К категории MAHT-приложений сегодня относится абсолютное большинство «электронных переводчиков» и компьютерных словарей – как программных, так и онлайновых.

Вероятно, вам покажется странным отсутствие в этом списке знаменитых (и не очень) зарубежных компаний и их прославленных (и не очень) продуктов. Причина проста: мы назвали здесь лишь те СМП, которые рассматривают русский язык как «базовый», а не только как подлежащий переводу на другие базовые языки иностранный. Увы, выпускают их лишь в России, Украине и Канаде (в США русский язык адекватно поддерживают лишь профессиональные СМП). Прочие системы и поддержки русского языка на уровне интерфейса не имеют, и качество перевода демонстрируют далекое от идеала, и стоят весьма недешево, и купить их в России затруднительно (разве что заказать через Интернет).

Страницы истории: первый триумф
Принято считать, что основные принципы современного машинного перевода были изложены в 1947 г. Уорреном Уивером. Рассматривая перевод текстов с одного языка на другой как возможную область применения техники дешифрования, он писал: «У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все что мне нужно – это взломать код, чтобы извлечь информацию, заключенную в тексте».
В те времена немногочисленные компьютеры использовались в основном для решения военных задач, поэтому неудивительно, что в США основное внимание уделялось русско-английскому, а в СССР – англо-русскому направлению перевода. К началу 50-х годов над проблемой автоматического перевода бился целый ряд исследовательских групп.
В 1954 г была представлена первая полноценная программно-аппаратная система машинного перевода – IBM-701 (IBM Mark II), разработанная компанией IBM совместно с Джорджтаунским университетом (это событие вошло в историю как Джорджтаунский эксперимент). Очень ограниченная в своих возможностях система великолепно переводила 49 специально подобранных предложений с русского языка на английский с использованием словаря на 250 слов и шести грамматических правил.
Начался настоящий «бум» СМП. Но результаты очень скоро начали разочаровывать... Одной из главных причин невысокого качества машинного перевода в те годы были аппаратные ограничения (малый объем памяти ЭВМ при медленном доступе к содержащейся в ней информации). Кроме того, отсутствовала теоретическая база, необходимая для решения лингвистических проблем. Вынужденное затишье продолжалось до начала 70-х.

Ограничим рамки...
Итак, системы машинного перевода появились давно, развиваются интенсивно и весьма разнообразны. Рассмотреть все крайне сложно, да и не нужно – во всяком случае, в нашем журнале.

Мы ограничились рассмотрением только программных и аппаратных средств, работающих над переводом с русского языка на английский и обратно. Ситуация для данной языковой пары, безусловно, показательна, но следует учитывать, что именно перевод с/на английский для русскоговорящих пользователей (да и не только для них) представлен наибольшим числом программ, сервисов и устройств. С русско-немецким, -французским, -итальянским переводом дело обстоит несколько хуже. Для остальных языков наличие хотя бы нескольких доступных СМП – редкость...
В данной статье описаны только программы, устройства и сервисы «любительского уровня», ориентированные на «среднестатистического пользователя», которому требуется не переводить «Гамлета», а разобраться в содержании электронных писем, объявлений, инструкций, веб-страниц на английском языке, а также иметь возможность объясниться с англоговорящими людьми на бытовые и деловые темы – понятно написать e-mail, постинг в блоге, комментарий на сайте, SMS или несколько реплик в «мессенджере».
Как обычно, мы будем рассматривать СМП с практической точки зрения. Объясним и покажем на примерах, чего следует и чего бессмысленно ждать от имеющихся сегодня инструментов и на что у нас – возможно! – появится шанс рассчитывать в будущем.

Как это работает?
Современные технологии ушли далеко вперед от первых попыток «засунуть переводчика в компьютер». FAMT- и НАМТ-системы машинного перевода находятся в шаге от того, чтобы именоваться системами искусственного интеллекта, поскольку они уже выполняют отдельные функции человеческого мозга: в частности, конструируют текст на выходном языке на основе входного, пользуясь сводом определенных правил, заданных в виде структур данных и алгоритмов.
Алгоритм перевода – это последовательность однозначно и строго определенных действий над текстом, необходимых для нахождения оптимальных переводных соответствий в данной паре языков при заданном направлении перевода.
Абсолютно универсальных алгоритмов, конечно, не существует ни для FAMT- и НАМТ-, ни даже для МАНТ-систем, поскольку разные продукты базируются на различных подходах к переводу. Однако некую общую схему составить можно. Следует учитывать, что данная схема является приблизительной, упрощенной, и в рамках каждой процедуры как человеком, так и машиной выполняется целый комплекс разнообразных действий. Поясним ключевые фрагменты.

1. Человек вводит текст в компьютер и выполняет ручную настройку СМП: определяет параметры входного и выходного языка, выбирает базовую тематику и терминологические словари для перевода специальной лексики, задает ограничения на перевод встречающихся в тексте имен собственных и т.п.

2. Программа выполняет поиск словоформ в словаре входного языка, а также морфологический анализ входной информации. В процессе анализа (по статистической, фразеологической или МТ-технологии) могут быть получены и другие сведения.

3. Программа производит поиск соответствий. Сначала выполняется перевод идиом, фразеологических единств и штампов данной предметной области. Затем – определение основных грамматических характеристик остальных элементов входного текста (например, числа существительных, времени глаголов и пр.). Обычно на этом этапе однозначные слова отделяются от многозначных, после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются специализированные словари. Завершают процедуру лексический анализ входной информации и собственно перевод. На этом этапе в работу некоторых программ может включаться человек, подсказывающий машине внеязыковые нюансы, которые ей непонятны: например, какое именно из нескольких значений слова в данном случае следует выбрать.

4. Затем программа выполняет грамматический анализ полученного чернового перевода, в ходе которого с учетом данных выходного языка доопределяется недостающая грамматическая информация (например, выясняется, какое из трех времен русского глагола в данном контексте лучше соответствует «настоящему продолженному» времени глагола английского).

5. Выполняется синтез выходных словоформ и текста в целом.

6. За работу снова берется человек, который исправляет ошибки и сглаживает недочеты в выполненном машиной переводе.

Примечание: Разумеется, все вышесказанное относится лишь к «полноценным» СМП, реализующим «перевод текста в текст». Словари, разговорники и прочие программы для пословного или пофразового перевода функционируют гораздо проще.

Дата добавления: 2015-08-18; просмотров: 181 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Все о машинном переводе	\|	Достоинства программ машинного перевода

mybiblioteka.su - 2015-2025 год. (0.008 сек.)