Читайте также:
|
|
Семантика языков является связующим звеном и способом соотнесения систем различных языков. При машинном переводе необходимо переводить в первую очередь смысл фразы и уже во вторую заботиться о близости выбранных грамматических конструкций. В связи с этим необходимо создать описание семантики языка как единой формальной системы. В сегодняшних учебниках по языку существует множество терминов описания языка, но нет единой системы классификации терминов, описывающих язык. Что же касается слов, то существуют словари, одна словарная статья которых строится совсем по иным принципам, чем другая, если вообще ее построение имеет какой-либо принцип (имеются в виду не принципы оформления словарной статьи, а единая семантическая формула для языковых единиц одного уровня). Между тем и термины, описывающие язык, и слова языка являются единицами языка, только разных уровней. Подчас нет строгого деления на единицы, отношения между единицами и группами единиц в рамках подобных классификаций. Если же не ограничивать типы возможных единиц, невозможно определить количество всех возможных отношений между ними. Отсутствует единая система в представлении грамматики и семантики, хотя в действительности и та, и другая имеют общие базовые принципы, например, принципы сочетаемости единиц в тексте на основе отсутствия у них противоположных признаков, иерархичность отношений единиц разного уровня, виды языковых отношений и группы единиц языка. Под единицей языка будем понимать составной элемент со своей внутренней структурой, под языковыми отношениями – пары единиц, и под языковыми группами – множества единиц. Иерархия языковых единиц есть отношение порядка на какой-либо группе единиц и множестве всех языковых единиц одного аспекта.
Эта иерархия должна обладать множеством полезных свойств. Так, например, все слова языка должны делиться на особые группы так, что каждое слово из одной группы может сочетаться со словом из другой при правильном выборе пары групп. Например, группы слов «места»: {лес, озеро, холм} и «глаголы движения»: {идти, ехать, приближаться, спешить} содержат слова, хорошо сочетающиеся друг с другом: «идти в лес», «ехать в гору», «приближаться к озеру» и так далее.
Можно во фразе νκ, где ν – слово класса V, κ – слово класса K, заменить слово κ на слово κ' из того же класса K, получив фразу νκ'. При этом смысл фразы изменится, но осмысленность сохранится. Например, во фразе «сидеть на стуле», вместо слова «стул» можно подставить «табурет», «скамейка», «кровать». При изменении качества смысла его наличие тем не менее сохраняется. Выделение таких классов, которые говорят о сочетаемости слов в предложении – это одно из требований, налагаемых на иерархию слов. При построении классификации важно заложить в нее многие другие отношения. Например, известно, что антонимы (слова, противоположные по значению) составляют пары, например, «приходить» и «уходить» – у глаголов движения, «узнать» и «забыть» – у глаголов восприятия. Можно задаться следующим вопросом: соответствует ли антоним «уходить» слову «забывать» или же «узнавать». Интуитивно ясно, что слова «уходить» и «забывать» связаны с завершением какого-то состояния, а «приходить» и «узнавать» – с возникновением такового. Но такие интуитивные ассоциации должны быть, несомненно, выражены формулами для каждого слова, и именно на основе формулы слова или, лучше сказать, понятия, определяется его место в общей иерархии языковых единиц. Приведем пример элементарной формулы, за основу взяв глаголы движения. Пусть символ µ обозначает переход во времени. Обозначим 1 или 0 как наличие или отсутствие какого-либо состояния, выражаемого этим понятием. Понятию «приходить» соответствует формула 0 µ 1. Понятию «уходить» – формула 1 µ 0, «стоять» – 1 µ 1, «сторониться» – 0 µ 0, «возвращаться» – 1 µ 0 µ 1, а понятию «проходить мимо» – 0 µ 1 µ 0, «останавливаться» – 1(0 µ 1) µ 1(1 µ 1) Это всего лишь часть общей формулы для глаголов движения, а именно, то индивидуальное, что отличает эти слова друг от друга. Задаваемые в классификации признаки должны характеризовать максимально большое множество классов слов. Так, например, фрагмент формулы слов X µ X µ X, где X есть 1 или 0, присутствует фактически во всех крупных классах слов. Например, «узнавать» - 0 µ 1, «забывать» – 1 µ 0. В данном случае 1 и 0 в формуле X µ X µ X означают три значения (отрицание, утверждение, неопределенность) отрицаний в формуле формальной дефиниции. Эта система отрицаний и утверждений является основанием для деления слов на подклассы: 1 µ 0, 0 µ 1, 1 µ 1 и т.д. Используя формулы слов, на основе иерархии слов можно объяснять, казалось бы, интуитивные ассоциации между словами, например, то, что слову «узнавать» соответствует скорее слово «приходить», а не «уходить». Все это может служить практическим основанием для машинного анализа таких сложных явлений языка, как метафоры. Например, позволяет автоматически сводить фразы типа: «Она ушла из мира моих воспоминаний» к фразе: «Я забыл о ней». Поскольку формула слов «узнавать» и «приходить» во многом общая: 0 µ 1.
Наличие стандартного вектора признаков задает многомерное пространство, в котором расположены все понятия языка. Эта последовательность есть последовательность аргументов S(Ng1, …,Ngp) из приведенной выше формулы формального определения единиц языка. Такую последовательность назовем вектором значений и будем обозначать <Ng1, …,Ngp> или просто G. Каждому вектору G с заранее определенной системой интерпретации S(Bi1, …, Bif, Tj1, …, Tjv) однозначно соответствует классификация Pα.Dβ. Векторы и пространства можно строить на основе универсальной формулы S(Bi1, …, Bif, Tj1, …, Tjv, Ng1, …,Ngp) слова по-разному.
Приведем пример такого построения. Класс «глаголы движения» описывается формулой «ОТНОШЕНИЕ×СУЩЕСТВО×МЕСТО», эта формула представляет собой строку символов - сем (атомов смысла) Gγ l = e1e2…e l, приведенную в главе 2.3.1 и обозначающую значение вектора признаков, задающего классификацию слов и понятий языка. Аналогично класс «глаголы восприятия» задается формулой «ОТНОШЕНИЕ×СУЩЕСТВО×ИДЕЯ». Класс «общение» – формулой «ОТНОШЕНИЕ×СУЩЕСТВО×СУЩЕСТВО×ИДЕЯ». Существуют также классы «идея» – {«мысль», «теория», «точка зрения»,…}, класс «место» – {парк, озеро,…}, «существо» – {дворник, друг,…} и многие другие. Для достижения полной системности иерархии языковых единиц ниже показывается, что любое понятие может быть отнесено к одной из 7 сем: МЕСТО, ПРЕДМЕТ, СУЩЕСТВО, ОТНОШЕНИЕ, ИНФОРМАЦИЯ, ИДЕЯ, СОЗНАНИЕ или к неопределенному классу – НЕЧТО. Перечисленные семы будем считать элементами множества B, задающего классификацию множества слов и понятий С. Здесь и далее будем обозначать семы заглавными буквами. Так, например, «приходить» есть ОТНОШЕНИЕ, «парк» есть МЕСТО, «детектив» - ИНФОРМАЦИЯ.
Смысловое содержание каждого слова языка записывается формулой сем, которая строится рекурсивно и представляет собой последовательность конечной длины. Каждая группа слов классификации делится на подклассы {Gγ1, Gγ2, Gγ3, Gγ4, … Gγθ}, где Gγ l = e1e2…e l. При этом необходимо строить множество значений вектора, достаточное для классификации любых понятий. Здесь каждое значение Gγψ множества значений {Gγ1, Gγ2, Gγ3, Gγ4, … Gγθ} есть множество строк e1e2…el единиц eu, взятых из узлов предшествующей классификации. Доказательство достаточности производится посредством соотнесения этого множества с множеством миниклассификации признаков, {Gγ1, Gγ2, Gγ3, Gγ4, … Gγθ} ↔ {H, ØH, dH}, {P, ØP, dP} … {K, ØK, dK}. На основе миниклассификаций определяется также отношение порядка на этом множестве классификационных признаков, например, что Gγ2 предшествует Gγ4. Под миниклассификациями будем понимать классификации, приводящие множество значений признака классификации к множеству пар или троек понятий вида {H, ØH} или {H, ØH, dH} соответственно. Наличие логики в классификации всех слов и далее вообще всех понятий (единиц) языка сводится к использованию закона исключенного третьего. То есть классификация признаков должна сводиться к простому делению на тройки признаков H, ØH, dH. Здесь Gγθ = H×P×K Ú ØH×P×K Ú H×ØP×K Ú H×P×ØK Ú ØH×ØP×K Ú ØH×P×ØK Ú H×ØP×ØK Ú ØH×ØP×ØK Ú dH×P×K….
Достаточно сложно всегда подобрать классификацию, которая делила бы множество понятий на подклассы «хорошо», то есть так, чтобы во всех подклассах было бы примерно равное количество языковых единиц. Однако в главе третьей предлагается способ такой классификации.
Единицу высокого уровня можно рассматривать как объект Ct.Bd, компонентами которого являются единицы более низкого уровня, из которых определяется значение этого объекта. Компоненты представляют собой подобъекты определяемого объекта. Некоторые же компоненты этих подобъектов отождествляются друг с другом при определении объекта. Вследствие наличия или отсутствия тех или иных связанных операцией тождества и компонентов подобъектов слово относится к той или иной ветви классификации. Поскольку один объект является материалом для конструирования новых объектов более высокого уровня, то соответственно объекты высокого уровня являются последовательным вложением друг в друга объектов все более низкого уровня.
Важно отметить, что построенная по приведенным выше принципам классификация отличается избыточностью: не всем узлам дерева классификации соответствует какое-либо слово или даже понятие, описывающее реально существующий предмет. Однако любое понятие или слово, существующее, или просто способное существовать в языке, соответствует одному узлу дерева классификации. Таким образом, еще до того, как было изобретено само понятие «самолет», можно было бы выделить понятие о средстве передвижения в воздухе. Аналогично потенциально в классификации определено место для любого понятия, которое существует, которое можно изобрести или просто описать в художественной литературе или сказке: «ковер-самолет», «волшебная палочка» и т.д.
В переводе, сделанном профессиональным переводчиком, совершенно не обязательно использовать трансформацию «слово одного языка – слово другого языка». Такая трансформация часто невозможна, или по каким-либо причинам не целесообразна. Другими типами трансформаций при переводе могут быть трансформации «слово – фраза», или «фраза – фраза», или «слово – семы разных слов», или «сема одного слова – сема другого слова», или «слово – отсутствие перевода», или «отсутствие сем или смысла – слово или сема, улучшающая стилистические или иные характеристики текста».
Наиболее интересны в этом аспекте следующие трансформации единиц языка.
Трансформации многих единиц в одну:
«Это сделает ваше путешествие более легким».
«Это облегчит вам путешествие».
Трансформации одной единицы во многие:
«Я блондин»
«У меня светлые волосы».
Трансформация одной единицы в одну в некотором контексте изменений:
«Я работаю хорошо».
«Я хороший работник».
Трансформация многих единиц во многие:
«Мой знакомый учится».
«Я знаю одного ученика"».
2.3.2. Проблема построения классификаций вида Ai.Cj
Последовательность классификаций, составляющих структуру языка, можно представить в виде следующей таблицы.
Таблица 2.1
Упорядоченное множество классификаций единиц языка разных
аспектов и уровней с примерами
Алфавит метаязыка | Конструкции метаязыка | Алфавит естественного языка | Конструкции естественного языка | |
Аспект (ярус) приведенного, стандартного вида | Геносемы. Например, ЛОКАЛИЗАЦИЯ, ВОСПРИЯТИЕ, ВКЛЮЧЕНИЕ | Семы. Например, СУЩЕСТВО, ПРЕДМЕТ, ИЗ, В, НА, У | Понятия Например, ОТНОШЕНИЕ× СУЩЕСТВО× СУЩЕСТВО× ИДЕЯ, ОТНОШЕНИЕ× СУЩЕСТВО | Факты. Например, «я купил компьютер», «два плюс два равно четыре», «вы ждали, что я куплю компьютер» |
Аспект не приведенного, формально произвольного вида | Буквы и звуки. Например, «а», «б», «в», «г», «д», «е», «ё» | Морфемы. Например, «пере-», «за-», «под-», «при-», «-ение», «-ход-», «-ая» | Слова. Например, «компьютер», «радость», «учитель», «море» | Высказывания. Например, «покупка мною компьютера состоялась согласно нашим ожиданиям» |
Аспект семантического шума, отклонений от логики и норм | Звуковые искажения. Например, «облезьяна» (оказиальное выражение Достоевского), «громадьё» (оказиальное выражение Маяковского) | Искажения морфем Например, «свезло тебе» вместо «повезло тебе», «упыхался» вместо «запыхался» в разговорной речи | Искажения слов. Например, «голубой экран» вместо «телевизор», «остановочный пункт» вместо «остановка» | Искажения высказываний: «деяние без деяния», «любовь всегда преодолеет всё преграды» |
В таблице 2.1 показывается иерархия языковых единиц различных аспектов и уровней.
Каждая из предложенных классификаций должна задаваться своим вектором признаков. В главе третьей, подробно анализируется классификация понятий языка. В следующих пунктах коротко говориться о других классификациях естественного языка, приведенных в таблице выше. В языке имеется два основных аспекта: семантический и формальный. Семантический аспект отвечает за потенциально возможные единицы языка, смысл которых формально определен. Формальные единицы отвечают за структуру и форму того или иного знака языка. Третьим аспектом можно считать аспект семантического шума, когда форма знака видоизменяется, смысл фразы искажается, но может быть восстановлен и приведен к стандартному виду. Например, фраза «я знаю, что он ей помог» имеет стандартный вид. Далее эту фразу можно высказать различными способами без искажения ее логической структуры: «мои сведения о том факте, который я мог знать и соответственно знал, имели своим предметом оказанную одним человеком более или менее существенную помощь в отношении упомянутой нами женщины. Да это был он, он помог ей, способствовав тем самым делам, которые она и полагала сделать». Любой из элементов такой фразы не приведенного вида может быть также наделен семантическим шумом
на уровне звуков. «Он вспоможил ей».
на уровне морфем «Он немного подмог ей»
на уровне слов «Оный человек помог ей»
на уровне фразы «Он продвинул ее дела в нужном направлении»
Фразы приведенного вида, построенные на основе словаря понятий, должны составлять информационную базу естественно-языкового интерфейса, позволяющего при этом осуществлять их преобразования в не приведенные фразы с семантическим шумом и обратно.
Дата добавления: 2015-07-08; просмотров: 234 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Множество классификаций | | | Семы классификации |