Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Динамический корпус текстов по современной публицистике (90-е гг.)29).

Читайте также:
  1. HTML. Гипертекстовые ссылки.
  2. I. Основные элементы текстового документа
  3. MATHCAD. Ввод числовых и текстовых данных, 2-х и 3-х мерная графика.
  4. Альтернативные проекты экономической политики в современной России
  5. Б) Исследование понимания сюжетных картин и текстов
  6. Банковская система современной России
  7. В СОВРЕМЕННОЙ ФИЛОСОФИИ И НАУКЕ.

Этот корпус текстов относится к числу новых проектов, осуществляемых в отделе экспериментальной лексикографии Института русского языка РАН. Основная цель проекта — дать источник для проведения раз­личных лингвистических исследований, ориентированных на изучение изменений языковой системы в период перестройки и постперестройки. В 90-е гг. произошли существенные изменения в языке средств массо­вой информации, в политическом дискурсе, что оказало существенное влияние на художественную прозу, научный язык и пр.

Динамический корпус текстов как новая технология прикладной лин­гвистики. Как было показано выше, корпус текстов в идеальном случае должен удовлетворять критерию репрезентативности и в то же время быть существенно меньше проблемной области, которую он отражает. С другой стороны, репрезентативность корпуса прямо связана и с теми задачами, которые стоят перед исследователем. Сложность совмещения требований статистической репрезентативности и установок пользователя приводит к тому, что многие значительные по объему корпусы вообще не име­ют четких критериев отбора текстов. В проекте динамического корпуса текстов по современной публицистике была предложена такая страте­гия формирования, которая позволяет каждому пользователю получить для решения конкретной задачи из базового массива свое подмножество текстов. Базовый, исходный массив текстов, из которого осуществляется отбор, вместе с программным обеспечением называется динамическим корпусом текстов.

Получение репрезентативного корпуса текстов по публицистике представляет собой сложную задачу, поскольку количество периодических изданий огромно, а количество текстов, появляющихся даже в течение одного дня, с трудом поддается исчислению. Эти тексты пишет целая армия журналистов и аналитиков, да и сами тексты сильно отличаются как по форме, так и по тематике. Отдельной проблемой, которую мы здесь не затрагиваем, является определение понятия публицистического текста. При формировании массива авторская группа опиралась на ин­туицию: не включались чисто информативные тексты, краткие заметки, лишенные авторского взгляда на описываемое положение дел, и т. п.

Стратегия формирования исходного массива. В плане репрезентативно­сти основное внимание было обращено на выбор периодических изданий различной ориентации наиболее важных для общественного сознания в исследуемый период, и на соблюдение пропорции, учитывающей зна­чимость и популярность последних. Кроме того, вторым важным факто­ром организации корпуса был количественный критерий: текстов должно было быть достаточно много, чтобы отразить все релевантные свойства

29)Проект финансировался в 1996-1997 гг. Российским фондом фундаментальных ис­следований (грант № 96-06-80359). Авторская группа: Баранов А. Н., Михайлов М. Н., Сидоров Г. О.

проблемной области. Верхний предел корпуса ограничивался прагмати­ческими соображениями — местом на носителе информации и скоростью работы сервисных программ.

Как уже говорилось выше, разные пользователи предъявляют различ­ные требования к корпусу. Нельзя не учитывать и тот факт, что многие пользователи могут оказаться нелингвистами. Этих людей будет интере­совать отражение конкретных событий в прессе определенного периода, они захотят читать целые тексты, а не отбирать ограниченные по объему примеры употребления. Чтобы учесть разнообразные интересы, необхо­димо составлять корпус из целых текстов, а не из отрывков, как зачастую практиковалось в начальный период развития корпусной лингвистики30).

Следует учитывать, что лингвисты разных профилей предъявляют разные требования к корпусу данных. Для исследований по морфологии и синтаксису, как правило, не требуется очень больших массивов текстов. В ряде случаев это просто нежелательно: например, объем конкордан­сов на употребление служебных слов типа или, да, нет может достигать нескольких тысяч страниц. На один интересный пример может приходит­ся сотня тривиальных. Для исследований по грамматике представляется важным иметь в корпусе тексты, различающиеся по структуре и по жанру. В то же время массив текстов должен быть достаточно большим, чтобы обеспечить получение примеров на редкие слова. Только в этом случае корпус будет представлять интерес для лексикологов и лексикографов.

Таким образом, задача составителей корпуса текстов — постараться по возможности учесть интересы различных пользователей. Для это­го необходимо, чтобы все тексты, входящие в корпус, были снабже­ны достаточно подробным «поисковым образом», который позволил бы программному обеспечению «фильтровать» исходный большой массив, исходя из нужд пользователя.

В отличие от корпуса языка Достоевского, корпус по современной публицистике потребовал разработки сетки параметров, позволяющих осуществить инвентаризацию проблемной области и обеспечить ее ре­презентативное представление в корпусе. Единицей хранения корпуса текстов по публицистике является текст или его относительно закончен­ный фрагмент. Параметризация проблемной области при формировании корпуса текстов по современной публицистике основывается на следую­щих основных факторах:

30)Ср., например, Брауновский корпус, составленный из отрывков по 1 000 слов каждый.

• фактор автора текста: журналист/непрофессиональный политик vs. профессиональный политик (распределение по политикам учитывает как крупных политических деятелей типа Ельцина, Путина, Черно­мырдина, Немцова, Хакамады, Селезнева, Гайдара, Жириновского, так и политиков второго ряда); отдельно стоит проблема выявле­ния «команд спичрайтеров», определяющих собственно языковое оформление текста — в ряде случаев данная проблема решается довольно легко, но для многих текстов это не возможно в принципе;

• фактор персонификации-деперсонификации автора (конкретный че­ловек vs. партия/общественное движение/политическая организа­ция/учреждение vs. деперсонифицированный текст — лозунги, пе­редовицы и т. п.);

• фактор адресата (кому адресован текст: сторонники — противники — нейтральная аудитория; профессиональная ориентация — выступле­ние перед шахтерами; творческой интеллигенцией и пр,);

• фактор прагматических условий порождения текста (речь на ми­тинге — речь на заседании институционального органа — интер­вью — пресс-конференция (всего было учтено 15 типов условий произнесения));

• фактор источника: журнальный текст — книжный текст — листов­ка — агитационный плакат — лозунг — телевидение — радио,

• коммуникативное распределение (монологический текст — диалог;общие типы иллокуций: демонстрация намерений, например, поли­тическая программа — аргументативный диалог и пр.).

На основе сформулированных факторов была сформирована матрица параметров, позволившая выделить из проблемной области около 70 ти­пов текстов. Эта типология и была положена в основу отбора текстов в корпус.

Кодировка единиц хранения массива. После параметризации текстов были определены те характеристики, которые фиксировались в дескрип­ции каждого текста в корпусе (о фасетной формуле — см. особенности организации фактографических информационно-поисковых систем в § 4 главы 4): 1) источник (значения параметра: «Век», «Дружба народов», «Завтра», «Знамя», «Известия», «Итоги», «Молодая гвардия», «Москов­ский комсомолец» и т.д.); 2) автор (около 1 000 авторов); 3) название статьи (1 368 названий); 4) политическая ориентация издания («общеде­мократическая» пресса; «левая» пресса); 5) жанр (значения параметра: «воспоминания», «интервью», «критика», «круглый стол», «очерк», «про­блемная статья», «репортаж», «рецензия», «фельетон»); 6) тема (значения параметра: «внутренняя политика», «внешняя политика», «литература», «искусство» — всего 39 различных тем); 7) время (период 90-х гг.; было включено также несколько характерных статей периода «ранней пере­стройки»).

Программное обеспечение. Корпус текстов очень сильно проигрывает, если к нему не сделан «дружественный» пользовательский интерфейс» по­зволяющий производить обработку текстов и не требующий специальной подготовки пользователя.

Вообще, следует отметить, что в настоящее время не существует стандартного программного пакета обработки текстов, который удовле­творял бы нужды всех пользователей, работающих с письменкьшк ис­точниками (см. по этому поводу выше). По этой причине организации, занимающиеся обработкой текстов, чаще всего создают свое собственное программное обеспечение, которое, однако, далеко не всегда позволяет выполнять все необходимые операции. Общая проблема программ го класса — проблема группировки текстов, отвечающих какому-ли признаку. Наиболее часто используемые программы предлагают поль­зователям создавать список текстов вручную. Начнем с того, что э процедура требует от пользователя определенных знаний о компьюте] и изрядного терпения, чтобы, скажем, ввести в текстовом редакто список типа:

c:\dost\txt\bs.txt

c:\dost\txt\bkl.txt

c:\dost\txt\bk2.txt

c:\dost\txt\podr.txt

Кроме того, следует отметить, что когда количество текстов корпуса превышает 1 000 единиц хранения (что имеет место в данном случае), и имя файла не всегда отражает все признаки текста, пользователь про­сто не в состоянии это сделать вручную. Процедура составления списка текстов должна быть максимально упрощена. От пользователя можно по­требовать лишь указания интересующих его параметров текста — издание, автор, тематика, жанр и т. п.

Получение конкордансов и словников. Система позволяет осуще­ствлять следующие функции:

1. Стандартный просмотр текстов, входящих в состав корпуса (в виде просмотра таблицы базы данных).

2. Выборка и упорядочивание текстов по указанным формальным или содержательным признакам, а также на основе различных их комби­наций. В системе реализован стандартный набор типовых запросов в виде выбора из списка, автоматически переводимых затем на язык SQL; возможен также ручной ввод запросов на SQL.

3. Получение текстовых массивов, являющихся подмножествами исход­ного корпуса на основе изменяемой случайной выборки и задания процентов от общего корпуса по одному из параметров.

4. Просмотр массивов-подмножеств и их обработку: получение слов­ников и списков контекстов (конкордансов).

Формирование корпуса текстов. Размеченные в соответствии с описан­ными выше параметрами тексты представляют собой лишь сырой матери­ал. Отметим, что в традиционной технологии это и есть окончательный результат. В технологии динамического корпуса текстов размеченный исходный массив является источником для формирования конкретных корпусов, более точно отражающих информационную потребность поль­зователя. Массив хранится в виде базы данных, а каждый отдельный текст — в одной записи (параметры — в текстовых и числовых полях, сама статья — в поле MEMO). Перевод размеченных текстов в формат базы данных осуществляется с помощью специальной служебной утилиты.

Состояние проекта. К настоящему времени сформирован корпус тек­стов по современной публицистике объемом 15 мегабайт (около 7,5 тыс. страниц). Корпус можно оценить как представительный с точки зрения параметров, которые были определены для отбора текстов в результиру­ющий массив. Иными словами, все значения параметров и их сочетания (за исключением малочастотных и невозможных) представлены в кор­пусе. Например, в журнале «Новый мир» не были обнаружены статьи по финансам, а в журнале «Эксперт» — по литературе. Тем самым эти сочетания значений параметров (издание «Новый мир» & тематика «фи­нансы» и, соответственно, издание «Эксперт» & тематика «литература») в результирующем корпусе не представлены. С другой стороны, темати­ка «внутренняя политика» сочетается в исходном массиве практически со всеми привлекавшимися изданиями. Следовательно, в корпус были введены тексты, в которых реализуются все встретившиеся сочетания те­матики «внутренняя политика» с названиями представленных в корпусе газет и журналов: «внутренняя политика» & «Новый мир», «внутренняя политика» & «Московские новости», «внутренняя политика» & «Итоги», «внутренняя политика» & «Российская газета» и т.д.

Созданный корпус текстов по современной русской публицисти­ке с точки зрения выбранных параметров может рассматривается как модель функционирования языка современной публицистики в дис­курсе. Наиболее полно в корпусе представлены следующие источники: «Век» (около 8 %), «Завтра» (около 14 %), «Известия» (около 5 %), «Итоги» (около 11 %), «Литературная газета» (около 6%), «Московские новости» (более 8 %), «Независимая газета» (около 6 %), «Новый мир» (около 12 %), «Российская газета» (около 8 %).

В имеющейся версии корпуса и программного обеспечения имеет­ся возможность варьирования набора текстов по следующим параметрам: 1) источник; 2) автор; 3) время публикации; 4) тема текста; 5) жанр текста (внутри «публицистического» стиля). Программная оболочка содержит четыре стандартных варианта корпуса — полный корпус, а также про­порциональные сужения (до 25 %) по изданиям, темам и жанрам соответ­ственно. Пользователь может формировать собственный корпус из имею­щихся текстов, запоминать его конфигурацию и производить обработку.

Разработанный программный продукт, являющийся одновременно источником языковых данных, представляется уникальным в двух отно­шениях. Во-первых, это первый корпус по русскому языку, в котором представлен язык российской публицистики. Близкие по жанру корпусы текстов, даже относящиеся к другому временному отрезку, к настоящему времени отсутствуют. Во-вторых, создана новая технология организации и эксплуатации корпуса текстов — концепция «динамического корпуса текстов», которая более гибка по сравнению с традиционной и предоста­вляет пользователю существенно больше информации о составе корпуса и больше возможностей адаптации исходного массива к конкретной лин­гвистической (и не только лингвистической) задаче. Следует заметить, что элементы динамической технологии — в частности, возможность выборки подмножества текстов из генеральной совокупности — ранее были использованы при создании Бирмингемского корпуса текстов.

 

Заключение

К настоящему времени накоплен уже довольно значительный опыт построения корпусов текстов, однако информация о наличии корпусов в разных странах ограничена. Это существенно затрудняет проведение научных исследований и нередко приводит к дублированию работы. Сложность получения информации о существующих корпусах текстов связана с тем, что практически все они создаются по локальным проектам отдельными организациями. Международная координация усилий в этой области пока еще не налажена в должной мере.

Вторая проблема в области корпусной лингвистики связана с первой: локальность проектов приводит к возникновению различных форматов представления корпусов текстов. Отсутствие единого формата предста­вления дополняется и несовместимостью программного обеспечения.

В имеющихся описаниях корпусов нет ясной информации о содержа­тельных принципах отбора материала. Поскольку корпус является суже­нием проблемной области, то представительность корпуса прямо связана с принципами отбора материала. Если же нет уверенности в представи­тельности корпуса, его заведомо нельзя использовать для многих видов лингвистической деятельности, например, для оценки частоты употре­бления лексем в тех или иных значениях или для составления словников некоторой проблемной области. Необходимо разработать общепринятую процедуру сужения проблемной области до корпуса текстов. По-види­мому, таких процедур должно быть несколько, поскольку соотношение между корпусом и проблемной областью не является постоянной величи­ной и меняется в зависимости от характера проблемной области и задач исследования.

Необходимо проводить ясное разграничение между «исследователь­скими» корпусами и «иллюстративными» корпусами (первые создаются для изучения явления, а вторые — для иллюстрации установленных за­кономерностей). Очень часто требования, предъявляемые пользователем к исследовательскому корпусу текстов, по сути аналогичны требованиям для иллюстративных корпусов, при том что исследование еще не про­ведено.

Последовательное выполнение принципов построения корпусов тек­стов приводит к тому, что корпус может быть построен только после того, как уже завершена та работа, для которой он предназначается. Удел «сбор­щиков» корпусов — балансирование между этими крайностями — уже завершенной работой и необозримым множеством текстов проблемной области.

Основная литература

1. Баранов А. Н. Автоматизация лингвистических исследований: корпус текстов как лингвистическая проблема//Русистика сегодня. 1998 № 1-2. С. 179-191.

2 Баранов А. Н., Добровольский Д. О. Немецкая корпусная лингвистика // Вест­ник МГУ. Сер. Иностранные языки. 1998. № 1.

3. Исаев И. А. Опыт автоматизации лексикографических исследований. Система DIALEX // Слово Достоевского. М., 1996.

4. Михайлов М. Н. Компьютерное обеспечение корпуса текстов (взгляд пользо­вателя) // Русистика сегодня. 1998. № 1-2. С. 192-201.

5. Мошкович Ж. Г. Автоматическая лексическая система Унилекс-2. М., 1989.

6. Фрэнсис У. Н. Проблемы формирования и машинного представления большо­го корпуса текстов // Новое в зарубежной лингвистике. Вып. XIV Проблемы и методы лексикографии. М., 1983. С. 334-353.

Дополнительная литература

1. Леннгрен Л., Ферм Л. Уппсальский машинный фонд русского языка // Труды машинного фонда русского языка. Т. 1. М., 1991.

2. Renouf A. Corpus development at Birmingham University, Corpus linguistics. Recent developments in the use of computer corpora in English language research / Eds. Aarts J. & Meijs W. Amsterdam, 1984.

3. WordCruncher. WC Index Text Retrieval Sofrware. Birgham Young University, 1989а.

4. Word Cruncher. WC View Text Retrieval Sofrware. Birgham Young University, 1989b.

 


Дата добавления: 2015-10-16; просмотров: 161 | Нарушение авторских прав


Читайте в этой же книге: Исходные понятия | Важнейшие направления деятельности в терминоведении и терминографии | Институциональный аспект терминоведения и терминографии | Миры лингвистической терминологии | Термины искусственного интеллекта | Термины когнитивной науки | Лингвистическая терминография | Языковой материал в лингвистическом исследовании | Исходные понятия корпусной лингвистики | Требования к корпусу текстов с точки зрения пользователя |
<== предыдущая страница | следующая страница ==>
Опыт разработки корпусов текстов| Лингвистические и нелингвистические аспекты перевода

mybiblioteka.su - 2015-2024 год. (0.011 сек.)