Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Опыт разработки корпусов текстов

Читайте также:
  1. HTML. Гипертекстовые ссылки.
  2. I. Основные элементы текстового документа
  3. MATHCAD. Ввод числовых и текстовых данных, 2-х и 3-х мерная графика.
  4. OLAP-технология и хранилище данных (ХД). Отличия ХД от базы данных. Классификация ХД. Технологические решения ХД. Программное обеспечение для разработки ХД.
  5. Актуальный пример разработки программы в случае моббинга
  6. Алгоритм разработки рабочей учебной программы
  7. Б) Исследование понимания сюжетных картин и текстов

К настоящему времени накоплен серьезный опыт разработки кор­пусов текстов для различных языков. Наибольший интерес представляют фундаментальные корпусы текстов, отражающие состояние языка в це­лом, а не каких-то его отдельных феноменов, подсистем.

Фундаментальные корпусы. Наиболее известен Брауновский корпус американского варианта современного английского языка, создававший­ся в Брауновском университете в 1962—1963 гг. под руководством У. Фрэн­сиса. Брауновский корпус существует в компьютерном варианте и на ми­крофишах. Объем корпуса около 1 млн словоупотреблений. Корпус состо­ит из 500 текстов, каждый из которых включает 2 000 словоупотреблений. В корпус вошли тексты, впервые вышедшие в 1961 г. и относящиеся к литературному варианту английского языка. Тексты охватывают 15 раз­личных жанров американского английского: газетные статьи (репортажи, передовицы, обзоры); религиозную литературу; профессиональную лите­ратуру; научно-популярную литературу; беллетристику; образцы деловой прозы (в том числе правительственные документы); научную литературу; художественную прозу; детективы и научную фантастику; приключен­ческую литературу и вестерны; романтическую литературу; юмористи­ческие истории и рассказы. В 1980 г. появилась индексированная (ан­нотированная) версия Брауновского корпуса, в которой была проведена лемматизация словоформ, маркировка их поверхностно-синтаксических функций и пр.

Британским аналогом Брауновского корпуса является Ланкастерско-Осло-Бергенский корпус (принятое сокращение LOB). Он создавался несколько позже Брауновского, но включал тексты того же временного периода и тех же жанров, но британского варианта английского языка. Аннотированная версия корпуса LOB появилась уже в 1985 г. Суще­ствование двух фундаментальных корпусов-аналогов для американского и британского вариантов английского языка стимулировало проведение сравнительных исследований в этой области и дало весьма интересные результаты.

Существенно отличается от Брауновского корпуса — Лондонско-Лундский корпус, разработанный в рамках проекта «Обзор употребления английского языка». Цель проекта заключалась в том, чтобы по воз­можности полно зафиксировать особенности грамматической системы английского языка в речи взрослого образованного носителя. Проект разрабатывался с 1960 г. под руководством Рэндола Квирка в Лондонском университетском колледже. Объем корпуса — 1 млн словоупотреблений. Лондонско-Лундский корпус, кроме письменных текстов, включает и тек­сты устной речи (100 письменной и 100 устной), представленные в орфо­графической записи с маркировкой некоторых просодических и паралин-гвистических особенностей естественного дискурса. Текстами устной речи были записи радиопередач, заседаний официальных структур, а также не­формальных бесед. Машинный вариант корпуса создавался в Лундском университете (Швеция) и был готов для использования с 1979 г. Машин­ная версия содержит подробный указатель словоформ, а также маркеры некоторых просодических особенностей речи. На основе корпуса была подготовлена и выпущена в 1985 г. Полная грамматика английского языка.

Еще один интересный опыт создания фундаментального корпуса — Бирмингемский корпус. В отличие от ранее рассмотренных примеров Бирмингемский корпус основан на идеологии мониторного или дина­мического корпуса. Идеологом этого проекта стал Дж. Синклер — один из отцов современного дискурс-анализа. Мониторный корпус отличается от обычного по следующим параметрам: 1) объем такого корпуса до­стигает нескольких десятков миллионов словоупотреблений; 2) корпус постоянно пополняется и изменяется, отражая те изменения, которые происходят в языке; 3) пользователь получает возможность в автома­тическом или полуавтоматическом режиме создавать рабочие корпусы из генерального корпуса.

Первым этапом на пути создания корпуса стала Бирмингемская коллекция английских текстов, предназначенная для поддержки проекта «Словаря современного английского языка». Для реализации проекта бы­ло организовано специальное подразделение COBUILD (Corpus Building). К 1986 г. объем коллекции текстов достигал 20 млн словоупотреблений. Единицей хранения коллекции является целый текст или его достаточно большой фрагмент. Объем каждой единицы хранения порядка 70 тыс. словоупотреблений. Отбор текстов — с 1970 г., периодика привлека­лась с 1979 г. Коллекция объединяет тексты всех вариантов английского языка — 65-70% британский английский, 25-30% американский ан­глийский, 5 % прочие варианты английского языка. Сфера письменных текстов не ограничивается опубликованными материалами: в коллек­цию входят образцы эпистолярного жанра, неопубликованные рукописи. Часть коллекции представлена устными затранскрибированными тек­стами. В настоящее время исследователям доступен фрагмент Бирмин­гемской коллекции — Бирмингемский корпус, достигающий 7,3 млн словоупотреблений (6 млн письменные тексты, 1,3 млн — устные тек­сты). Общий состав Бирмингемского корпуса таков: нехудожественная литература (66 текстов), художественная литература (25 текстов), газе­ты (4 текста), журналы (12 текстов), деловая проза (правительственные документы) — 5 документов, письма — 6 документов. Среди текстов уст­ной речи наиболее частотны радиодискуссии (44 текста), неформальные личные диалоги (15 документов), радиоинтервью (60 текстов), универси­тетские лекции (18 текстов).

Корпусная лингвистика в Германии. В Германии появление Браунов­ского корпуса дало толчок разработке проекта LIMAS-корпуса, созда­вавшегося в рамках проекта системы немецко-английского машинного перевода27). LIMAS-корпус состоит из 500 подкорпусов по 2 000 слово-

27)LIMAS — сокращение от названия исследовательской группы Llnguistische und MAschinelle Sprachubersetzung, работавшей в Институте исследования проблем комму­никации и фонетики Боннского университета с 1965 по 1976 гг.

употреблений каждый, представляющих тексты различных типов, опу­бликованные в 1968 г. Объем корпуса — 1 млн словоупотреблений. Хотя внешне LIMAS-корпус идентичен Брауновскому, жанровая классифика­ция текстов LIMAS-корпуса существенно отличается от него. В основу жанровой классификации положена тематическая классификация пред­метных областей, принятая в Немецкой библиографии за 1971 г. Всего было выделено 33 области; наиболее значимые из них — религия, куль­тура, право, политика/управление, общество, экономика, литература, искусство, история, география, медицина, техника, беллетристика. Отту­да же заимствованы и пропорции представления текстов. LIMAS-корпус считается представительным для современного немецкого языка.

Корпусы текстов немецкой разговорной речи. Создание разговорных корпусов текстов в Германии началось довольно давно. Разумеется, исход­ная форма хранения корпусов разговорной речи — запись на магнитной ленте. Однако в последующем акустическая форма переводилась в фоне­тическую транскрипцию. Полный вариант фонетической транскрипции из-за сложности транскрибирования и восприятия пользователем оказал­ся неудачным. В результате нескольких опытов графической фиксации разговорной речи выработался неполный вариант фонетической транс­крипции, сохраняющий некоторые особенности произношения и отража­ющий последовательность и/или одновременность произнесения речевых актов. В сокращенном варианте фонетической транскрипции использо­вались средства фиксации интонации, диалектных черт произношения, степени разборчивости речи и т. п. Неполный вариант фонетической транскрипции существует в двух нотациях — драматургической и парти­турной. Драматургическая нотация предусматривает оформление реплик участников диалога как персонажей пьесы, причем «режиссерские» ре­марки указывают на характер наложения реплик говорящих друг на друга, темп речи, громкость и пр. Партитурная нотация, считающаяся более удачной, строится как музыкальная партитура, но вместо инструментов выступают участники коммуникации. Это позволяет более точно отразить процесс общения в абсолютном измерении (на временной оси) и в отно­сительном измерении, характеризующем речь участников коммуникации в сравнении друг с другом [Menge 1993]. Чисто технически партитурная нотация требует большей точности и более сложна в написании. Однако использование специальных средств компьютерной поддержки позволя­ет упростить создание партитурных транскриптов речи. Таким образом, графическое представление разговорной речи в настоящее время уже не является такой сложной технологической проблемой, как раньше.

Хотя в области графической фиксации устной речи даже при отсут­ствии единого и обязательного для всех стандарта достигнут некоторый прогресс (связанный прежде всего с наличием прецедентов), то в описа­нии невербальной составляющей естественноязыковой коммуникации — чрезвычайно важной для обыденной речи — царит полнейший произ­вол, что затрудняет дальнейшее продвижение в этой области. Проблема невербального в общении осложняется еще и тем, что относительно лин­гвистической релевантности тех или иных невербальных компонентов естественного диалога нет единого мнения, как нет и общепризнанной теории невербальной коммуникации.

К числу наиболее известных корпусов текстов немецкой разговорной речи можно отнести «Корпус базового немецкого» (Grunddeutsch-Korpus), который начал создаваться с 1961 г. в Стэнфорде (Institute for Basic Ger­man). Метод сбора материала предполагал охват всех основных областей функционирования немецкого языка. Всего в корпусе содержится 401 ин­тервью, средней продолжительностью 12 мин. (общая продолжительность звучания — около 80 часов). Записи производились в 36 городах ФРГ и 10 городах ГДР, шести городах Австрии и четырех городах Швейцарии. Методика сбора материала не давала возможности получать по-настоя­щему естественный диалог, поскольку ситуация общения искусственно конструировалась: эксплицитно задавалась тема коммуникации, участ­ники диалога были информированы о целях опроса и т. д. Письменный вариант корпуса, созданный на основе полной транскрипции, а затем (для упрощения восприятия) приближенный к орфографической норме, был опубликован в 1984 г. [Pfeffer, Lohnes 1984]. Книга, кроме собственно текстов, включает приложения, в которых указаны результаты предвари­тельной обработки (список «фонетических маркеров хезитации», частот­ный список словоформ, список незавершенных высказываний и т.д.). Корпус существует также и в компьютерной форме. Существенно, что «Корпус базового немецкого» доступен для исследователя и в фонетиче­ской, и в письменной, и в компьютерной форме.

«Саарбрюккенский корпус», опубликованный в 1987 г. [Rath, Immels-berger, Schu 1987], содержит транскрипции речи (диалоги с интервьюером) итальянских, турецких и немецких детей. Цель создателей корпуса состо­яла в демонстрации особенностей спонтанного овладения вторым языком в детском возрасте. Записи речи немецких детей привлекались как эталон для возможного сравнения. Всего записан 231 час, а опубликовано около 36 часов звучания. О компьютерном аналоге этого корпуса информация отсутствует.

Та же проблемная область — детская речь — представлена в «Дорт-мундском корпусе спонтанной детской речи» (DOKO). Корпус включает тринадцать полкорпусов; каждый подкорпус представляет собой запись речевого поведения одного и того же ребенка в нормальных жизненных ситуациях. Запись, как правило, производилась родителями, которые вели подробный протокол условий протекания коммуникации. По результа­там обработки Дортмундского корпуса был создан словарь словоформ, характеризующий речевую активность каждого ребенка. Материалы кор­пуса доступны как в акустической записи, так и в компьютерной форме. Дортмундский корпус является частью международного банка данных «Система обмена данными по детской речи», хранящегося на психо­логическом факультете университета «Карнеги-Меллон» в Питтсбурге (США) и в Институте психолингвистики им. Макса Планка в Неймегене (Нидерланды) [Mac Whinney 1991; Mac Whinney, Snow 1985].

Проблемная область Фрейбургского корпуса — обыденная и офи­циальная речевая коммуникация. Фрейбургский корпус, создававшийся с 1968 по 1974 гг., состоит из двух частей. Первая часть — «Корпус основных структур» (224 текста, из которых 80 текстов опубликовано [Texte gesprochener deutscher Standardsprache 1971-1979]), вторая часть — «Корпус диалоговых структур» (72 текста). Для опубликованных фраг­ментов корпуса был разработан специальный транскрипционный формат представления. В настоящее время Фрейбургский корпус на машинных носителях находится в Институте немецкого языка в Мангейме. Имеюще­еся программное обеспечение позволяет удовлетворять самые различные запросы — по частоте слов и словоформ, по совместной встречаемости в рамках предложения, абзаца, текста и пр.

Существенно, что Фрейбургский корпус объединяет тексты двух различных типов. К первому типу относятся тексты радио- и телевизи­онных передач, предполагающих свободное ведение коммуникации — интервью, дискуссии и репортажи. Разумеется, свобода порождения тек­стов такого рода весьма относительна, поскольку часто первичным для них является письменный сценарий. Второй тип — записи спонтан­ных бесед, которые в ряде случаев производились без предварительного предупреждения. В этом отношении Фрейбургский корпус оказывает­ся чрезвычайно ценным, поскольку с этической точки зрения запись речи без предупреждения говорящего не вполне корректна и считается противоправным действием, что затрудняет получение таких данных.

Кроме рассмотренных выше чисто текстовых корпусов, в Германии представлены также корпусы, которые условно можно было бы назвать мультимедиальными или мультимедийными. Корпусы такого рода, кроме текстовой составляющей, включают видеозаписи процесса коммуника­ции с привязкой к тексту. Примером такого корпуса может служить созданный на секции психоаналитических методов университета Ульма корпус терапевтического дискурса [Mergenthaler 1986]. Корпус состоит из видео- и аудиозаписей бесед, отражающих различные формы и методы психоанализа (парная терапия, семейная терапия, групповая терапия, анализ снов и пр.). Объем корпуса 8,2 млн словоупотреблений. Хотя этот корпус создавался не для лингвистов, тем не менее он представляет зна­чительный интерес для лингвистических исследований различного рода, в том числе для проведения работ в области дискурс-анализа. К сожа­лению, для российской лингвистики мультимедиальные корпусы пока остаются красивой мечтой. Они требуют, кроме наличия чисто техни­ческих возможностей, затрат значительных ресурсов времени. Однако перспективность корпусов такого рода для исследования взаимодействия вербальной и невербальной составляющей естественного диалога не вы­зывает сомнений.

Корпусы письменных текстов немецкого языка. Сейчас в распоряжении лингвистов имеется значительное количество текстов в машиночитаемой форме. Это, однако, не приводит автоматически к появлению хороших корпусов текстов — коллекций текстов, отобранных по фиксированным параметрам, которые определяются некоторой исследовательской зада­чей. В немецкой традиции принципы отображения проблемной области в корпусе текстов в явном виде не обсуждаются. Большая часть корпусов образует замкнутые множества текстов — совокупность произведений одного автора на машинных носителях с необходимой компьютерной поддержкой [Kammer 1993]. В Мангейме в Институте немецкого языка представлены на машинных носителях корпусы текстов Томаса Манна и Гёте; в Бонне имеется также корпус текстов Канта, в Аахене/Зигене — корпусы текстов Гельдерлина, Клейста и Новалиса. К сожалению, точного и полного описания этих корпусов обнаружить не удалось.

Кроме корпусов художественных текстов, в Институте немецкого языка в Мангейме в распоряжении исследователей имеются: 1) Бонн­ский корпус газетных текстов, объемом в 3 млн словоупотреблений (в качестве единицы хранения выступает текст всего номера газеты); 2) Корпус текстов справочников (Handbuchkorpora, около 11 млн сло­воупотреблений); 3) два корпуса текстов различных типов (Mannheimer Korpora I & II); 4) так называемый LIMAS-корпус (LIMAS сокр. от Lln-guistische und MAschinelle Sprachubersetzung). Последний корпус состоит из 500 подкорпусов по 2 000 словоупотреблений каждый, представляющих тексты различных типов, опубликованные в 1968 г.

Все эти корпусы имеются на машинных носителях, что позволяет, используя необходимое программное обеспечение, проводить обработку массивов текстов по различным параметрам. Так, например, возможен поиск на любую комбинацию слов в рамках любого фрагмента кор­пуса (строки, предложения, абзаца, главы и т.п.). Имеющаяся система лемматизации дает возможность пользователю не перечислять всех слово­форм слова при поиске, что особенно важно для глаголов. Лемматизация позволяет, кроме того, осуществлять поиск разрывных составляющих.

Значительный интерес представляет «Wendekorpus», занимающий промежуточное положение между корпусами разговорной речи и пись­менных текстов [Teubert 1990]. Он включает, с одной стороны, газетные и журнальные тексты, а с другой — транскрипты интервью, круглых столов, радиодискуссий и т. п. Объем корпуса — 3,3 млн словоупотре­блений. Проблемная область корпуса — тексты публичной политики за период 1989-1990 гг., касающиеся политических изменений в бывшей ГДР и объединения Германии. Наполовину корпус состоит из текстов средств массовой информации бывшей ГДР, наполовину — из текстов средств массовой информации ФРГ. «Wendekorpus» находится в Инсти­туте немецкого языка в г. Мангейм и доступен для работы по Интернету в режиме on-line.

С 1993 г. несколько общенациональных немецких газет выпускают компьютерные варианты своих текстов на CD-ромах — «Frankfurter Allge-meine», «Neue Ziircher Zeitung», «Tageszeitung». CD-ромы, кроме текстов газет, содержат программное обеспечение, которое позволяет/проводить поиск информации по ключевым словам, названиям статей, авторам и некоторым другим параметрам. Впрочем, возможности обработки тек­стовой информации с помощью содержащихся на CD-ромах программ сравнительно невелики [Wagner 1996].

Корпусная лингвистика во Франции. Один из наиболее грандиоз­ных французских проектов — создание «Сокровищницы французского языка», включающей корпус текстов в 90 млн словоупотреблений. Раз­работка проекта началась в 1963 г. Ввод основного материала закончен в 1968 г. Введены тексты XIX-XX вв. Корпус уже используется для созда­ния 15-томного словаря французского языка XIX-XX вв. — «Tresor de la langue francaise», включающего 80 тыс. лексических входов [Tresor 1988].

Корпусы текстов по русскому языку. Работа над созданием корпу­сов текстов по русскому языку начата сравнительно недавно. Первые разработки в этой области относятся к началу 1970-х годов. Реаль­но используемых корпусов сравнительно немного. В первую очередь здесь следует упомянуть «Уппсальский машинный фонд русского язы­ка», создававшийся с 1987 г. в Уппсальском университете. Общий объем корпуса — около 1 миллиона словоупотреблений. В корпус отбирались художественные тексты с начала 1960 г., специальные журнальные тек­сты — с начала 1985 г. и газетные статьи — с начала 1987 г. По замыслу корпус должен отражать современное состояние русского языка; времен­ное распределение статей в корпусе из различных источников отражает взгляды составителей на процессы старения лексики. Цель формирования корпуса заключалась в том, чтобы представить в первую очередь лите­ратурный язык, поэтому в массив не включались образцы разговорной речи. Минимальной единицей хранения Уппсальского корпуса является целый текст, а не фрагменты текстов. Корпус состоит из 200 подмас-сивов по 5 000 словоупотреблений в каждом. Подмассив может состоять из одного текста. В текстах корпуса в равной пропорции представлена художественная и специальная литература. Классификация специальной литературы осуществляется по тематике (биология, химия, физика и т. д.), а художественной литературы — по авторам. Если автор тематически раз­нообразен, то в выборку включаются все важные тематические области. Например, В. Астафьев представлен военной прозой, описаниями при­роды и сельской тематикой. Каждому тексту сопоставлено формальное описание, в котором содержится информация о типе текста (специ­альная vs. художественная литература), об источнике, тематике, авторе. Кириллический алфавит исходных текстов передается латиницей.

Собственно российский опыт составления корпусов. В рассматрива­емом подходе формированию корпуса текстов должен предшествовать анализ исследовательской программы возможного или реального поль­зователя, а также предварительная инвентаризация проблемной области. Инвентаризация проблемной области в качестве результата предполагает получение некоторого комплекса параметров, которые достаточно полно характеризуют содержащиеся в ней тексты. Фактически параметризуя проблемную область, лингвист выделяет из объекта исследования пред­мет исследования. В настоящее время не разработано более или менее ясных принципов выделения параметров в связи с поставленной задачей лингвистического описания. Создатель корпуса текстов по большей части действует, основываясь на интуиции и здравом смысле.

Особая задача — выявление информационной потребности поль­зователя корпуса, если создатель корпуса и исследователь — не одно и то же лицо. В описываемых примерах потребители и составители корпусов практически выступают в одном лице, тем самым проблема вы­явления информационной потребности (исследовательской программы) существенно упрощается.

Корпус по дискурсивным словам русского языка28). Составление кор­пуса по дискурсивным словам преследовало две основных задачи. Пер­вая — обеспечение исследователя контекстами употребления дискурсив­ных слов, которые в должной мере отражали бы функционирование этих единиц в проблемной области. Первая задача типична для исследова­тельского корпуса. В рамках второй задачи корпус использовался как источник примеров для словарных статей словаря дискурсивных слов, и здесь корпус должен был иметь некоторые характеристики иллюстра­тивного. В качестве источников выступали тексты, в которых широко используются частицы различных семантических групп.

Для формирования корпуса текстов по дискурсивным словам (едини­ца хранения — связный текст, объемом три-четыре абзаца и более) были учтены следующие факторы исходных массивов исходной проблемной области:

28) Корпус словаря языка Достоевского разрабатывается в рамках проекта, поддержанною РГНФ; корпус текстов по дискурсивным словам русского языка создавался в совместном российско-французском проекте описания дискурсивных слов русского языка, частично финансировавшемся INTAS.

· временное распределение (периоды: классическая литература XIX в художественная литература первой половины XX в.; художественная литература второй половины XX в., а также публицистика 90-х гг.); привлечение публицистики 90-х двадцатого века объясняется прежде всего тем, что многие газеты и журналы имеют электронные версии; сканирование газетного и журнального текста изданий 60-80-х гг. сильно затруднено из-за низкого качества бумаги;

· авторское распределение — Ф. Достоевский, И. Бунин, Л. Толстой, А. и Б. Стругацкие, Ф. Искандер, А. Вампилов, К. Симонов, Б. Оку­джава, Ю.Трифонов, С. Довлатов и т.д.;

· жанровое распределение (предпочтение отдавалось жанрам, отража­ющим такие сферы функционирования языка, для которых типич­но употребление частиц: газетные и журнальные интервью; тексты радио- и телевизионных дискуссий; драматургические произведе­ния; поэзия представлена минимально; классическая литература также представлена образцами, в которых широко используются дискурсивные слова).

В настоящее время корпус по дискурсивным словам русского язы­ка включает около 30 мегабайт (приблизительно 15 тысяч страниц) текстов.

Корпус текстов словаря языка Достоевского. Текстовый корпус До­стоевского создавался как источник для словаря языка Достоевского. Параметры организации корпуса определялись правилами построения словарной статьи: поскольку словарная статья предполагала составление указателя ко всем употреблениям слова, то корпус должен был охватывать все тексты Достоевского — как художественные, так и публицистические. Тем самым сложности, связанные с разработкой теоретических оснований отображения проблемной области, отсутствовали. В качестве основного текстового источника использовалось академическое полное собрание сочинений Ф. М. Достоевского. Единицей хранения в корпусе текстов словаря является отдельное произведение (любого размера — от романа до письма). К настоящему времени на машинных носителях находятся все художественные произведения, публицистика и эпистолярное наследие писателя. Корпус хранится в ASCII формате с минимальной размет­кой, позволяющей осуществлять адресацию к произведению и странице по полному собранию сочинений. Для программной поддержки был разработан специальный пакет программ DIALEX-DIAWIN, идейную основу которого заложил М. Марон. Окончательное оформление пакета, доведение его до рабочего вида и дальнейшее развитие осуществлено И.Исаевым [Исаев 1996].

Основное направление развития Корпуса текстов словаря Достоев­ского в настоящее время — совершенствование программного обеспе­чения и технологии подготовки словаря. Кроме того, осуществляется ряд исследований, в результате которых предполагается получить слова­ри, которые можно будет использовать для лингвистического изучения корпуса текстов Достоевского. Сейчас готов частотный словарь, соста­вленный А. Я. Шайкевичем. Сформирована база данных по идиоматике Достоевского для словаря идиом писателя.

Корпус текстов словаря языка Достоевского существует также в CD-ромной версии («Достоевский: Тексты, исследования, материалы»), рас­пространяемой вместе с программами обработки корпуса, базой данных по идиоматике и базой данных по частотному словарю, составленному А. Я. Шайкевичем.


Дата добавления: 2015-10-16; просмотров: 135 | Нарушение авторских прав


Читайте в этой же книге: Компьютерная лексикография | Исходные понятия | Важнейшие направления деятельности в терминоведении и терминографии | Институциональный аспект терминоведения и терминографии | Миры лингвистической терминологии | Термины искусственного интеллекта | Термины когнитивной науки | Лингвистическая терминография | Языковой материал в лингвистическом исследовании | Исходные понятия корпусной лингвистики |
<== предыдущая страница | следующая страница ==>
Требования к корпусу текстов с точки зрения пользователя| Динамический корпус текстов по современной публицистике (90-е гг.)29).

mybiblioteka.su - 2015-2024 год. (0.012 сек.)