Читайте также:
|
|
Важной особенностью корпуса текстов является то, что это не просто множество случайным образом объединенных текстов того или иного языка. Создатели корпусов используют критерии. Основными из них являются следующие:
1. основная единица корпуса
Основной единицей корпуса текстов могут быть словоупотребления (обычно их называют словами), основы (корни, леммы) и предложения.
2. объем корпуса текстов (сколько единиц он должен содержать)?
Объем создаваемого корпуса текстов в принятых единицах зависит от целей создания. Он может быть небольшим при изучении частоты употребления букв, буквосочетаний, звуков, звукосочетаний. Гораздо бóльшим он должен быть при изучении лексики, морфологических явлений и при изучении синтаксических или стилистических особенностей текстов [17].
Основными сложностями, с которыми приходится сталкиваться при превращении “текстов для читателя” в “тексты для исследователя”, является отсутствие единого стандарта подачи текста, большое подчас количество опечаток (для отсканированных текстов – ошибок распознавания), сохранение в тексте переносов, номеров страниц, иногда даже оформление строчек как абзацев (так называемые “жёсткие концы”) и проч.
Имеются методы полуавтоматического устранения таких неудобств, но опечатки – наиболее неприятные и трудноустранимые погрешности, серьёзно, как выяснилось, затрудняющие процесс “корпоризации” библиотечных текстов. В текстах Интернет-новостей, а также в многих других местах “неофициального” Интернета встречаются, наряду с опечатками, и просто орфографические и пунктуационные ошибки.
3. хронологические рамки
Тексты каких временн ы х промежутков включать в корпус текстов (современные, 10-летней давности, 50-летней давности, древние и т.д.)?
4. жанрово-тематическая структура
Тексты каких функциональных жанров включать в корпус текстов (художественную прозу, драму, стихи, научные тексты, газеты, журналы, технические описания и т.д.)?
5. актуальная языковая область
Включать ли тексты только литературного языка или также другие типы источников? И что считать литературным языком?
При отборе источников разработчики корпуса текстов обычно используют консультации специалистов по языкознанию и лингвостатистике или метод анкет. Исходя из своего опыта исследований, специалисты определяют общий объем корпуса текстов, время издания текстов, число текстов и размер элементарной выборки, жанры отбираемых текстов и их количество, число элементарных выборок из каждого жанра. Метод анкет в сочетании с опытом специалистов был использован при создании корпуса текстов «Американский корпус наследия» (The American Heritage Intermediate Corpus). Специалисты определили его объем в 5 млн. слов (словоупотреблений) и рекомендовали включить в него лексику из 22 разделов (жанров) детской и юношеской литературы на английском языке. В 221 школу США были разосланы анкеты с просьбой указать, какие тексты желательно включить в корпус. После изучения анкет был составлен список из 19 тыс. названий книг. Из этого множества было отобрано 1045 текстов. На их основе было составлено 10 тыс. элементарных выборок по 500 словоупотреблений каждая [17].
Дата добавления: 2015-08-17; просмотров: 91 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Проектирование | | | Как создать шаблон газеты в Publisher |