Читайте также:
|
|
Проект «Персей» (Perseus) Изначально размеченный массив античных текстов, а теперь – расширенное хранилище
(Renaissance Materials etc. … …)
Англоязычные тексты – около 10 млн словоупотреблений.
Латынь – около 1 млн словоупотреблений.
И прочее. Для тех, кому надо. См.:
http://www.perseus.tufts.edu
Русские проекты
Уппсальский корпус (создан в Швеции в 1987 г.)
Единица хранения – текст.
Основа русского корпуса Тюбингенского университета (ФРГ)
http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html
Русские проекты
Машинный (компьютерный) фонд Института русского языка РАН.
The Computer Fund of Russian Language (CFRL) is a research and development department within the V.V.Vinogradov Institute for Russian Language of the Russian Academy of Sciences. It was started in 1985.
(www.cfrl.ru)
Русские проекты
Корпус газетных текстов, созданный под рук. Анат. Яновича Шайкевича (Машинный фонд Института русского языка РАН).
Около 7,5 млн словоупотреблений в 29,5 тысячах текстовых фрагментов.
Материал взят из публицистики 2-й половины 1990-х гг.
Выставлен на сайте Маш. фонда.
Пример разметки в корпусе Шайкевича
[%iso88591; ]> CFRL Parole encoding Computer Fund of Russian Language
http:// On-line 99-01-27 &parole.tax; 99-01-27 Russian
Дата добавления: 2015-07-11; просмотров: 76 | Нарушение авторских прав