среда, 10 июня 2015 г.


Справка о корпусе

  • Чéшский национа́льный ко́рпус (Český národní korpus или ČNK) — доступная для открытого поиска база письменных текстов в электронной форме на чешском языке, поддерживаемая Университетом имени Карла в Праге. Сайт доступен на чешском и английском языках.

  • Национальный корпус чешского языка создан в Карловом университете Праги и представляет собой сбалансированный представительный корпус. Создан в середине 1990-х годов. Проект чешских корпусов включает несколько независимых корпусов. SYN2000 — синхронный корпус чешского языка 1990—1999 гг. (пресса — 60%, массовая беллетристика — 15%, специализированные тексты — 25%) — 100 млн. слов. Доступен в Интернете, платный. SYNEK — подкорпус SYN2000 с сохранением баланса текстов — 10 млн. слов. С 2002 года распространяется в оффлайновой версии на CD. PUBLIC — подкорпус SYN2000 с сохранением баланса текстов — 20 млн. слов.

  • Разметка и возможности поиска. Корпус имеет метаразметку, что позволяет получать информацию об употреблении языковых единиц по отдельным жанрам, периодам и т.п. Также есть морфологическая разметка. Возможен поиск как по словоформе, так и по лемме, а также по грамматической информации. Доступна информация о частотном распределении языковых единиц (о плотности распределения), а также информация о коллокациях.
  • История создания.
    Предпосылками для создания корпуса послужили такие факторы, как отклонение современного чешского от принятых норм (создание корпуса помогло бы удержать чешскую лексикографию от неизбежных отклонений) и стабилизация политической ситуации (более широкое сотрудничество с международным научным сообществом помогло перекочеванию компьютерной лексикографии и корпусной лингвистики, как отдельных ветвей, в чешскую лингвистику). Тогда в 1994 году Институт Чешского Национального Корпуса был создан при Факультете философии Карлова Университета, а также были подписаны соглашения о сотрудничестве с некоторыми институциями Чехии
  • Идея CNK была впервые выдвинута в 1991 году и поддержана подписавшимися под ней представителями следующих институций: Факультета философии Университета имени Карла, Факультета математики и физики Университета имени Карла, Масарикова университетаУниверситета ПалацкогоИнститута чешского языка Академии Наук Чешской Республики (англ.)

Состав и объем корпуса

Корпус письменных текстов /Written corpora (synchronic)~2705 млн словоупотреблений
Корпус устных текстов/ Spoken corpora (synchronic)~4 млн словоупотреблений
Диахронический корпус/Diachronic corpora1,95 млн словоупотреблений
Корпус иностранных языков/Foreign language corpora6248 млн словоупотреблений
Параллельный корпус/Parallel corpus92 млн словоупотреблений
Общий объём корпуса – свыше 9 млрд словоупотреблений, из которых лемматизировано и размечено морфологическими тегами ~ 8894,5 млн.

Ссылка на корпус

http://ucnk.ff.cuni.cz/