среда, 10 июня 2015 г.

Состав и объем корпуса

Корпус письменных текстов /Written corpora (synchronic)~2705 млн словоупотреблений
Корпус устных текстов/ Spoken corpora (synchronic)~4 млн словоупотреблений
Диахронический корпус/Diachronic corpora1,95 млн словоупотреблений
Корпус иностранных языков/Foreign language corpora6248 млн словоупотреблений
Параллельный корпус/Parallel corpus92 млн словоупотреблений
Общий объём корпуса – свыше 9 млрд словоупотреблений, из которых лемматизировано и размечено морфологическими тегами ~ 8894,5 млн.

Комментариев нет:

Отправить комментарий