Состав и объем корпуса
| Корпус письменных текстов /Written corpora (synchronic) | ~2705 млн словоупотреблений |
| Корпус устных текстов/ Spoken corpora (synchronic) | ~4 млн словоупотреблений |
| Диахронический корпус/Diachronic corpora | 1,95 млн словоупотреблений |
| Корпус иностранных языков/Foreign language corpora | 6248 млн словоупотреблений |
| Параллельный корпус/Parallel corpus | 92 млн словоупотреблений |
Общий объём корпуса – свыше 9 млрд словоупотреблений, из которых лемматизировано и размечено морфологическими тегами ~ 8894,5 млн.
Комментариев нет:
Отправить комментарий