ВЕРСИЯ ДЛЯ СЛАБОВИДЯЩИХ
Войти
Логин:
Пароль:
Забыли пароль?
научная деятельность
структура институтаобразовательные проектыпериодические изданиясотрудники институтапресс-центрконтакты
русский | english

Масштабное обновление онлайн-платформы Национального корпуса русского языка: больше возможностей, сервисов, словоупотреблений, удобнее интерфейс

26 декабря опубликовано финальное в 2023 году обновление онлайн-платформы Национального корпуса русского языка (НКРЯ), работа над которой осуществляется в рамках крупного научного проекта «Компьютерно-лингвистическая платформа нового поколения для цифровой документации русского языка», поддерживаемого Минобрнауки России. Проект реализуется с 2020 года силами консорциума, в который входят Институт русского языка им. В. В. Виноградова РАН, Институт лингвистических исследований РАН, Национальный исследовательский университет «Высшая школа экономики» и Воронежский государственный университет, под руководством Института проблем передачи информации им. А. А. Харкевича РАН. Программную и организационную поддержку проекту с его основания оказывает компания «Яндекс».

В 2023 году на платформе произошел ряд фундаментальных изменений. 

  • Появился ряд новых возможностей для лингвистического анализа, например, «Частотный словарь», показывающий наиболее часто встречаемые в конкретном корпусе слова, классифицированные по частям речи. В нескольких корпусах стал доступен вид выдачи «Частотность», который показывает, какие словоформы, леммы или наборы грамматических признаков чаще всего соответствуют заданным условиям запроса в результатах поиска. Такие новые инструменты, как «Поиск коллокаций» и «Скетчи» также позволяют получить информацию о сочетаемости слова. В Мультимедийном корпусе теперь можно одновременно задать три поисковых запроса: для слов, жестов и речевых действий. 
  • Запущен новый сервис «Портрет слова», который объединяет всю извлекаемую из корпуса информацию о том или ином слове: его возможные формы, частотность употребления, а также близкие по значению и употребляемые в связке слова. Вся информация о слове и его характеристиках удобно и наглядно разбита по виджетам. Наглядность и возможность получить всю информацию при помощи одного запроса делает Корпус доступнее для широкой аудитории.
  • Постоянно растущие объемы НКРЯ (количество текстов уже превышает 6 млн) заставляют прибегать к возможностям нейросетевой разметки. Нейроразметка (НейроКРЯ) позволяет автоматически разметить большие объемы текстов грамматическими и синтаксическими характеристиками, а также определить жанр текста и выделить для него ключевые слова.
  • В составе НКРЯ появились новые корпуса. Корпус текстов «Русская классика» объемом более 17,5 млн словоупотреблений включает художественную прозу, публицистические и эпистолярные произведения из представительных академических собраний сочинений русских классических писателей XIX – начала XX вв. Корпус «Социальные сети» включает более 160 млн словоупотреблений, начиная с 2007 года и сформирован на базе открытых источников таких социальных сетей как ВКонтакте, Telegram, Livejournal, Liveinternet, Blogspot. Язык в социальных сетях отличается наибольшей динамикой и свободой от нормативных ограничений и поэтому лучше отображает развитие лексики (включая сленг), эволюцию значений, изменения в грамматике и типичные ошибки. Исторический корпус «Восточнославянская эпиграфика» включает морфологически размеченные тексты надписей XI-XV веков с территории современных России, и Беларуси и Украины, а также тексты, найденные за пределами Восточной Европы – в Германии, Франции, Турции.
  • Произошло значительное пополнение ряда корпусов, в том числе Диалектного (до 600 тыс. словоупотреблений), Обучающего (в него было добавлено более 1000 новых текстов, включая все основные произведения школьной программы по литературе), Древнерусского (до 808 тыс. словоупотреблений), Корпуса региональных СМИ (до 35 млн словоупотреблений). Кроме того, в Параллельном корпусе появились новые языковые пары. Теперь параллельные с русскими фрагменты текстов можно искать также в сербском, словенском, корейском языках и хинди.
  • Обучающий корпус не только существенно увеличился в объеме - в нем появились новые возможности, включая Морфемный разбор, построенный в соответствии с практикой морфемного анализа в средней школе. Обновлена также страница «НКРЯ в школе»: там появилось много полезной информации об использовании НКРЯ на уроках русского языка и литературы и для самостоятельной работы в школе и дома

На сайте https://ruscorpora.ru/, а также в телеграм-канале проекта https://t.me/ruscorpora опубликована инфографика с изменениями за год.

29.12.2023 |
 

 

© Федеральное государственное бюджетное учреждение науки
Институт проблем передачи информации им. А.А. Харкевича Российской академии наук, 2024
Об институте  |  Контакты  |  Противодействие коррупции