Научная деятельность >> Крупные научные проекты
«Компьютерно-лингвистическая платформа нового поколения для цифровой документации русского языка: инфраструктура, ресурсы, научные исследования» — крупный научный проект, реализуемый с 2020 по 2023 г.г. по государственной программе «Научно-технологическое развитие Российской Федерации» (ведомственный проект Министерства образования и науки РФ «Развитие институтов грантовой поддержки исследователей, научных и творческих коллективов». Проект нацелен на развитие Национального корпуса русского языка и реализован силами консорциума под руководством Института проблем передачи информации им. А. А. Харкевича РАН и созданной специально под проект лаборатории №20 цифровой документации русского языка. который вошли Институт русского языка им. В.В. Виноградова РАН, Институт лингвистических исследований РАН, Национальный исследовательский университет "Высшая школа экономики" и Воронежский государственный университет.
Национальный корпус русского языка (НКРЯ) — представительная коллекция текстов на русском языке общим объемом более 2 млрд слов и более 6,3 млн текстов, оснащенная лингвистической разметкой и инструментами онлайн-поиска. Созданный 20 лет назад по инициативе ИППИ, ИРЯ и Яндекса, сегодня Национальный корпус русского языка охватывает период от первых восточнославянских памятников (XI век) до первых десятилетий XXI века и представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах — литературном, разговорном, просторечном, диалектном. НКРЯ включает в себя 16 независимых корпусов, среди которых газетный, синтаксический, поэтический, устный, мультимедийный и другие корпуса. НКРЯ — главный корпусной ресурс мировой русистики. Он в полном смысле слова является элементом инфраструктуры "мегасайенс" в социогуманитарных науках.
Результатом трехлетней работы лингвистов и разработчиков ИППИ стал Корпус 2.0 (ruscorpora.ru) — принципиально новая программная платформа, которая обеспечит функционирование корпуса на многие годы вперед. Институты и университеты-партнеры проекта пополнили корпус десятками миллионов словоформ и качественно усовершенствовали лингвистическую разметку. Корпус впервые стал панхроническим: он представляет единый поисковый интерфейс к тысячелетней истории развития русского языка, переведенной в цифровую форму. Новый сервис Портрет слова и другие возможности НКРЯ, адресованные широкому кругу пользователей, делают корпус ценным ресурсом не только для академических исследователей, но и для всех интересующихся русским языком как живой развивающейся системой, у которой есть вчера, сегодня и завтра. НКРЯ рекомендован к включению в программу обучения школьников.
Комплексная научная программа «Цифровые технологии и их применения» (2015)
|