ВЕРСИЯ ДЛЯ СЛАБОВИДЯЩИХ
Войти
Логин:
Пароль:
Забыли пароль?
научная деятельность
структура институтаобразовательные проектыпериодические изданиясотрудники институтапресс-центрконтакты
русский | english
Научная деятельность >> Прикладные разработки >> МНОГОЦЕЛЕВОЙ ЛИНГВИСТИЧЕСКИЙ ПРОЦЕССОР Э...

Лингвистический процессор ЭТАП-3 – это компьютерная система, обладающая большим объемом знаний о Естественном Языке вообще и о русском и английском языках в частности. Благодаря этим знаниям и соответствующим алгоритмам ЭТАП-3 может анализировать тексты, написанные на этих языках, и самостоятельно строить такие тексты по исходному смысловому заданию. На основе ЭТАПа-3 осуществлены четыре  прикладные разработки  - система машинного перевода (http://proling.iitp.ru ),  конвертор/деконвертор семантического языка UNL (http://unl.ru/deco.html ), компьютерный учебник лексики и синтаксически размеченный корпус русских текстов СинТагРус (http://ruscorpora.ru/instruction-syntax.html).

1. Система машинного перевода умеет переводить тексты с русского языка на английский и с английского на русский. Она располагает словарями этих языков, достигающими 100 тысяч лексических единиц каждый, и несколькими массивами правил анализа, синтеза и перевода текстов. От других систем аналогичного назначения система отличается в первую очередь тем, что опирается на целостную лингвистическую теорию «Смысл Текст».

 

Рис. 1. Пример работы системы машинного перевода ЭТАП-3.

В верхнем поле рабочего окна системы - русское предложение, в нижнем – его перевод на английский язык.

 

 

Рис. 2. Синтаксическая структура русского предложения в виде дерева зависимостей – главный результат синтаксического анализа, к которому и применяются правила перевода. Все слова предложения представлены своими именами (они в прямоугольниках) и наборами грамматических характеристик – часть речи, род, число, падеж и др. (справа от прямоугольников). Каждое слово, за исключением абсолютной вершины предложения (на рисунке это слово удалось), подчиняется какому-то другому слову по некоторому синтаксическому отношению (имена отношений – в полях овальной формы).

 

2.  Конвертор/деконвертор семантического языка UNL способен  преобразовывать русские и английские тексты в их семантические представления на языке UNL и осуществлять обратную операцию – синтезировать русские или английские тексты по семантическому представлению. Эти модули входят в состав системы многоязычного общения, в которую помимо них входят конверторы и деконверторы французского, испанского, арабского, хинди и некоторых других языков, разработанные нашими партнерами. На рис. 3 можно видеть семантическое представление русского предложения В феврале в Москве состоится международная конференция, посвященная юбилею этого выдающегося ученого  в виде графа UNL.

 

Рис. 3. Пример семантического графа. В верхнем поле семантический граф, в нижнем – соответствующее ему русское предложение.

 

3.  Следующая прикладная разработка, выполненная на базе лингвистических знаний процессора ЭТАП-3, - это компьютерный учебник лексики, предназначенный как для иностранцев, так и для тех, кто хочет усовершенствовать свое знание родного языка. Предмет изучения – сложные аспекты лексическойс истемы языка (так называемые лексические функции), связанные в первую очередь с правилами сочетаемости слов, которые не охватываются никакими традиционными учебными методиками. Учебник построен как набор интерактивных игр, в которых  система задает пользователю вопросы разных уровней сложности, в случае необходимости делает подсказки и выставляет оценки. На рис. 4 показан один из моментов игры «Угадай лексическую функцию». 

 

Рис. 4. Игра «Угадай лексическую функцию». Пользователю предъявлены примеры значений лексической функции MAGN («большая степень чего-либо»: брюнет– жгучий, тьма - кромешная) и предлагается определить значение этой функции от слова битва.

 

4.  Корпус текстов СинТагРус – это первый корпус русскогоя зыка, в котором каждому предложению приписана его полная морфологическая и синтаксическая структура (наподобие представленной на рис. 2). В настоящее время корпус содержит около 40 тыс. предложений (приблизительно 600 тысяч слововхождений). Разметка текстов производится в полуавтоматическом режиме: вначале модуль синтаксического анализа процессора ЭТАП-3 строит для каждого предложения его синтаксическую структуру, а затем эта структура проверяется и при необходимости редактируется экспертом-лингвистом. Благодаря такой организации работы достигается высокое качество разметки корпуса. СинТагРус используется как в теоретических исследованиях в области языкознания, так и в практических задачах обработки текстов на естественном языке (в частности, для целей машинного обучения статистических анализаторов русского текста).

 

 

 

 

 

 

 

НОВОСТИ И ОБЪЯВЛЕНИЯ
В среду 19 июня в г. Ханты-Мансийске в рамках VI Международной конференции «Информация и коммуникаци...
Сотрудники ИППИ РАН стали победителями конкурсного отбора на назначение новой стипендии Президента Р...
В продолжение цикла лекций 27 июня (четверг) пройдёт семинар "Информационные проблемы искусствен...
Во вторник 18 июня сотрудники Института проблем передачи информации им. А.А. Харкевича РАН приняли у...
Скоро стартует Летняя школа по анализу данных ИППИ РАН 2024 ! Летняя школа — это возможность поработ...
В четверг 20 июня в 17:00 (аудитория 307 ИППИ) пройдет Семинар сектора репродукции и синтеза цвета №...
В четверг 13 июня в главном здании БЕН РАН состоялась первая из серии лекций «Пионеры цифровой эпох...
В четверг 13 июня в 17:00 (аудитория 307 ИППИ) пройдет Семинар сектора репродукции и синтеза цвета №...
С Днем...
В четверг 13 июня в Главном здании БЕН РАН пройдет лекция "Пионеры цифровой эпохи. Как всё начиналос...
XV научная конференция "Дифференциальные уравнения и смежные вопросы...
Руководитель ИППИ РАН М.В. Федоров принял участие в заседании ОНИТ РАН и Общем собрании членов...
В соответствии с утвержденным «Положением об Ученом совете ИППИ РАН» и согласно графику работы Учено...
Президент РАН академик Геннадий Красников рассказал о ключевых направлениях деятельности Российской ...
Московский телекоммуникационный семинар: 7 июня (пятница), 17:00, онлайн. Григорий Ермолаев (ННГУ им...
Семинар Добрушинской математической лаборатории ИППИ РАН 11 июня, вторник, 16:00, ауд. 307. Ал...
Поздравляем с Днем русского...
7 июня в пятницу в 17:00 пройдет заседание Московского телекоммуникационного семинара.Докладчик: Гри...
Вручение Максиму Валериевичу Федорову благодарности Президента Российской Федерации 27-го мая на...
Совместный семинар ИПЭЭ РАН и ИППИ РАН по проблемам сенсорной физиологии: 6 июня (четверг), 14:30, м...
Все новости   
 

 

© Федеральное государственное бюджетное учреждение науки
Институт проблем передачи информации им. А.А. Харкевича Российской академии наук, 2024
Об институте  |  Контакты  |  Противодействие коррупции