Войти
Логин:
Пароль:
Забыли пароль?
научная деятельность
структура институтаобразовательные проектыпериодические изданиясотрудники институтапресс-центрконтакты
русский | english
Научные подразделения >> Лаборатория № 15 >> Многоцелевой лингвистический процессор Э...

Автор МСТ И.А. Мельчук разработал ее общую идеологию и, в соавторстве с учениками, написал фрагменты правил и словарей, необходимых для анализа и синтеза текстов (опубликованные лексические компоненты модели – толково-комбинаторные словари русского и французского языков – насчитывают лишь несколько сот словарных статей). Никакие из этих фрагментов не были формализованы до такой степени, чтобы допускать реализацию на компьютере.

Компьютерная реализация модели «Смысл <=> Текст» в достаточно полном объеме была впервые осуществлена Лабораторией компьютерной лингвистики ИППИ РАН. Она известна под названием ЭТАП-3.

Это система, главное предназначение которой – анализировать и синтезировать тексты, то есть преобразовывать тексты из их исходного вида в некоторое абстрактное представление, приближенное к представлению смысла, и обратно. Помимо этого главного предназначения, направленного на решение фундаментальной задачи моделирования естественного языка, имеется и прикладной аспект. Коль скоро система умеет понимать и строить тексты, разумно попытаться использовать эту способность в каких-либо конкретных приложениях, способных принести конкретную пользу.

Между теоретической моделью и ее компьютерной реализацией имеется двусторонняя зависимость. С одной стороны, компьютерная система стремится как можно более точно воплотить теоретические принципы МСТ. Это, в первую очередь, представление каждого высказывания на нескольких уровнях (морфологическом, поверхностно-синтаксическом и глубинно-синтаксическом), изображение синтаксического строения предложения в виде дерева зависимостей между словами и признание словаря, наряду с грамматикой, важнейшим компонентом лингвистической модели. С другой стороны, компьютерная модель имеет неоценимое значение для развития теории, поскольку служит объективным и надежным полигоном для проверки и отладки теоретических положений и конкретных решений. Дело в том, что как только мы покидаем область наблюдаемого текста и переходим на более абстрактные уровни представления, мы лишаемся возможности непосредственно оценивать результаты. Лишь компьютерное моделирование предоставляет исследователю возможность наглядно увидеть, насколько адекватна действительности разработанная им теоретическая схема.

ЭТАП-3 – это многоцелевой лингвистический процессор. Основными прикладными системами, в составе которых он опробовался, были системы машинного перевода (МП) с русского языка на английский и обратно, работающие на текстах большого объема. Для этого потребовалось:

(а) написать полные формальные грамматики русского и английского языков, включающие морфологию и синтаксис;

(б) создать автоматические морфологические и комбинаторные словари обоих рабочих языков объемом около 120 000 входов каждый;

(в) написать формальные правила преобразования структур, включающие и правила перевода структур самого глубокого уровня с одного языка на другой;

(г) разработать формальные языки для записи всей этой лингвистической информации, алгоритмы работы с ними и соответствующие комплексы программ.

В дополнение к системе русско-английского и англо-русского МП, в ЭТАП-3 имеются макеты для нескольких других языков - французского, немецкого, испанского, арабского и корейского.

Помимо системы МП, в ЭТАП-3 входят:

  1. Система глубокого аннотирования текстов.
  2. Конверторы и деконверторы для универсального сетевого языка UNL;
  3. Система синонимического перифразирования высказываний;
  4. Компьютерный учебник лексики русского и английского языков.

Основными чертами лингвистического процессора ЭТАП-3 являются следующие:

  1. Многофункциональность: система применима к любому классу задач, в которых в той или иной степени требуется понимание текстов и/или построение текстов по заданному смысловому заданию (машинный перевод, общение с БД на ЕЯ, вопросно-ответные системы, извлечение информации из текстов, и др.)
  2. Многоязычность: программно-алгоритмическое обеспечение полностью отделено от лингвистических знаний и в равной степени применимо к любому языку.
  3. Стратифицированность: анализ предложения состоит в построении представлений этого предложения на нескольких уровнях – от морфологического к глубинно-синтаксическому. Синтез предложения осуществляется в обратном направлении.
  4. Акцент на словаре: словари системы ЭТАП-3 превосходят другие электронные словари по объему, а главное, по разнообразию информации, приписываемой каждому слову. Эта информация включает в себя, в частности, синтаксические и семантические признаки, модели управления, лексические функции, правила, описывающие особенности поведения отдельных слов и исключения из общих правил. При подобном богатстве лексикографической информации особое значение приобретает настройка словаря на грамматику и грамматики на словарь.
  5. Оригинальный формализм для записи лингвистических знаний,соединяющий в себе богатство выразительных возможностей и удобство для использования лингвистами с удобством для алгоритмической обработки (см. о нем ниже, в разделе 7).
  6. Самонастройка системы на обработку каждого предложения:это обеспечивается путем введения в словарь правил, обслуживающих узкие классы слов или индивидуальные слова.
  7. Интерактивность: диалог с пользователем для разрешения сложных случаев неоднозначности.
  8. Максимальное использование (reusability) лингвистических ресурсов.

Рассмотрим последнюю особенность несколько подробнее. В лингвистическом процессоре ЭТАП-3 его авторы стремятся к тому, чтобы ресурсы, которыми пользуются разные прикладные системы, носили по возможности общий характер. Так, во всех приложениях ЭТАП-3 используется единственный английский комбинаторный словарь, единственный русский комбинаторный словарь и т.д.; скажем, первый из них используется как словарь входного языка в системе англо-русского перевода и как словарь выходного языка в системе русско-английского и арабско-английского перевода.

В этом отношении показательно также разностороннее применение аппарата лексических функций, который используется почти во всех приложениях ЭТАПа-3, в частности, в компьютерном учебнике лексики; в системе синонимического перифразирования и в системе машинного перевода. В последней системе этот аппарат применяется для трех разных задач: (а) разрешение синтаксической омонимии; (б) разрешение лексической неоднозначности; (в) получение идиоматичного перевода.

Разрешение синтаксической омонимии. В примерах типа контроль правительства представлен распространенный случай синтаксической омонимии – родительный субъекта и объекта: либо правительство контролирует кого-то, т.е. является Агенсом, либо оно само кем-то контролируется, т.е. является Пациенсом. Этот тип омонимии надежно разрешается в случае, если ключевое слово (контроль) зависит от ЛФ OPER1 = осуществлять или OPER2 = быть под, находиться под, подвергаться. В контексте OPER1 существительное в форме РОД (правительство) может обозначать только Пациенса контроля, потому что АГЕНС контроля уже реализован подлежащим данной ЛФ: Президент осуществляет контроль правительства. В контексте OPER2 то же существительное может обозначать только Агенса контроля, потому что его ПАЦИЕНС уже реализован подлежащим данной ЛФ: Президент находится под контролем правительства.

Разрешение лексической неоднозначности. У глагола держать насчитывается свыше 10 разных значений, представленных во фразах держать сыр во рту (А сыр во рту держала), Пустите, не держите меня!, держать общегородское первенство, Лед держал его, но потрескивал, Тормоза не держат, держать кого-л. под стражей, держать окна открытыми и т.п. Такие многозначные слова создают большие трудности при переводе. Однако нужное значение многозначного глагола легко выбирается, когда он употреблен в контексте существительного, для которого он является значением ЛФ, например, ЛФ OPER1. Таковы, в частности, словосочетания держать речь, держать пари, держать экзамен и т. п. В ходе анализа текста на основе информации об ЛФ в словарных статьях слов речь, пари, экзамен глаголу держать приписывается символ OPER1, и многозначность разрешается.

Получение идиоматичного перевода. Поскольку в словаре выходного языка английские эквиваленты русских слов, в частности speech (речь), bet (пари), examination (экзамен) и т.п. снабжены информацией о том, как при них выражается ЛФ OPER1, дело сводится к простой замене русских лексико-функциональных глаголов соответствующими английскими: держать (речь) -> make (a speech) (букв. ‘делать речь’), держать (пари) -> lay (a bet) (букв. ‘класть пари’), держать экзамен -> take an examination (букв. ‘брать экзамен’) и т. п.

Некоторые приложения лингвистического процессора ЭТАП-3 активно развиваются в последние годы и заслуживают отдельной краткой характеристики.

Система глубокого аннотирования текстов

Синтаксически размеченный корпус, разрабатываемый в Лаборатории уже в течение ряда лет, – составная и в то же время автономная часть Национального корпуса русского языка (www.ruscorpora.ru). По состоянию на конец 2007 года он охватывает около 35 тысяч предложений. Корпус представляет собой коллекцию большого числа текстов разных авторов и разных жанров, в которой каждое предложение снабжено детальной синтаксической структурой. Подобные корпусы текстов составляются сейчас для всех крупнейших языков мира, и их значение трудно переоценить. С одной стороны, синтаксически размеченный корпус служит важным источником систематизированных знаний о синтаксисе языка и используется лингвистами при проведении фундаментальных лингвистических исследований. С другой стороны, это важнейший ресурс компьютерной лингвистики, с помощью которого можно создавать компьютерные программы обработки естественного языка с помощью статистических методов.

Для того, чтобы подобный корпус мог иметь практический интерес, он должен быть достаточно большим. Корпус, создаваемый в Лаборатории, уже достиг той критической массы, которая позволяет приступить к экспериментам по обучению программ синтаксического анализа. Эта работа уже начата совместно со шведскими коллегами.

Поскольку синтаксическая разметка корпуса осуществляется в полуавтоматическом режиме (вначале парсер, т.е. синтаксический анализатор, лингвистического процессора ЭТАП-3, автоматически порождает синтаксическую структуру каждого предложения в виде дерева зависимостей, а затем каждая структура проверяется и при необходимости корректируется экспертами-лингвистами), сама эта работа представляет ценнейший ресурс для исследователей – лингвистов и математиков, занимающихся разработкой парсеров. По результатам массовой работы парсера производится коррекция лингвистических правил и алгоритмов синтаксического анализа.

Работами, связанными с созданием глубокого аннотированного корпуса текстов, активно занимаются сотрудники лаборатории Л.Л.Иомдин, Л.Г.Митюшин, В.Г.Сизов, Т.И.Фролова, Л.Л.Цинман и О.Ю.Подлесская.

Универсальный Сетевой Язык (UNL)

Опция конвертации-деконвертации языка UNL разрабатывается в рамках широкой международной инициативы, инициированной Университетом ООН. В этом университете разработан формальный язык-посредник UNL и поставлена задача построить модули, обеспечивающие перевод с этого языка на широкий круг естественных языков, в первую очередь, на официальные языки ООН и другие крупнейшие языки. Цель проекта состоит в том, чтобы предоставить пользователям Интернета возможность получать информацию на своем родном языке, независимо от того, на каком языке эта информация представлена в Интернете. В этот состоит важное социальное измерение проекта. В настоящее время в проекте участвуют исследовательские группы, представляющие французский, испанский, португальский, арабский, хинди, китайский, индонезийский и некоторые другие языки. В ИППИ РАН разрабатывается «мостик» между UNL и русским языком.

В лаборатории задачами построения модулей конвертации и деконвертации для UNL активно занимаются И.М.Богуславский, В.Г.Диконов, В.З.Сизов и Т.И.Фролова.

Синонимическое перифразирование как средство повышения точности информационного поиска

В последнее время система синтаксического перифразирования, которая в составе лингвистического процессора ЭТАП-3 являлась скорее экспериментальным полигоном для проверки и коррекции некоторых теоретических положений МСТ, получила новый важный импульс.

Каждый, кто пользовался какой-либо поисковой системой, знает, что, если задав какое-либо выражение для поиска, мы не получаем удовлетворительного результата, то нередко помогает простая переформулировка запроса другими словами, поскольку поиск осуществляется в конечном счете на основе совпадения слов запроса и слов документа. Поскольку один и тот же смысл можно выразить множеством разных способов, успех в поиске определяется тем, удалось ли при формулировке запроса, угадать именно те слова, которые использованы в документе, который мы ищем.

Этот процесс – варьирование словесной формы одного и того же запроса – можно в значительной степени автоматизировать с помощью системы перифразирования на основе лексических функций.

Так, например, пусть мы хотим выяснить высоту Пизанской башни. Если мы зададим запрос «высота Пизанской башни» и будем искать все тексты, где так или иначе встретились эти слова, мы получим огромное число страниц, не имеющих никакого отношения к нашей информационной потребности. Если же мы захотим уменьшить количество шума и жестко зададим форму искомого текста (напр, «Чему равна высота Пизанской башни?» – все эти слова и в таком порядке), то мы не сможем найти тексты, в которых интересующая нас информация выражена другими словами. Механизм перифразирования позволяет получить целую серию синонимичных и квазисинонимичных выражений, охватывающих более широкий круг текстов, например:

  • Высота Пизанской башни равна…
  • Высота Пизанской башни составляет…
  • Высота Пизанской башни достигает…
  • Высота Пизанской башни равняется…
  • Пизанская башня имеет в высоту…
  • Пизанская башня достигает в высоту…
  • Пизанская башня имеет высоту…
  • Пизанская башня достигает высоты…

Применение этого механизма, как показали проведенные в последнее время широкие эксперименты, позволит заметно повысить точность поиска и одновременно существенно сократить шум.

Система ЭТАП-3 позволяет реализовать эту способность также в режиме многоязычного поиска. Так, если исходный запрос будет переведен системой на английский язык и механизм перифразирования будет запущен внутри английского языка, то мы получим еще и серию синонимичных запросов для поиска в англоязычном Интернете.

В лаборатории задачами построения и развития системы перифразирования активно занимаются Л.Л.Иомдин, С.П.Тимошенко и Л.Л.Цинман.

НОВОСТИ И ОБЪЯВЛЕНИЯ
Заведующий Лабораторией №12 "Изучение информационных процессов на клеточном и молекулярном уровнях" ...
13 декабря (вторник) в Сколково состоится совместный воркшоп Сколтеха и крупнейшей международной кол...
Семинар <<Глобус>> Независимого Московского Университета: 15 декабря в 15.40 в НМУ, конференц-зал. V...
Биоинформатики ИППИ РАН Егор Базыкин и Дмитрий Родионов вошли в список лучших молодых ученых России ...
Семинар лаборатории № 8: 8 декабря в 14:30 в ИПЭЭ РАН. Е.М. Максимова. Уточнение стратификации оконч...
Сотрудники сектора молекулярной эволюции №4 Егор Базыкин и Александр Панчин в программе "Один Вадим"...
Заведующий Сектором геоинформационных технологий и систем ИППИ РАН Валерий Гитис в программе "Черны...
Открытый семинар Сектора анализа данных в нейронауках №10.3: 7.12.2016 (понедельник), 11:00, ауд. 61...
Все новости   
 

 

  © Федеральное государственное бюджетное учреждение науки
Институт проблем передачи информации им. А.А. Харкевича Российской академии наук, 2016
Об институте  |  Контакты  |  Старая версия сайта