Войти
Логин:
Пароль:
Забыли пароль?
научная деятельность
структура институтаобразовательные проектыпериодические изданиясотрудники институтапресс-центрконтакты
русский | english
Научные подразделения >> Лаборатория № 15 >> Действующая модель языка «Смысл <=> Текс...

Классическая версия модели «Смысл <=> Текст»

Объект моделирования: феномен владения языком. Модель «Смысл <=> Текст» (далее – МСТ) была разработана выдающимся лингвистом современности И.А. Мельчуком. Исходная посылка МСТ относительночеловеческих языков предельно проста. Язык есть средство, с помощью которого его носители выполняют две интеллектуальные операции:

1) Сообщают свои мысли другим людям, т.е. кодируют определенные смыслы текстами, которые их выражают (производство текстов, синтез);

2) Понимают мысли других людей, т. е. производят обратную операцию извлечения смыслов из воспринимаемых текстов (понимание текстов, анализ).

МСТ можно представить как логическое устройство, имитирующее эти две операции в их простейших проявлениях, связанных исключительно со знанием языка (словаря и грамматики). Хотя полноценное общение невозможно без знания внешнего мира, собеседника, ситуации общения и других факторов, учет такого рода знаний выходит далеко за пределы собственно лингвистических моделей.

Из этих операций более важной является активная операция производства текстов: именно в ней наиболее полно проявляется феномен владения языком.

Владение языком. Феномен активного владения языком складывается из трех способностей:

а) Способности выбрать языковые единицы (не только лексические), которые выражают нужный смысл. Это обеспечивается знанием их значений.

Пусть задан смысл (говоря более формально – семантическая структура)

(1) ‘Тот факт, что температура атмосферного воздуха внезапно стала намного меньше, был причиной того, что молодые растения, предназначенные для пересадки в другое место или недавно в него пересаженные, перестали существовать’.

По-русски он может быть выражен, например, предложением (1а):

(1а) Резкое похолодание вызвало гибель саженцев.

б) Способности правильно сочетать языковые единицы с нужными значениями. Выделенный в (1) семантический компонент ‘быть причиной’ выражен в предложении (1а) глаголом вызвать. То же самое или очень похожее значение выражается в русском языке многими другими глаголами, например:

(2а) порождать (панику), причинять (смерть), провоцировать (кризис), производить (переполох), создавать (иллюзию) и т.п.

Эти глаголы являются синонимами и в принципе способны к взаимозаменам, которые, однако, допустимы далеко не во всех контекстах. Так, возможно (2б), но не (2в); (2г), но не (2д); (2е), но не (2ж):

(2б) Эти слухи вызвали панику – Эти слухи породили панику,

(2в) *Резкое похолодание породило гибель саженцев.

(2г) Ожог вызывает сильную боль Ожог причиняет сильную боль,

(2д) *Резкое похолодание причинило гибель саженцев;

(2е) Эта новость вызвала переполохЭта новость произвела переполох,

(2ж) *Резкое похолодание произвело гибель саженцев;

Как ясно из этого примера, чтобы правильно говорить, мало знать значения языковых единиц; надо, кроме того, владеть нормами их сочетаемости друг с другом.

в) Способности перифразировать свои высказывания с сохранением их содержания (семантического инварианта). Так, предложение (1а) может быть перифразировано в виде (3а) – (3ж), как, впрочем, и многими другими способами:

(3а) Резкое похолодание было причиной гибели саженцев,

(3б) Гибель саженцев была следствием резкого похолодания,

(3в) Резкое похолодание погубило саженцы,

(3г) Саженцы погибли из-за резкого похолодания,

(3д) Гибель саженцев была вызвана резким похолоданием,

(3е) Резкое похолодание привело к гибели саженцев,

(3ж)Гибель саженцев проистекла из-за резкого похолодания и т.п.

Способность к перифразированию может служить мерилом собственно языковой компетенции говорящих: чем больше число способов, которыми человек может выразить свою мысль на языке L, тем лучше он им владеет.

Уровни представления предложений в МСТ

С точки зрения своего внутреннего устройства МСТ является многоуровневым двусторонним транслятором, в котором выделяются следующие уровни представления текстов (на примере предложения (1а), т.е. при переходе от текста к смыслу):

Морфологический уровень и морфологическая структура:

(4а) РЕЗКИЙ, ед, им, ср // ПОХОЛОДАНИЕ, ед, им // ВЫЗВАТЬ, прош, сов, изъяв, ед, ср // ГИБЕЛЬ, ед, вин // САЖЕНЕЦ, мн, род

Морфологической структурой предложения Sназывается последовательность имен входящих в его состав лексем с приписанной каждой лексеме грамматической информацией о ее падежной (им, род, вин и т.п.),числовой (ед, мн), временной (прош), видовой (сов) или другой форме.

Поверхностно-синтаксический уровень и поверхностно-синтаксическая структура (ПСС):

(4б)

ПСС – это дерево зависимостей. В его узлах стоят имена лексем с редуцированным набором морфологических характеристик (классический вариант МСТ предусматривает сохранение только семантически содержательных, но не контекстуально обусловленных характеристик словоформ), а узлы связаны одним из нескольких десятков специфичных для данного языка отношений подчинения.

Глубинно-синтаксический уровень – глубинно-синтаксическая структура (ГСС):

(4в)

 

ГСС – это тоже дерево зависимостей. В его узлах стоят имена лексем с такими же морфологическими характеристиками, что и в ПСС, плюс символы лексических функций (см. CAUSFUNC0 в вершине дерева), а узлы связаны одним из девяти универсальных для всех языков отношений подчинения.

В МСТ предполагается еще семантический уровень представления высказываний, но в нынешней версии модели он еще не до конца формализован.

Корректировка и развитие МСТ

Компьютерная реализация модели «Смысл <=> Текст» на массовом текстовом материале и в составе различных функционирующих систем, осуществленная в Лаборатории компьютерной лингвистики (см. о ней ниже), создала – впервые в нашей науке – мощный экспериментальный полигон, на котором можно было проверять справедливость не отдельных лингвистических утверждений, а истинность целостной теории. Это не могло не привести к существенной корректировке ее основ.

Здесь будет рассмотрен один из фрагментов теории, который подвергся корректировке, – аппарат лексических функций (ЛФ). Для нас существенны два его аспекта:

а) Семантические закономерности, которые лежат в его основе; знание этих закономерностей позволяет делать предсказания о свойствах целых классов слов и системно описывать материал в словаре;

б) возможности практического использования аппарата лексических функций в системах переработки текстов на естественных языках.

Классическая версия ЛФ

Главный тезис классической версии теории ЛФ звучит так: в языках мира можно выделить несколько десятков значений высокого уровня абстракции (‘высокая степень’, ‘начало’, ‘прекращение’, ‘каузация’, ‘ликвидация’, ‘манифестация’ и др.), каждое из которых выражается большим классом слов. При этом выбор конкретного слова W для выражения данного значения ‘S’ целиком зависит от того слова X (аргумента ЛФ), с которым оно сочетается в тексте. Он семантически не мотивирован, т.е. идиоматичен.

Помимо таких синтагматических ЛФ, или ЛФ-коллокатов, описывающих связи слов в тексте, выделяется несколько десятков парадигматических ЛФ, описывающих различные типы семантических отношений между словами в словаре (синонимия, антонимия, конверсия, разные виды производности и т.п.). Вот четыре примера ЛФ:

СAUSFUNC0 ‘быть причиной того, что нечто существует’: СAUSFUNC0 (гибель) = вызывать (гибель), приводить к (гибели); СAUSFUNC0 (паника) = вызывать (панику), порождать (панику); см. также примеры (2б) – (2ж) выше.

OPER1 – семантически пустой глагол, при котором первый актант А1 какой-то ситуации выполняет функцию подлежащего, а название самой ситуации – функцию главного дополнения: OPER1 (контроль) = осуществлять (контроль).

OPER2 – семантически пустой глагол, при котором второй актант А2 какой-то ситуации выполняет функцию подлежащего, а название самой ситуации – функцию главного дополнения: OPER2 (контроль) = подвергаться (контролю), находиться под (контролем), быть под (контролем).

S0 – отглагольное существительное, сохраняющее лексическое значение исходного глагола: S0 (атаковать) = атака, S0 (контролировать) = контроль, S0 (стыдиться) = стыд и т.п.

На основе этих и других подобных ЛФ формулируются универсальные (верные для любых языков) правила перифразирования. Пусть Х – произвольный глагол, а S0 (X) – отглагольное существительное от него. Тогда имеет место следующее равенство:

(5) Х = OPER1(S0(X)) + S0(X) = OPER2(S0(X)) + S0(X).

В силу (5), предложения (6а)-(6в) синонимичны:

(6а) А1 контролирует [X] А2,

(6б) А1 осуществляет [OPER1] контроль [S0(X)] А2,

(6в) А2 подвергается [OPER2] контролю [S0(X)] (со стороны) А1.

Основанием для утверждения, что OPER1 и OPER2 – семантически пустые глаголы, служит факт синонимичности выражений типа (6): коль скоро все три предложения выражают один и тот же смысл, семантический вклад глаголов произвести и подвергнуться в значение всего предложения равен нулю.

OPER1 и OPER2 – представители целого семейства ЛФ, на которые распространяются указанные определения. Все ЛФ этого семейства считаются семантически пустыми, а выбор конкретного глагола на роль данной ЛФ от данного аргумента семантически немотивированным.

Корректировка теории ЛФ

Как показывают наши исследования, тезис о семантической мотивированности ЛФ требует существенного пересмотра. На самом деле

а) Все слова, являющиеся значениями каких-либо ЛФ от каких-то слов-аргументов, семантически содержательны, т.е. имеют собственное лексическое значение. Эффект «пустоты» возникает оттого, что значение ЛФ типа OPER1 или OPER2 так или иначе вкладывается в значение ключевого слова.

б) Выбор конкретного слова W на роль данной ЛФ от данного ключевого слова Х мотивирован, хотя и не полностью, общим смысловым компонентом в лексических значениях W и X. Наличие такого компонента объясняется законами семантического согласования: они требуют, чтобы в значениях сочетающихся слов был повторяющийся компонент. Два примера:

На роль OPER1 от имен многих речевых актов чаще всего выбирается глагол давать в метафорическом значении передачи нематериального объекта: давать зарок, инструкцию, интервью, клятву, команду, консультацию, обещание, объяснение, ответ, приказ, присягу, разрешение, разъяснение, распоряжение, рекомендацию, совет, согласие, указание и т.п. Почему?

Как известно, никакой речевой акт невозможен без Говорящего (А1), Содержания сообщения (А2) и Адресата (А3). Семантическая роль Адресата в конечном счете сводится к роли Получателя: Адресат – это Получатель сообщения. Но Получатель – это третий актант (А3) глагола давать в значении физической передачи: Он дал мне книгу. Тем самым выбор давать на роль OPER1 от речевых актов оказывается неслучайным: Получатель физического действия закономерно превращается в Адресата информационного действия при переходе от основного физического значения давать к лексико-функциональному.

На роль OPER2 от имен действий типа контроль, предполагающих подвластность второго участника ситуации (Пациенса) со стороны первого (Агенса), чаще всего выбирается глагол подвергаться: подвергаться агрессии, аресту, атаке, бойкоту, бомбардировке, влиянию, гонениям, давлению, допросу, изгнанию, критике, мучениям, наказанию, налету, обстрелу, оскорблению, осмеянию, остракизму, побоям, порке, преследованиям, пытке, травле, цензуре, штрафу. Почему?

Глагол подвергаться имеет пассивное значение (выраженное и корнем, и приставкой под-) и предполагает такого участника ситуации, который испытывает на себе воздействие со стороны другого участника, имеющего власть над ним.

Итак, если взять какую-то ЛФ, скажем, OPER1, и одно из ее возможных выражений W (например, давать), то ее аргументами оказываются слова достаточно однородного семантического класса. Это объясняется общим законом семантического согласования, который требует, чтобы в значениях сочетающихся слов повторялся какой-то смысловой компонент. Но тогда, если мы возьмем какое-то одно существительное, то в силу того же закона оно должно быть семантически согласовано с выражениями всех возможных для него ЛФ.

Проверим это на списке ЛФ-глаголов для существительного контроль: быть <находиться> под контролем, подвергаться контролю, держать кого-л. под контролем, подвергать что-л. контролю, попадать под контроль, выходить из-под контроля, ставить что-л. под контроль, выводить что-л. из-под контроля. В значение слова контроль входит указание на иерархию отношений между двумя лицами и на то, что лицо, занимающее более высокое положение в этой иерархии, может диктовать свою волю другому. В этом отношении слову контроль близки слова а) власть, влияние и б) надзор, наблюдение. Поэтому естественно ожидать, что сочетаемость с глаголами у всех пяти слов будет похожей, хотя, разумеется, и не вполне совпадающей. Легко убедиться, что это действительно так.

Таким образом, обновленная теория ЛФ приобретает главное свойство всякой теории – предсказательную силу. Зная семантические классы ключевых слов и универсальный набор ЛФ, можно формировать правильные лексикографические ожидания даже по поводу не вполне свободной сочетаемости слов. Это переводит на принципиально новый уровень работу лингвиста-лексикографа – от штучного описания материала удается перейти к системному.

Таков первый теоретический результат работ Лаборатории по МСТ.

Укажем еще на два других важных теоретических результата этих работ

Второй результат – это обновленная теория семантических валентностей предикатных слов, которая дала возможность на общих теоретических принципах рассматривать не только активные валентности слова W, которые выражаются словами, синтаксически зависящими от W, но и его пассивные валентности, выражаемые словами, синтаксически подчиняющими W, а также разрывные (дистантные) валентности, которые не обнаруживают никакой синтаксической связи с W. Благодаря этому открывается возможность превратить аппарат семантических валентностей в важнейший инструмент семантического анализа. По существу, все типы семантических связей между словами (например, представленные в таких выражениях, как Мальчик спит; большое дерево; быстро бежит; маленький, но ловкий и т.п.) в конечном счете реализуют те или иные семантические валентности. Таким образом, заполнение всех типов валентностей обеспечивает соединение значений всех семантически связанных слов в единое целое.

Третий теоретический результат – это создание теории микросинтаксиса, которая позволяет на общих теоретических основаниях исследовать и описывать весьма разнородные языковые явления, находящиеся на стыке синтаксиса, лексикографии и семантики, в частности, (а) синтаксические фраземы типа Xне Z-овать ‘человек Xне сможет осуществить действие Z’, ср. Лучшего собеседника мне не найти, (б) синтаксические агломераты типа негде, которые фактически представляют собой стяжение двух слов, синтаксически даже не связанных друг с другом – отрицательного глагола не и наречия где, (в) фразеосхемы типа В силах Х-а, ср. сделать это не в силах Ивана, сделать это не в моих силах. Эти явления до сих пор не имели адекватного отражения как в рамках МСТ, так и за ее пределами.

Развитием теории «Смысл <=> Текст» в лаборатории в первую очередь занимаются Ю.Д.Апресян, И.М.Богуславский и Л.Л.Иомдин.

НОВОСТИ И ОБЪЯВЛЕНИЯ
Биоинформатики ИППИ РАН Егор Базыкин и Дмитрий Родионов вошли в список лучших молодых ученых России ...
Семинар лаборатории № 8: 8 декабря в 14:30 в ИПЭЭ РАН. Е.М. Максимова. Уточнение стратификации оконч...
Сотрудники сектора молекулярной эволюции №4 Егор Базыкин и Александр Панчин в программе "Один Вадим"...
Заведующий Сектором геоинформационных технологий и систем ИППИ РАН Валерий Гитис в программе "Черны...
Открытый семинар Сектора анализа данных в нейронауках №10.3: 7.12.2016 (понедельник), 11:00, ауд. 61...
Семинар по структурному обучению: 08.12.2016 (четверг), 17:00, ауд.615 ИППИ. В. В. Ульянов "Асимптот...
Семинар "Структурные модели и глубинное обучение": 6.12.2016 (вторник), ауд. 615 ИППИ,18:30. Bykov...
Семинар по теории кодирования: 6.12.2016 (вторник),19:00, ауд.307 ИППИ. Сергей Еханин "Максимально в...
Все новости   
 

 

  © Федеральное государственное бюджетное учреждение науки
Институт проблем передачи информации им. А.А. Харкевича Российской академии наук, 2016
Об институте  |  Контакты  |  Старая версия сайта