Семинары >> Семинар по теоретической семантике >> Прошедшие заседания
555-е заседание
10 апреля состоялся доклад Сергея Александровича Гладилина (с.н.с. лаборатории зрительных систем ИППИ РАН) "Система НКРЯ как многоуровневое программное обеспечение"
Работа выполнена совместно с Д. А. Морозовым, м.н.с. лаборатории компьютерной лингвистики ИППИ РАН.
Краткая аннотация доклада
Программное обеспечение (ПО) Национального корпуса русского языка (НКРЯ) представляет собой лексико-грамматическую поисковую систему с веб-интерфейсом, поисковым движком в которой выступает преимущественно Яндекс.Сервер или облачный Яндекс.Поиск. В настоящее время ПО НКРЯ является монолитным в том смысле, что его структурные компоненты взаимодействуют друг с другом сложным образом и при их разработке неявно используется информация об особенностях функционирования других частей системы. В докладе будет предложен альтернативный подход, предполагающий декомпозицию всего ПО на три уровня, строгое описание интерфейсов межуровневого взаимодействия и исключение неявных предположений об особенностях функционирования одного уровня при разработке других. Будет показано, что разработанная программная архитектура подходит и для прототипирования ПО Национального словарного фонда.
Презентация
554-е заседание
6 марта состоялся доклад Сергея Ивановича Паринова (д.т.н., РАНХиГС и ЦЭМИ РАН) "К построению показателей участия автора в системе научной кооперации"
Краткая аннотация доклада
В докладе будут представлены результаты проекта Сиртек, финансируемого РАНХиГС, по построению на базе контекстов цитирований из научных публикаций комплекса показателей, характеризующих участие автора в системе научной кооперации. На данный момент создано две группы показателей. Одна группа характеризует отдельные публикации заданного автора. Текущие основные типы показателей этой группы включают: а) источники, распознанные в списках литературы заданного автора, которые очищены от повторов и для которых посчитана различная статистика; б) распознанные авторы источников, включая со-цитируемых авторов, которые очищены от повторов и для них посчитана различная статистика; в) повторяющиеся фразы, включая профессиональные термины и лексические клише из контекстов цитирований, которые выделены из 3-х групп публикаций, связанных с заданным автором; г) топики, построенные методом тематического моделирования на основе содержания контекстов цитирований, которые выделены из 3-х групп публикаций, связанных с заданным автором; д) классы тональности (нейтральный, позитивный, негативный), распознанные на основе содержания контекстов цитирований; е) распределение цитирований по 5-ти равным фрагментам публикаций заданного автора.
Во второй группе представлены показатели, построенные для сводного массива контекстов цитирований из всех публикаций заданного автора и, следовательно, характеризующие практику цитирований заданного автора в целом. С точки зрения научной кооперации эти показатели характеризуют связи заданного автора с публикациями и их авторами, которые являются для него “поставщиками” научной продукции, использованной (процитированной) им в процессе создания своих публикаций. Показатели группируются разными способами на основе их принадлежности к одинаковым контекстам цитирований. Способы группировки показателей основываются на переборе возможных сочетаний друг с другом их основных типов: а) источники; б) авторы источников, включая со-цитируемых авторов; в) повторяющиеся фразы; г) топики; д) классы тональности; е) распределение по 5-ти фрагментам.
Презентация
|