Семинар Павла Осиненко — доцента Центра системного проектирования Сколтеха

Когда: Понедельник, 9 июня 2025 г 16:00,

Где: Большой Каретный переулок, 19/1, аудитория 307

Тема: "Обучение с подкреплением с гарантиями"

Лектор: Павел Осиненко — доцент Центра системного проектирования Сколтеха, эксперт в области современного управления, автоматизации и обучения с подкреплением.

Аннотация: Приглашаем Вас на семинар, посвященный хабилитационной диссертации Павла Осиненко под названием "Обучение с подкреплением с гарантиями". Семинар посвящен наиболее авангардному из разработанных Павлом подходов под названием CALF («Critic as Lyapunov Function»), который объединяет передовые методы управления с обучением с подкреплением для обеспечения формальных гарантий. В обучении с подкреплением ключевым понятием является так называемая функция ценности, которая характеризует, насколько хорошо агент выполняет поставленную задачу. Обычно целью агента, обучающегося с применением подкрепления, является оценка указанной функции ценности, что, как известно, является трудной задачей. CALF использует свойства функции ценности агента, чтобы продемонстрировать поведение, аналогичное обращённой функции Ляпунова. Последняя подразумевает централобращённое поведение в смысле теории Ляпунова. Проблема заключается в том, что функция ценности, обучаемая нейронной сетью, подвержена несовершенствам, которые нарушают упомянутую функцию. Для решения этой проблемы CALF предлагает специальный механизм запоминания значений обученной функции ценности, при этом задействуя запасную политику в случаях, когда указанная обращенная функция Ляпунова нарушена.

Насколько известно автору, CALF - первый подход, который не использует модель управляемой системы (так называемая «среда»), является подходом реального времени, т.е. способным работать с гарантиями сразу в начале обучения, и устанавливает гарантии строго, что было показано в ряде математических теорем. Обсуждаются также расширения CALF, в том числе мультиагентные, не использующие запасные политики.

05.06.2025 | Кириллова Варвара Артуровна

© Федеральное государственное бюджетное учреждение науки
Институт проблем передачи информации им. А.А. Харкевича Российской академии наук, 2026
Об институте | Контакты | Противодействие коррупции