Когда: Понедельник, 9 июня 2025 г 16:00,
Где: Большой Каретный переулок, 19/1, аудитория 307
Тема: "Обучение с подкреплением с гарантиями"
Лектор: Павел Осиненко — доцент Центра системного проектирования Сколтеха, эксперт в области современного управления, автоматизации и обучения с подкреплением.
Аннотация: Приглашаем Вас на семинар, посвященный хабилитационной диссертации Павла Осиненко под названием "Обучение с подкреплением с гарантиями". Семинар посвящен наиболее авангардному из разработанных Павлом подходов под названием CALF («Critic as Lyapunov Function»), который объединяет передовые методы управления с обучением с подкреплением для обеспечения формальных гарантий. В обучении с подкреплением ключевым понятием является так называемая функция ценности, которая характеризует, насколько хорошо агент выполняет поставленную задачу. Обычно целью агента, обучающегося с применением подкрепления, является оценка указанной функции ценности, что, как известно, является трудной задачей. CALF использует свойства функции ценности агента, чтобы продемонстрировать поведение, аналогичное обращённой функции Ляпунова. Последняя подразумевает централобращённое поведение в смысле теории Ляпунова. Проблема заключается в том, что функция ценности, обучаемая нейронной сетью, подвержена несовершенствам, которые нарушают упомянутую функцию. Для решения этой проблемы CALF предлагает специальный механизм запоминания значений обученной функции ценности, при этом задействуя запасную политику в случаях, когда указанная обращенная функция Ляпунова нарушена.
Насколько известно автору, CALF - первый подход, который не использует модель управляемой системы (так называемая «среда»), является подходом реального времени, т.е. способным работать с гарантиями сразу в начале обучения, и устанавливает гарантии строго, что было показано в ряде математических теорем. Обсуждаются также расширения CALF, в том числе мультиагентные, не использующие запасные политики.
05.06.2025 | Кириллова Варвара Артуровна |