Ну, это нетрудно. А выходом этой функции кормить модуль reinforcement learning. Чтобы сами учились делать детям хорошо.
да, примерно так. стабилизировать только ещё научиться этот reinforcement. cycle gan какой-нить и плюс ещё истории про стабилизации спуска по седловине. cycle gan должен отсечь коллапс (типа только веселые мордочки показывают).
Ребетенок, разумеется, должен тоже быть включён в процесс. Мордашка там его должна быть довольная.
В общем, как я уже говорил раз пилот: "ты не заметишь этот миг"