1 comentario

No es nada fácil explicar cómo funciona el aprendizaje por refuerzo sin medios visuales. E incluso con ellos, muchas personas estarían tentadas de hacer zapping.

Así que enhorabuena, me ha gustado mucho la explicación. Aquí tenéis para próximas ocasiones ejemplos gráficos muy chulos sobre qué es diseñar una mala recompensa en RL https://towardsdatascience.com/how-learning-reward-functions-can-go-wrong-6e794e42f4fc.

Estamos aún muy lejos de emplear IA militar efectiva.

Expand full comment