Sistemas de IA adaptativos en hockey aéreo: Implementación del aprendizaje por refuerzo con autojuego para la optimización
Palabras clave:
Aprendizaje por refuerzo, Juego autónomo, Hockey aéreo, PPO, IA de juegoResumen
Este artículo presenta un sistema de IA adaptativo para un juego educativo de Air Hockey que combina Proximal Policy Optimization (PPO) con mecanismos de autojuego (self-play) para crear agentes inteligentes capaces de una adaptación estratégica mientras promueven la conciencia sobre el cambio climático. El enfoque propuesto integra tres contribuciones principales: una arquitectura híbrida PPO–Self-Play con sistemas de corrección de comportamiento para evitar patrones subóptimos, un sistema de observación de 21 dimensiones que incluye posiciones normalizadas, velocidades y predicción de trayectorias, y un mecanismo adaptativo de self-play que entrena a los agentes contra versiones previas con diferentes niveles de dificultad. El sistema implementa una función de recompensa multiobjetivo y aprendizaje curricular (curriculum learning) para guiar a los agentes hacia comportamientos competitivos y eficientes. El juego educativo “HOCKEY IS MELTING DOWN” utiliza el deshielo polar como metáfora para fomentar la conciencia ambiental a través de la interacción lúdica. Los resultados experimentales demuestran mejoras sustanciales frente a los métodos de referencia, con el modelo final alcanzando una tasa de victorias del 81% y superando significativamente a agentes aleatorios, IA heurística e implementaciones simples de DQN. Métricas de evaluación especializadas y pruebas de usabilidad con participantes humanos confirman la efectividad del sistema tanto como una IA competitiva de videojuegos como una herramienta educativa atractiva para la concienciación sobre el cambio climático.
Citas
[Bansal et al., 2018] Bansal, T., Pachocki, J., Sidor, S., Sutskever, I., and Mordatch, I. (2018). Emergent complexity via multi-agent competition. arXiv preprint arXiv:1710.03748.
[Brown and Green, 2021] Brown, C. and Green, D. (2021). Serious games for environmental education. In Proceedings of the Interna- tional Conference on Game-Based Learning, pages 112–125.
[Chuck et al., 2024] Chuck, C., Qi, C., Munje, M. J., Li, S., Rudolph, M., Shi, C., Agarwal, S., Sikchi, H., Peri, A., Dayal, S., Kuo, E.,
Mehta, K., Wang, A., Stone, P., Zhang, A., and Niekum, S. (2024). Robot air hockey: A manipulation testbed for robot learning with reinforcement learning. arXiv preprint arXiv:2405.03113.
[Heinrich and Silver, 2016] Heinrich, J. and Silver, D. (2016). Deep reinforcement learning from self-play in imperfect-information games. Advances in Neural Information Processing Systems.
[Lee and Kim, 2023] Lee, J. and Kim, S. (2023). Generalization of ppo in complex game environments. Journal of Artificial Intelligence Research.
[Orsula, 2024] Orsula, M. (2024). Learning to play air hockey with model-based deep reinforcement learning. Robotics and Autonomous Systems.
[Schott, 2024] Schott, G. (2024). Game over for climate change? communicating and visualising global warming in digital games. Games and Culture.
[Schulman et al., 2017a] Schulman, J., Wolski, F., Dhariwal, P., Rad- ford, A., and Klimov, O. (2017a). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
[Schulman et al., 2017b] Schulman, J., Wolski, F., Dhariwal, P., Rad- ford, A., and Klimov, O. (2017b). Proximal policy optimization algorithms. In arXiv preprint arXiv:1707.06347.
[Silver et al., 2017] Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T., Lillicrap, T., Simonyan, K., and Hassabis, D. (2017). Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815.
[Smith and Doe, 2022] Smith, J. and Doe, M. (2022). Artificial Intelligence in Modern Video Games. Game AI Press.
[Taitler and Shimkin, 2017] Taitler, S. and Shimkin, N. (2017). Learning control for air hockey striking using deep reinforcement learning. In International Conference on Control, Artificial Intelligence, Robotics & Optimization, pages 22–27.
[Vinyals et al., 2019] Vinyals, O., Babuschkin, I., Czarnecki, W. M., Mathieu, M., Dudzik, A., Chung, J., Choi, D. H., Powell, R., Ewalds, T., Georgiev, P., Oh, J., Horgan, D., Kroiss, M., Danihelka, I., Huang, A., Sifre, L., Cai, T., Agapiou, J. P., Jaderberg, M., Vezhnevets, A. S., Leblond, R., Pohlen, T., Dalibard, V., Budden, D., Sulsky, Y., Molloy, J., Paine, T. L., Gulcehre, C., Wang, Z., Pfaff, T., Wu, Y., Ring, R., Yogatama, D., Wünsch, D., McKinney, K., Smith, O., Schaul, T., Lillicrap, T., Kavukcuoglu, K., Hassabis, D., Apps, C., and Silver, D. (2019). Grandmaster level in starcraft ii using multi-agent reinforcement learning. In Nature, volume 575, pages 350–354.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2025 Flavio Andrés Arregoces Mercado, Cristian David Gonzáles Franco, Bella Valentina Mejía Gonzáles, Jorge Luis Sanchez Barrenche, Yovany Zhu Ye

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
Los autores retienen los derechos de copia (copyrigth) y ceden a la revista el derecho de publicación del trabajo bajo licencia Creative Commons Attribution License, que permite a terceros utilizar lo publicado siempre que hagan referencia al autor o autores del trabajo, y a su publicación en DERROTERO.
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-Compartir Igual 4.0 Internacional. 



a