Sistemas de IA adaptativos en hockey aéreo: Implementación del aprendizaje por refuerzo con autojuego para la optimización

Autores/as

Palabras clave:

Aprendizaje por refuerzo, Juego autónomo, Hockey aéreo, PPO, IA de juego

Resumen

Este artículo presenta un sistema de IA adaptativo para un juego educativo de Air Hockey que combina Proximal Policy Optimization (PPO) con mecanismos de autojuego (self-play) para crear agentes inteligentes capaces de una adaptación estratégica mientras promueven la conciencia sobre el cambio climático. El enfoque propuesto integra tres contribuciones principales: una arquitectura híbrida PPO–Self-Play con sistemas de corrección de comportamiento para evitar patrones subóptimos, un sistema de observación de 21 dimensiones que incluye posiciones normalizadas, velocidades y predicción de trayectorias, y un mecanismo adaptativo de self-play que entrena a los agentes contra versiones previas con diferentes niveles de dificultad. El sistema implementa una función de recompensa multiobjetivo y aprendizaje curricular (curriculum learning) para guiar a los agentes hacia comportamientos competitivos y eficientes. El juego educativo “HOCKEY IS MELTING DOWN” utiliza el deshielo polar como metáfora para fomentar la conciencia ambiental a través de la interacción lúdica. Los resultados experimentales demuestran mejoras sustanciales frente a los métodos de referencia, con el modelo final alcanzando una tasa de victorias del 81% y superando significativamente a agentes aleatorios, IA heurística e implementaciones simples de DQN. Métricas de evaluación especializadas y pruebas de usabilidad con participantes humanos confirman la efectividad del sistema tanto como una IA competitiva de videojuegos como una herramienta educativa atractiva para la concienciación sobre el cambio climático.

Biografía del autor/a

Flavio Andrés Arregoces Mercado, Universidad del Norte

Estudiante de Ingeniería de Sistemas.

Cristian David Gonzáles Franco, Universidad del Norte

Estudiante de Ingeniería de Sistemas.

Bella Valentina Mejía Gonzáles, Universidad del Norte

Estudiante de Ingeniería de Sistemas.

Jorge Luis Sanchez Barreneche, Universidad del Norte

Estudiante de Ingeniería de Sistemas.

Yovany Zhu Ye, Universidad del Norte

Estudiante de Ingeniería de Sistemas.

Citas

[Bansal et al., 2018] Bansal, T., Pachocki, J., Sidor, S., Sutskever, I., and Mordatch, I. (2018). Emergent complexity via multi-agent competition. arXiv preprint arXiv:1710.03748.

[Brown and Green, 2021] Brown, C. and Green, D. (2021). Serious games for environmental education. In Proceedings of the Interna- tional Conference on Game-Based Learning, pages 112–125.

[Chuck et al., 2024] Chuck, C., Qi, C., Munje, M. J., Li, S., Rudolph, M., Shi, C., Agarwal, S., Sikchi, H., Peri, A., Dayal, S., Kuo, E.,

Mehta, K., Wang, A., Stone, P., Zhang, A., and Niekum, S. (2024). Robot air hockey: A manipulation testbed for robot learning with reinforcement learning. arXiv preprint arXiv:2405.03113.

[Heinrich and Silver, 2016] Heinrich, J. and Silver, D. (2016). Deep reinforcement learning from self-play in imperfect-information games. Advances in Neural Information Processing Systems.

[Lee and Kim, 2023] Lee, J. and Kim, S. (2023). Generalization of ppo in complex game environments. Journal of Artificial Intelligence Research.

[Orsula, 2024] Orsula, M. (2024). Learning to play air hockey with model-based deep reinforcement learning. Robotics and Autonomous Systems.

[Schott, 2024] Schott, G. (2024). Game over for climate change? communicating and visualising global warming in digital games. Games and Culture.

[Schulman et al., 2017a] Schulman, J., Wolski, F., Dhariwal, P., Rad- ford, A., and Klimov, O. (2017a). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.

[Schulman et al., 2017b] Schulman, J., Wolski, F., Dhariwal, P., Rad- ford, A., and Klimov, O. (2017b). Proximal policy optimization algorithms. In arXiv preprint arXiv:1707.06347.

[Silver et al., 2017] Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T., Lillicrap, T., Simonyan, K., and Hassabis, D. (2017). Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815.

[Smith and Doe, 2022] Smith, J. and Doe, M. (2022). Artificial Intelligence in Modern Video Games. Game AI Press.

[Taitler and Shimkin, 2017] Taitler, S. and Shimkin, N. (2017). Learning control for air hockey striking using deep reinforcement learning. In International Conference on Control, Artificial Intelligence, Robotics & Optimization, pages 22–27.

[Vinyals et al., 2019] Vinyals, O., Babuschkin, I., Czarnecki, W. M., Mathieu, M., Dudzik, A., Chung, J., Choi, D. H., Powell, R., Ewalds, T., Georgiev, P., Oh, J., Horgan, D., Kroiss, M., Danihelka, I., Huang, A., Sifre, L., Cai, T., Agapiou, J. P., Jaderberg, M., Vezhnevets, A. S., Leblond, R., Pohlen, T., Dalibard, V., Budden, D., Sulsky, Y., Molloy, J., Paine, T. L., Gulcehre, C., Wang, Z., Pfaff, T., Wu, Y., Ring, R., Yogatama, D., Wünsch, D., McKinney, K., Smith, O., Schaul, T., Lillicrap, T., Kavukcuoglu, K., Hassabis, D., Apps, C., and Silver, D. (2019). Grandmaster level in starcraft ii using multi-agent reinforcement learning. In Nature, volume 575, pages 350–354.

Descargas

Publicado

21-11-2025

Cómo citar

Arregoces Mercado, F. A., Gonzáles Franco, C. D., Mejía Gonzáles, B. V., Sanchez Barreneche, J. L., & Zhu Ye, Y. (2025). Sistemas de IA adaptativos en hockey aéreo: Implementación del aprendizaje por refuerzo con autojuego para la optimización. OnBoard Knowledge, 1(02), 1–16. Recuperado a partir de https://revistasescuelanaval.com/obk/article/view/117

Número

Sección

Artículos