Sistemas de IA adaptativos en hockey aéreo: Implementación del aprendizaje por refuerzo con autojuego para la optimización | OnBoard Knowledge

Sistemas de IA adaptativos en hockey aéreo: Implementación del aprendizaje por refuerzo con autojuego para la optimización

Autores/as

Flavio Andrés Arregoces Mercado Universidad del Norte https://orcid.org/0009-0006-4370-6726
Cristian David Gonzáles Franco Universidad del Norte https://orcid.org/0009-0004-8750-4849
Bella Valentina Mejía Gonzáles Universidad del Norte https://orcid.org/0009-0007-7572-7078
Jorge Luis Sanchez Barreneche Universidad del Norte https://orcid.org/0009-0002-1044-2841
Yovany Zhu Ye Universidad del Norte https://orcid.org/0009-0003-7348-1394

DOI:

https://doi.org/10.70554/OBJK2025.v01n02.04

Palabras clave:

Aprendizaje por refuerzo, Juego autónomo, Hockey aéreo, PPO, IA de juego

Resumen

Este artículo presenta un sistema de IA adaptativo para un juego educativo de Air Hockey que combina Proximal Policy Optimization (PPO) con mecanismos de autojuego (self-play) para crear agentes inteligentes capaces de una adaptación estratégica mientras promueven la conciencia sobre el cambio climático. El enfoque propuesto integra tres contribuciones principales: una arquitectura híbrida PPO–Self-Play con sistemas de corrección de comportamiento para evitar patrones subóptimos, un sistema de observación de 21 dimensiones que incluye posiciones normalizadas, velocidades y predicción de trayectorias, y un mecanismo adaptativo de self-play que entrena a los agentes contra versiones previas con diferentes niveles de dificultad. El sistema implementa una función de recompensa multiobjetivo y aprendizaje curricular (curriculum learning) para guiar a los agentes hacia comportamientos competitivos y eficientes. El juego educativo “HOCKEY IS MELTING DOWN” utiliza el deshielo polar como metáfora para fomentar la conciencia ambiental a través de la interacción lúdica. Los resultados experimentales demuestran mejoras sustanciales frente a los métodos de referencia, con el modelo final alcanzando una tasa de victorias del 81% y superando significativamente a agentes aleatorios, IA heurística e implementaciones simples de DQN. Métricas de evaluación especializadas y pruebas de usabilidad con participantes humanos confirman la efectividad del sistema tanto como una IA competitiva de videojuegos como una herramienta educativa atractiva para la concienciación sobre el cambio climático.

Biografía del autor/a

Flavio Andrés Arregoces Mercado, Universidad del Norte

Estudiante de Ingeniería de Sistemas.

Cristian David Gonzáles Franco, Universidad del Norte

Estudiante de Ingeniería de Sistemas.

Bella Valentina Mejía Gonzáles, Universidad del Norte

Estudiante de Ingeniería de Sistemas.

Jorge Luis Sanchez Barreneche, Universidad del Norte

Estudiante de Ingeniería de Sistemas.

Yovany Zhu Ye, Universidad del Norte

Estudiante de Ingeniería de Sistemas.

Citas

[Bansal et al., 2018] Bansal, T., Pachocki, J., Sidor, S., Sutskever, I., and Mordatch, I. (2018). Emergent complexity via multi-agent competition. arXiv preprint arXiv:1710.03748.

[Brown and Green, 2021] Brown, C. and Green, D. (2021). Serious games for environmental education. In Proceedings of the Interna- tional Conference on Game-Based Learning, pages 112–125.

[Chuck et al., 2024] Chuck, C., Qi, C., Munje, M. J., Li, S., Rudolph, M., Shi, C., Agarwal, S., Sikchi, H., Peri, A., Dayal, S., Kuo, E.,

Mehta, K., Wang, A., Stone, P., Zhang, A., and Niekum, S. (2024). Robot air hockey: A manipulation testbed for robot learning with reinforcement learning. arXiv preprint arXiv:2405.03113.

[Heinrich and Silver, 2016] Heinrich, J. and Silver, D. (2016). Deep reinforcement learning from self-play in imperfect-information games. Advances in Neural Information Processing Systems.

[Lee and Kim, 2023] Lee, J. and Kim, S. (2023). Generalization of ppo in complex game environments. Journal of Artificial Intelligence Research.

[Orsula, 2024] Orsula, M. (2024). Learning to play air hockey with model-based deep reinforcement learning. Robotics and Autonomous Systems.

[Schott, 2024] Schott, G. (2024). Game over for climate change? communicating and visualising global warming in digital games. Games and Culture.

[Schulman et al., 2017a] Schulman, J., Wolski, F., Dhariwal, P., Rad- ford, A., and Klimov, O. (2017a). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.

[Schulman et al., 2017b] Schulman, J., Wolski, F., Dhariwal, P., Rad- ford, A., and Klimov, O. (2017b). Proximal policy optimization algorithms. In arXiv preprint arXiv:1707.06347.

[Silver et al., 2017] Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T., Lillicrap, T., Simonyan, K., and Hassabis, D. (2017). Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815.

[Smith and Doe, 2022] Smith, J. and Doe, M. (2022). Artificial Intelligence in Modern Video Games. Game AI Press.

[Taitler and Shimkin, 2017] Taitler, S. and Shimkin, N. (2017). Learning control for air hockey striking using deep reinforcement learning. In International Conference on Control, Artificial Intelligence, Robotics & Optimization, pages 22–27.

[Vinyals et al., 2019] Vinyals, O., Babuschkin, I., Czarnecki, W. M., Mathieu, M., Dudzik, A., Chung, J., Choi, D. H., Powell, R., Ewalds, T., Georgiev, P., Oh, J., Horgan, D., Kroiss, M., Danihelka, I., Huang, A., Sifre, L., Cai, T., Agapiou, J. P., Jaderberg, M., Vezhnevets, A. S., Leblond, R., Pohlen, T., Dalibard, V., Budden, D., Sulsky, Y., Molloy, J., Paine, T. L., Gulcehre, C., Wang, Z., Pfaff, T., Wu, Y., Ring, R., Yogatama, D., Wünsch, D., McKinney, K., Smith, O., Schaul, T., Lillicrap, T., Kavukcuoglu, K., Hassabis, D., Apps, C., and Silver, D. (2019). Grandmaster level in starcraft ii using multi-agent reinforcement learning. In Nature, volume 575, pages 350–354.

Descargas

PDF (English)

Publicado

21-11-2025

Cómo citar

Arregoces Mercado, F. A., Gonzáles Franco, C. D., Mejía Gonzáles, B. V., Sanchez Barreneche, J. L., & Zhu Ye, Y. (2025). Sistemas de IA adaptativos en hockey aéreo: Implementación del aprendizaje por refuerzo con autojuego para la optimización. OnBoard Knowledge, 1(02), 1–16. https://doi.org/10.70554/OBJK2025.v01n02.04

Descargar cita

Número

Vol. 1 Num. 02 (2025)

Sección

Artículos

Licencia

Derechos de autor 2025 Flavio Andrés Arregoces Mercado, Cristian David Gonzáles Franco, Bella Valentina Mejía Gonzáles, Jorge Luis Sanchez Barrenche, Yovany Zhu Ye

Creative Commons License

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.

Los autores retienen los derechos de copia (copyrigth) y ceden a la revista el derecho de publicación del trabajo bajo licencia Creative Commons Attribution License, que permite a terceros utilizar lo publicado siempre que hagan referencia al autor o autores del trabajo, y a su publicación en DERROTERO.

Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-Compartir Igual 4.0 Internacional.

Artículos similares

Adelaida Ojeda Beltran, Perspectiva Teórica del Enfoque Híbrido EMD–SSA–VMD–EWT y Machine Learning en la Predicción de Precios , OnBoard Knowledge: Vol. 1 Num. 02 (2025)
Alexander Rangel, José Peña, Alejandro Cuello , Ana Meza, Julian Castro, Software de gamificación para educar contra la ciberadicción y las amenazas digitales , OnBoard Knowledge: Vol. 1 Num. 02 (2025)
Juan Cueto Morelo, Jorge Gómez Gómez, Diseño de un sistema para la optimización de QoS1 y balanceo de carga en redes Wi-Fi mediante el controlador Ryu en redes definidas por software , OnBoard Knowledge: Vol. 1 Núm. 01 (2025)
Andrés David Lowis Torregroza, Implementación de tecnología LoRa para mejorar la fiabilidad de la transmisión de datos en aplicaciones de monitoreo energético , OnBoard Knowledge: Vol. 1 Núm. 01 (2025)
Luis Escorcia Valera, Aldo Lovo Ayala, Avances de la Armada República de Colombia en el Diseño e Implementación de un Prototipo de Simulador Inmersivo de Bote de Combate Fluvial , OnBoard Knowledge: Vol. 1 Núm. 01 (2025)
Yamith Romero Aldana, Saul Pérez Pérez, ProtoCalib: Kit Interactivo para Monitoreo y Evaluación de Sensores en Entornos IoT Educativos , OnBoard Knowledge: Vol. 1 Núm. 01 (2025)

También puede Iniciar una búsqueda de similitud avanzada para este artículo.

Classythemeplugin was unvalidated product, Click here to support us