Q-Learning





Una inteligencia artificial de aprendizaje reforzado para el tres en raya






¿Qué es Q-Learning?

Q-Learning es una técnica de aprendizaje reforzado que permite tomar la política óptima para cualquier proceso de decisión de Markov finito dado, maximizando el valor de una "recompensa" en función del estado que toma.

Ejemplos de procesos de decisión de Markov son el tres en raya, el ajedrez o las damas, aunque se puede aplicar a campos como la agricultura o las finanzas.

Esquema del funcionamiento básico del Q-Learning

Aprendizaje reforzado para la generación de IAs para videojuegos

Una vez tenemos la IA entrenada para que tome las decisiones más óptimas, se puede implementar fácilmente que cometa "fallos" porcentualmente en función de la dificultad deseada para el jugador.

Demostración

tictactoe match.mp4