{ "cells": [ { "cell_type": "markdown", "id": "c3b22234", "metadata": {}, "source": [ "# Introduccion al Aprendizaje Reforzado\n", "## 1. Introducción\n", "En el aprendizaje reforzado los agentes aprenden a tomar decisiones a través de la interacción con un entorno dinámico, recibiendo recompensas o penalizaciones. El objetivo clave es la maximización de una señal de recompensa acumulada a largo plazo. Busca guiar el comportamiento del agente hacia decisiones óptimas basadas en la retroalimentación recibida del entorno.
\n", "En esta notebook, se pesentan ejemplos de funcionamiento de aprendizaje reforzado." ] }, { "cell_type": "markdown", "id": "ee9bf1fd", "metadata": {}, "source": [ "## 2. Ejemplos\n", "### 2.1. Raton y Queso\n", "Imaginarse que un ratón está en una celda de un laberinto de 3x3. El ratón debe llegar al queso que se encuentra en la celda inferior derecha (coordenada: posicion_raton=(x,y) a ingresar). El ratón puede moverse arriba, abajo, izquierda o derecha, y gana una recompensa cuando llega al queso. En este programa, se entrenará al ratón para llegar al queso." ] }, { "cell_type": "markdown", "id": "04205983", "metadata": {}, "source": [ "#### Inicio y preparación" ] }, { "cell_type": "code", "execution_count": 1, "id": "6ca5cb39", "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "import random\n", "\n", "# Parámetros del entorno\n", "filas = 3\n", "columnas = 3\n", "acciones = 4 # Arriba, Abajo, Izquierda, Derecha" ] }, { "cell_type": "markdown", "id": "2f0eb0ce", "metadata": {}, "source": [ "#### Funciones" ] }, { "cell_type": "code", "execution_count": 5, "id": "50683355", "metadata": {}, "outputs": [], "source": [ "# Definir las recompensas\n", "def definir_recompensas(posicion_queso):\n", " # Inicializar la matriz de recompensas\n", " recompensas = np.full((filas, columnas), -0.1) # Pequeña penalización por cada movimiento\n", " recompensas[posicion_queso] = 1 # Recompensa de 1 en la posición del queso\n", " return recompensas\n", "\n", "# Función para tomar una acción\n", "def tomar_accion(estado, accion):\n", " fila, columna = estado\n", "\n", " if accion == 0: # Arriba\n", " nueva_fila = max(fila - 1, 0) # Evitar salir del tablero\n", " nueva_columna = columna\n", " elif accion == 1: # Abajo\n", " nueva_fila = min(fila + 1, filas - 1)\n", " nueva_columna = columna\n", " elif accion == 2: # Izquierda\n", " nueva_fila = fila\n", " nueva_columna = max(columna - 1, 0)\n", " elif accion == 3: # Derecha\n", " nueva_fila = fila\n", " nueva_columna = min(columna + 1, columnas - 1)\n", "\n", " return (nueva_fila, nueva_columna)\n", "\n", "# Mostrar la acción en formato legible\n", "def mostrar_accion(accion):\n", " if accion == 0:\n", " return \"Arriba\"\n", " elif accion == 1:\n", " return \"Abajo\"\n", " elif accion == 2:\n", " return \"Izquierda\"\n", " else:\n", " return \"Derecha\"\n", "\n", "# Función para ejecutar un episodio\n", "def ejecutar_episodio(estado_inicial):\n", " estado = estado_inicial\n", " pasos = 0\n", " recorrido = []\n", " \n", " while estado != posicion_queso:\n", " accion = np.argmax(q_table[estado])\n", " nuevo_estado = tomar_accion(estado, accion)\n", " recompensa = recompensas[nuevo_estado]\n", " recorrido.append((estado, accion, nuevo_estado, recompensa))\n", " estado = nuevo_estado\n", " pasos += 1\n", " if pasos > 50: # Evitar bucles infinitos en caso de errores\n", " break\n", "\n", " return recorrido, pasos" ] }, { "cell_type": "markdown", "id": "a682f825", "metadata": {}, "source": [ "#### Programa principal" ] }, { "cell_type": "code", "execution_count": 6, "id": "155591e2", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Episodio 1: El ratón empieza en el estado (0, 0)\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón ha encontrado el queso en el estado (1, 2). ¡Recompensa +1!\n", "Episodio 1 terminado en 51 pasos.\n", "\n", "Episodio 5: El ratón empieza en el estado (0, 0)\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón ha encontrado el queso en el estado (1, 2). ¡Recompensa +1!\n", "Episodio 5 terminado en 51 pasos.\n", "\n", "Episodio 10: El ratón empieza en el estado (0, 0)\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Izquierda hacia (0, 0). Recompensa -0.1.\n", "El ratón ha encontrado el queso en el estado (1, 2). ¡Recompensa +1!\n", "Episodio 10 terminado en 51 pasos.\n", "\n", "Episodio 25: El ratón empieza en el estado (0, 0)\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón se mueve Arriba hacia (0, 0). Recompensa -0.1.\n", "El ratón ha encontrado el queso en el estado (1, 2). ¡Recompensa +1!\n", "Episodio 25 terminado en 51 pasos.\n", "\n", "Episodio 50: El ratón empieza en el estado (0, 0)\n", "El ratón se mueve Abajo hacia (1, 0). Recompensa -0.1.\n", "El ratón se mueve Derecha hacia (1, 1). Recompensa -0.1.\n", "El ratón se mueve Derecha hacia (1, 2). Recompensa 1.0.\n", "El ratón ha encontrado el queso en el estado (1, 2). ¡Recompensa +1!\n", "Episodio 50 terminado en 3 pasos.\n", "\n", "--- Probando la ruta aprendida ---\n", "Estado: (0, 0), Acción: Abajo, Nueva posición: (1, 0). Recompensa -0.1.\n", "Estado: (1, 0), Acción: Derecha, Nueva posición: (1, 1). Recompensa -0.1.\n", "Estado: (1, 1), Acción: Derecha, Nueva posición: (1, 2). Recompensa 1.0.\n", "¡El ratón llegó al queso en (1, 2) en 3 pasos!\n", "\n", "q_table:\n", "[[[-0.029404 0.27008942 -0.03447686 -0.03591 ]\n", " [-0.00865512 0.03062218 -0.030052 0.4247724 ]\n", " [-0.01 0.99361833 0. 0. ]]\n", "\n", " [[-0.0069391 -0.00328588 -0.0198 0.7264576 ]\n", " [ 0.00628597 0.00119338 -0.0108 1.10572651]\n", " [ 0.05287445 0.14810703 0.07834471 0. ]]\n", "\n", " [[ 0.30066543 -0.02862 -0.029404 -0.027404 ]\n", " [ 0.52289527 -0.01 -0.0108 -0.01 ]\n", " [ 0.89214688 0.05464058 0. 0. ]]]\n" ] } ], "source": [ "# Inicializar la tabla Q\n", "q_table = np.zeros((filas, columnas, acciones))\n", "\n", "# Parámetros del algoritmo Q-Learning\n", "alpha = 0.1 # Tasa de aprendizaje\n", "gamma = 0.8 # Factor de descuento\n", "epsilon = 0.1 # Tasa de exploración\n", "episodios = 100\n", "\n", "# Posición del queso (ajustable por parámetro)\n", "posicion_queso = (1, 2)\n", "recompensas = definir_recompensas(posicion_queso)\n", "\n", "# Entrenamiento del ratón\n", "for episodio in range(episodios):\n", " estado = (random.randint(0, filas - 1), random.randint(0, columnas - 1)) # Estado inicial aleatorio\n", " done = False\n", "\n", " while not done:\n", " if random.uniform(0, 1) < epsilon:\n", " accion = random.randint(0, 3) # Exploración\n", " else:\n", " accion = np.argmax(q_table[estado]) # Explotación\n", "\n", " nuevo_estado = tomar_accion(estado, accion)\n", " recompensa = recompensas[nuevo_estado]\n", "\n", " # Actualizar la tabla Q\n", " q_anterior = q_table[estado][accion]\n", " q_max_nuevo_estado = np.max(q_table[nuevo_estado])\n", " q_table[estado][accion] = q_anterior + alpha * (recompensa + gamma * q_max_nuevo_estado - q_anterior)\n", "\n", " # Moverse al nuevo estado\n", " estado = nuevo_estado\n", "\n", " # Si llegamos al queso, terminar el episodio\n", " if estado == posicion_queso:\n", " done = True\n", "\n", " # Mostrar progreso para episodios seleccionados\n", " if episodio in [0, 4, 9, 24, 49]:\n", " print(f\"\\nEpisodio {episodio + 1}: El ratón empieza en el estado (0, 0)\")\n", " recorrido, pasos = ejecutar_episodio(estado_inicial=(0, 0)) # Comenzar siempre desde (0, 0)\n", " for i, (estado, accion, nuevo_estado, recompensa) in enumerate(recorrido):\n", " print(f\"El ratón se mueve {mostrar_accion(accion)} hacia {nuevo_estado}. Recompensa {recompensa:.1f}.\")\n", " print(f\"El ratón ha encontrado el queso en el estado {posicion_queso}. ¡Recompensa +1!\")\n", " print(f\"Episodio {episodio + 1} terminado en {pasos} pasos.\")\n", "\n", "# Probar la ruta aprendida\n", "print(\"\\n--- Probando la ruta aprendida ---\")\n", "estado = (0, 0)\n", "pasos_totales = 0\n", "\n", "while estado != posicion_queso:\n", " accion = np.argmax(q_table[estado])\n", " nuevo_estado = tomar_accion(estado, accion)\n", " recompensa = recompensas[nuevo_estado]\n", " print(f\"Estado: {estado}, Acción: {mostrar_accion(accion)}, Nueva posición: {nuevo_estado}. Recompensa {recompensa:.1f}.\")\n", " estado = nuevo_estado\n", " pasos_totales += 1\n", "\n", "print(f\"¡El ratón llegó al queso en {posicion_queso} en {pasos_totales} pasos!\")\n", "print(\"\")\n", "print(\"q_table:\")\n", "print(q_table)" ] }, { "cell_type": "markdown", "id": "d65f2bdf", "metadata": {}, "source": [ "##### Resumen de la tabla Q:\n", "La tabla tiene 4 columnas: puntuación para \"arriba\", \"abajo\", \"izquierda\" y \"derecha\". La tabla tiene 3x3=9 filas: una por cada celda.\n", "Valores Q positivos: Indican que moverse en esa dirección desde esa casilla probablemente lleva a una mejor posición o más cerca del queso.\n", "Valores Q cercanos a 0 o negativos: Indican que moverse en esa dirección desde esa casilla es inútil, ya sea porque lleva fuera del tablero o porque no conduce hacia el queso.\n", "A medida que el ratón explora el tablero, la tabla Q se va llenando con valores que le indican cuáles acciones son mejores en cada estado. El objetivo es que, al final del entrenamiento, el ratón aprenda una estrategia (o política) que lo lleve al queso de la manera más eficiente posible en futuros intentos.." ] }, { "cell_type": "markdown", "id": "686c680b", "metadata": {}, "source": [ "### 2.2. Otro ejemplo:\n", "En este ejemplo, tenemos un entorno en el que el agente empieza en el estado inicial s_i, y debe elegir entre moverse a la izquierda o a la derecha. Si llega al estado de más a la izquierda, el episodio termina y el agente recibe una recompensa de -5. Por otro lado, si llega al estado de más a la derecha, el episodio termina y el agente recibe una recompensa de +5. El agente debe aprender a evitar el estado de -5 y moverse hacia el estado de +5. Si la política que aprende siempre termina en el estado con mayor recompensa, diremos que ha encontrado la política óptima (optimal policy). El código presente se basa en la notebook presentada en: notebook en google collab." ] }, { "attachments": { "imagen.png": { "image/png": "" } }, "cell_type": "markdown", "id": "83714300", "metadata": {}, "source": [ "![imagen.png](attachment:imagen.png)" ] }, { "cell_type": "code", "execution_count": 7, "id": "f606dc38", "metadata": {}, "outputs": [], "source": [ "import numpy as np" ] }, { "cell_type": "markdown", "id": "298a6564", "metadata": {}, "source": [ "#### Estado inicial" ] }, { "cell_type": "code", "execution_count": 8, "id": "0dd1ee4a", "metadata": {}, "outputs": [], "source": [ "state_rewards = [-5, 0, 0, 0, 0, 0, 5]\n", "final_state = [True, False, False, False, False, False, True]\n", "Q_values = [[0.0, 0.0], \n", " [0.0, 0.0],\n", " [0.0, 0.0],\n", " [0.0, 0.0],\n", " [0.0, 0.0],\n", " [0.0, 0.0],\n", " [0.0, 0.0]] # Q(s, a) matrix. [left, right]." ] }, { "cell_type": "markdown", "id": "541c2a4b", "metadata": {}, "source": [ "#### Funciones" ] }, { "cell_type": "code", "execution_count": 9, "id": "5d804281", "metadata": {}, "outputs": [], "source": [ "def select_epsilon_greedy_action(epsilon, state):\n", " \"\"\"Take random action with probability epsilon, else take best action.\"\"\"\n", " result = np.random.uniform()\n", " if result < epsilon:\n", " return np.random.randint(0, 2) # Random action (left or right).\n", " else:\n", " return np.argmax(Q_values[state]) # Greedy action for state." ] }, { "cell_type": "code", "execution_count": 10, "id": "189552ac", "metadata": {}, "outputs": [], "source": [ "def apply_action(state, action):\n", " \"\"\"Applies the selected action and get reward and next state.\n", " Action 0 means move to the left and action 1 means move to the right.\n", " \"\"\"\n", " if action == 0: # Mover a la izquierda\n", " next_state = state - 1\n", " else: # Mover a la derecha\n", " next_state = state + 1\n", " \n", " # Devuelve la recompensa y el siguiente estado\n", " reward = state_rewards[next_state]\n", " return reward, next_state" ] }, { "cell_type": "markdown", "id": "083ff731", "metadata": {}, "source": [ "#### Programa Principal" ] }, { "cell_type": "code", "execution_count": 11, "id": "4a49cf4e", "metadata": {}, "outputs": [], "source": [ "num_episodes = 1000\n", "epsilon = 0.2\n", "discount = 0.9 # Change to 1.0 if you want to simplify Q-value results.\n", "\n", "for episode in range(num_episodes+1):\n", " initial_state = 3 # State in the middle.\n", " state = initial_state\n", " while not final_state[state]: # Run until the end of the episode.\n", " # Select action.\n", " action = select_epsilon_greedy_action(epsilon, state)\n", " reward, next_state = apply_action(state, action)\n", " # Improve Q-values with Bellman Equation.\n", " if final_state[next_state]:\n", " Q_values[state][action] = reward\n", " else:\n", " Q_values[state][action] = reward + discount * max(Q_values[next_state])\n", " state = next_state" ] }, { "cell_type": "markdown", "id": "91544c38", "metadata": {}, "source": [ "#### Presentación de resultados:" ] }, { "cell_type": "code", "execution_count": 12, "id": "eaef41f3", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Final Q-values are:\n", "[[0.0, 0.0], [-5, 3.2805], [2.9524500000000002, 3.645], [3.2805, 4.05], [3.645, 4.5], [4.05, 5], [0.0, 0.0]]\n", "Best action for state 0 is left\n", "Best action for state 1 is right\n", "Best action for state 2 is right\n", "Best action for state 3 is right\n", "Best action for state 4 is right\n", "Best action for state 5 is right\n", "Best action for state 6 is left\n" ] } ], "source": [ "# Print Q-values to see if action right is always better than action left\n", "# except for states 0 and 6, which are terminal states and you cannot take\n", "# any action from them, so it does not matter.\n", "print('Final Q-values are:')\n", "print(Q_values)\n", "action_dict = {0:'left', 1:'right'}\n", "state = 0\n", "for state, Q_vals in enumerate(Q_values):\n", " print('Best action for state {} is {}'.format(state, action_dict[np.argmax(Q_vals)]))" ] }, { "cell_type": "markdown", "id": "773aad9f", "metadata": {}, "source": [ "#### Explicación del resultado:\n", "Interpretación de las Mejores Acciones:\n", "
* Estado 0: La mejor acción es \"izquierda\". Sin embargo, este estado es terminal, así que no tiene sentido realizar una acción desde aquí.\n", "
* Estado 1: La mejor acción es \"derecha\", con un valor Q de 3.2805. Esto indica que moverse a la derecha es preferible, ya que se espera que lleve a una mayor recompensa.\n", "
* Estado 2: También la mejor acción es \"derecha\", con un valor Q de 3.645. Similarmente, indica que avanzar a la derecha es ventajoso.\n", "
* Estado 3 y 4: La tendencia de la mejor acción continúa siendo \"derecha\", lo que sugiere que seguir hacia la derecha es el camino óptimo en estos estados.\n", "
* Estado 5: La mejor acción sigue siendo \"derecha\" (valor Q = 5), lo que significa que es el estado más favorable en el que se puede estar.\n", "
* Estado 6: La mejor acción es \"izquierda\". Al ser un estado terminal, no hay ninguna acción que pueda resultar en un cambio." ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.11.10" } }, "nbformat": 4, "nbformat_minor": 5 }