{ "cells": [ { "cell_type": "markdown", "id": "eafb1be2", "metadata": {}, "source": [ "# Seleccion de variables mediante la Entropia de Shannon\n", "## 1. Introduccion\n", "

No siempre es obvia la cantidad de información que aporta un atributo al resultado de la variable objetivo. Aquí vamos a ver un método relativamente sencillo de medirlo.

\n", "

Es un muy buen método para obtener relación entre variables independientes con respecto a la variable objetivo. Usa conceptos de Entropía de termodinámica aplicada a la información (Shannon, 1948). Puede obtenerse un ranking ordenado de las variables según cuán fuerte es su aporte de información hacia la variable objetivo. Y se usa como un metodo alternativo al calculo de las correlaciones estadisticas.

\n", "

En este trabajo se presenta un ejemplo del uso de la entropia de Shannon para la selección de variables a partir del dataset público del hundimiento del Titanic: titanic.csv basado en la informacion presentada en el sitio del Laberinto de Falken: https://www.ellaberintodefalken.com/2018/09/seleccion-atributos-relevantes-entropia-shannon.html

" ] }, { "cell_type": "markdown", "id": "6494f268", "metadata": {}, "source": [ "### Carga de Librerias y Datos" ] }, { "cell_type": "code", "execution_count": 51, "id": "5d70187f", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "tamaño del dataset: (2201, 5)\n", "['passenger_number', 'Class', 'Sex', 'Age', 'Survived']\n", "Eliminacion de columna 'passenger_number':\n", " Class Sex Age Survived\n", "0 2nd Male Adult No\n", "1 3rd Male Child No\n", "2 3rd Male Adult No\n", "3 Crew Male Adult No\n", "4 Crew Male Adult No\n", "... ... ... ... ...\n", "2196 Crew Male Adult No\n", "2197 Crew Male Adult Yes\n", "2198 3rd Male Adult No\n", "2199 Crew Male Adult No\n", "2200 1st Male Adult No\n", "\n", "[2201 rows x 4 columns]\n" ] } ], "source": [ "# Librerias\n", "import pandas as pd\n", "import requests\n", "import numpy as np\n", "import math\n", "import os\n", "\n", "# Datos\n", "link=\"https://rudeboybert.github.io/SDS220/static/PS/titanic.csv\"\n", "data=pd.read_csv(link)\n", "\n", "# Acerca del Dataset:\n", "print(\"tamaño del dataset:\",data.shape)\n", "\n", "# Eliminaremos la variable 'passengerId' y 'Name'\n", "columnas=data.columns.tolist()\n", "print(columnas)\n", "columnasAeliminar=[\"passenger_number\"]\n", "df=data.drop(columnasAeliminar, axis=1)\n", "print(\"Eliminacion de columna 'passenger_number':\")\n", "print(df)" ] }, { "cell_type": "markdown", "id": "77a262d4", "metadata": {}, "source": [ "## 2. Las variables\n", "### 2.1. Variables" ] }, { "cell_type": "code", "execution_count": 52, "id": "010024c8", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Variables= ['Class', 'Sex', 'Age', 'Survived']\n", "valores de Class = {'3rd', 'Crew', '1st', '2nd'}\n", "valores de Sex = {'Male', 'Female'}\n", "valores de Age = {'Adult', 'Child'}\n", "valores de Survived = {'No', 'Yes'}\n" ] } ], "source": [ "# Las variables\n", "print(\"Variables=\",df.columns.tolist())\n", "# Valores de cada variable:\n", "for i in range(df.shape[1]):\n", " print(\"valores de \",df.columns.tolist()[i],\"=\",set(list(df.iloc[:,i])))" ] }, { "cell_type": "code", "execution_count": 53, "id": "e997a20d", "metadata": {}, "outputs": [], "source": [ "# Binarizaremos la variable objetivo \"survived\" (reemplazar 'si' / 'no' por 1 / 0):\n", "df[\"Survived\"] = df[\"Survived\"].replace({ \"Yes\": 1, \"No\": 0 })" ] }, { "cell_type": "markdown", "id": "e1fe8960", "metadata": {}, "source": [ "### 2.2. Variables dependientes e independientes" ] }, { "cell_type": "code", "execution_count": 54, "id": "044c31da", "metadata": { "scrolled": true }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "vars_indep= ['Class', 'Sex', 'Age']\n", "vars_target= Survived\n" ] } ], "source": [ "cols=df.columns.tolist()\n", "vars_indep=cols[:len(cols)-1]\n", "vars_target=cols[len(cols)-1]\n", "# Variables independientes:\n", "print(\"vars_indep=\",vars_indep)\n", "# Variables targets:\n", "print(\"vars_target=\",vars_target)" ] }, { "attachments": { "entropia01.png": { "image/png": "" } }, "cell_type": "markdown", "id": "4fda7e65", "metadata": {}, "source": [ "## 3. La entropia de Shannon\n", "### 3.1. Definición de Entropia\n", "La entropía es una medida del desorden de un conjunto datos, y se define como:\n", "![entropia01.png](attachment:entropia01.png)\n", "Donde pi es la probabilidad relativa de aparición de la propiedad i en el conjunto de datos. Por ejemplo, p1 podría ser la probabilidad de tener cáncer de pulmón y p2 la probabilidad de no tenerlo." ] }, { "cell_type": "markdown", "id": "10dfb9ed", "metadata": {}, "source": [ "### 3.2. Cálculo de la entropía\n", "Lo que nos dice este valor es la medida de desorden de la variable explicada con un valor que va de 0 a 1. Un valor de 0 indica orden total, o lo que es lo mismo, o todos sobrevivieron o todos murieron, pero todos los valores son iguales. Cuanto más cerca esté de 1, mayor desorden. Un valor 1 querría decir que el 50% de pasajeros murieron y el otro 50% sobrevivió (hay que tener en cuenta que la entropía no es una función lineal).
\n", "Fuente: https://www.ellaberintodefalken.com/2018/09/seleccion-atributos-relevantes-entropia-shannon.html" ] }, { "cell_type": "code", "execution_count": 55, "id": "36296b85", "metadata": {}, "outputs": [], "source": [ "def calcularEntropia(data,variable):\n", " #serie_numerica de la variable = pd.Series(lista_numerica)\n", " serie_Variable = data.iloc[:,variable]\n", " # Calcular frecuencia de cada valor\n", " frecuencia = serie_Variable.value_counts(normalize=True)\n", " # Calcular entropía de Shannon\n", " entropia = -sum(frecuencia * np.log2(frecuencia))\n", " return entropia" ] }, { "cell_type": "code", "execution_count": 56, "id": "3a0e5796", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "entropia(Survived)= 0.9076514058796559\n" ] } ], "source": [ "print(\"entropia(Survived)=\",calcularEntropia(df,3))" ] }, { "attachments": { "entropia02.png": { "image/png": "" } }, "cell_type": "markdown", "id": "c631139d", "metadata": {}, "source": [ "### 3.3. Entropia condicionada\n", "También vamos a definir el concepto de entropía condicionada a la entropía generada fijando, a priori, el valor de una segunda variable. Por ejemplo, H(survived | Sex) es la entropía de la variable survived condicionada al valor de la variable sexo. Se calcula con:\n", "![entropia02.png](attachment:entropia02.png)\n", "Px es la probabilidad relativa de aparición de la propiedad x en el conjunto de los datos en los que Y=y y H(X|Y=y) es la entropía de la propiedad y en el conjunto de los datos en los que Y=y." ] }, { "cell_type": "code", "execution_count": 57, "id": "843c1436", "metadata": {}, "outputs": [], "source": [ "def calcularEntropiaCondicionada(df,target,condicion):\n", " entropiaCondicionada = 0\n", " cols=df.columns.tolist()\n", " for valor in df[cols[condicion]].unique():\n", " p = df[cols[condicion]].value_counts()[valor] / len(df[cols[condicion]])\n", " counts = df[df[cols[condicion]] == valor][cols[target]].value_counts()\n", " entropia = sum([-count/counts.sum() * np.log2(count/counts.sum()) for count in counts])\n", " entropiaCondicionada += p * entropia\n", " return entropiaCondicionada" ] }, { "cell_type": "code", "execution_count": 58, "id": "465ead2e", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "entropiaCondicionada(Survived,Class)= 0.8483634692722222\n", "entropiaCondicionada(Survived,Sex)= 0.7652602113304224\n", "entropiaCondicionada(Survived,Age)= 0.9012406875470709\n" ] } ], "source": [ "entropiaCondicionadaClass=calcularEntropiaCondicionada(df,3,0)\n", "entropiaCondicionadaSex=calcularEntropiaCondicionada(df,3,1)\n", "entropiaCondicionadaAge=calcularEntropiaCondicionada(df,3,2)\n", "print('entropiaCondicionada(Survived,Class)=',entropiaCondicionadaClass)\n", "print('entropiaCondicionada(Survived,Sex)=',entropiaCondicionadaSex)\n", "print('entropiaCondicionada(Survived,Age)=',entropiaCondicionadaAge)" ] }, { "cell_type": "markdown", "id": "c9bab41e", "metadata": {}, "source": [ "### 3.4. Ganancia de Informacion" ] }, { "attachments": { "entropia03.png": { "image/png": "" } }, "cell_type": "markdown", "id": "92120b5c", "metadata": {}, "source": [ "La ganancia de información muestra cómo se reduce la entropía cuando se añade una nueva variable. Una mayor reducción implica una correlación mayor con la variable explicada.\n", "![entropia03.png](attachment:entropia03.png)" ] }, { "cell_type": "code", "execution_count": 59, "id": "c51e2414", "metadata": {}, "outputs": [], "source": [ "def obtenerGananciaDeInformacion(df,target,condicional):\n", " ganancia=calcularEntropia(df,target)-calcularEntropiaCondicionada(df,target,condicional)\n", " return ganancia" ] }, { "cell_type": "code", "execution_count": 60, "id": "a4768afa", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "GI(Survived,Class)= 0.0592879366074337\n", "GI(Survived,Sex)= 0.14239119454923344\n", "GI(Survived,Age)= 0.006410718332584997\n" ] } ], "source": [ "gi00=obtenerGananciaDeInformacion(df,3,0)\n", "gi01=obtenerGananciaDeInformacion(df,3,1)\n", "gi02=obtenerGananciaDeInformacion(df,3,2)\n", "print('GI(Survived,Class)=',gi00)\n", "print('GI(Survived,Sex)=',gi01)\n", "print('GI(Survived,Age)=',gi02)" ] }, { "cell_type": "markdown", "id": "a6bdf074", "metadata": {}, "source": [ "## 4. Armado del Ranking de aporte de Ganancia de Información" ] }, { "cell_type": "markdown", "id": "b9fae6df", "metadata": {}, "source": [ "A partir del conjunto de datos, una vez definido el conjunto de variables independientes y variables objetivos, se presenta un ranking ordenado decrecientemente de las variables independientes en función de la ganancia de la información de la variable objetivo." ] }, { "cell_type": "code", "execution_count": 61, "id": "c40b3392", "metadata": {}, "outputs": [], "source": [ "# Definiciones:\n", "# - Dataset()\n", "data=df.copy()\n", "# - Variables\n", "vars_indep=['0','1','2']\n", "vars_target=['3']" ] }, { "cell_type": "code", "execution_count": 62, "id": "3c32de10", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Ganancia de Información de la variable Survived\n", " id nombre Ganancia entropia global\n", "1 1 Sex 0.142391 0.907651\n", "0 0 Class 0.059288 0.907651\n", "2 2 Age 0.006411 0.907651\n" ] } ], "source": [ "def armarRankings(df, vars_indep, vars_target):\n", " nombreVars=data.columns.tolist()\n", " for i in range(len(vars_target)):\n", " # Dataframe:\n", " gi=pd.DataFrame()\n", " target=int(vars_target[i])\n", " entropia=calcularEntropia(data,target)\n", " print('Ganancia de Información de la variable ',str(nombreVars[target]))\n", " var_id=[]\n", " var_nom=[]\n", " var_gi=[]\n", " list_entropia=[]\n", " for j in range(len(vars_indep)):\n", " var=int(vars_indep[j])\n", " var_id.append(j)\n", " var_nom.append(nombreVars[j])\n", " var_gi.append(obtenerGananciaDeInformacion(data,target,j))\n", " list_entropia.append(entropia)\n", " gi['id']=var_id\n", " gi['nombre']=var_nom \n", " gi['Ganancia']=var_gi\n", " gi['entropia global']=list_entropia\n", " gi_sorted=gi.sort_values(by=[\"Ganancia\"],ascending=False)\n", " nombreFile=str(nombreVars[target])+\".csv\"\n", " #gi_sorted.to_csv(nombreFile,index = False) \n", " print(gi_sorted)\n", "armarRankings(data,vars_indep,vars_target)" ] }, { "cell_type": "code", "execution_count": null, "id": "e3e57bd2", "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.11.3" } }, "nbformat": 4, "nbformat_minor": 5 }