## Introducción a Pandas: Manejo de conjuntos de datos

### Resumen

En esta Notebook encontrarás un primer abordaje al uso de archivos para adquisición de datos.  Se presenta a la librería Pandas de Python, la cual ha sido de gran importancia para el desarrollo de IA en Python. Finalizaremos con una prueba de performance entre diferentes orígenes de datos.

### 1. DataFrames Pandas

### 1.1. Importacion de Librerias

In [16]:
import pandas as pd
import datetime as datetime
import pickle
import os

### 1.2. Creación de Dataframes

In [2]:
# 1. Dataframe BRICS
# Desde un diccionario
dict = {"country": ["Brazil", "Russia", "India", "China", "South Africa"],
       "capital": ["Brasilia", "Moscow", "New Dehli", "Beijing", "Pretoria"],
       "area": [8.516, 17.10, 3.286, 9.597, 1.221],
       "population": [200.4, 143.5, 1252, 1357, 52.98] }
brics = pd.DataFrame(dict)
print(brics)

        country    capital    area  population
0        Brazil   Brasilia   8.516      200.40
1        Russia     Moscow  17.100      143.50
2         India  New Dehli   3.286     1252.00
3         China    Beijing   9.597     1357.00
4  South Africa   Pretoria   1.221       52.98


In [4]:
# 2. DataFrame MERCOSUR
# Concatenando listas (columnas)
mercosur=pd.DataFrame()
paises=['Argentina','Brasil','Uruguay','Paraguay']
capitales=['Buenos Aires','Brasilia','Montevideo','Asuncion']
areas=[2.784,8.516,0.176,0.406]
poblaciones=[47,200.4,3.5,7.3]
mercosur['Pais']=paises
mercosur['Capital']=capitales
mercosur['Area']=areas
mercosur['Poblacion']=poblaciones
print(mercosur)

        Pais       Capital   Area  Poblacion
0  Argentina  Buenos Aires  2.784       47.0
1     Brasil      Brasilia  8.516      200.4
2    Uruguay    Montevideo  0.176        3.5
3   Paraguay      Asuncion  0.406        7.3


### 1.3. Funciones básicas para tratar DataFrames Pandas

#### Shape: Tamaño del dataFrame

In [5]:
print('tamaño de Brics: ',brics.shape)

tamaño de Brics:  (5, 4)


In [6]:
print('tamaño de Mercosur: ',mercosur.shape)

tamaño de Mercosur:  (4, 4)


#### dtypes: Tipo de datos por variable

In [7]:
print(brics.dtypes)

country        object
capital        object
area          float64
population    float64
dtype: object


In [8]:
print(mercosur.dtypes)

Pais          object
Capital       object
Area         float64
Poblacion    float64
dtype: object


#### Describe: Información estadistica de las variables numéricas

In [9]:
print(brics.describe())

            area   population
count   5.000000     5.000000
mean    7.944000   601.176000
std     6.200557   645.261454
min     1.221000    52.980000
25%     3.286000   143.500000
50%     8.516000   200.400000
75%     9.597000  1252.000000
max    17.100000  1357.000000


In [10]:
print(mercosur.describe())

           Area   Poblacion
count  4.000000    4.000000
mean   2.970500   64.550000
std    3.880431   92.678458
min    0.176000    3.500000
25%    0.348500    6.350000
50%    1.595000   27.150000
75%    4.217000   85.350000
max    8.516000  200.400000


#### Obtener variables en una lista

In [17]:
varsBrics=brics.columns.tolist()
print('varsBrics',varsBrics)

varsBrics ['country', 'capital', 'area', 'population']


In [18]:
varsMercosur=mercosur.columns.tolist()
print('varsMercosur',varsMercosur)

varsMercosur ['Pais', 'Capital', 'Area', 'Poblacion']


#### iLOC: obteniendo una porción del dataFrame

In [19]:
# Obtener una lista de los paises
print('Paises del BRICS: ',list(brics.iloc[:,0]))
print('Paises del MERCOSUR: ',list(mercosur.iloc[:,0]))

Paises del BRICS:  ['Brazil', 'Russia', 'India', 'China', 'South Africa']
Paises del MERCOSUR:  ['Argentina', 'Brasil', 'Uruguay', 'Paraguay']


In [20]:
# Area y poblacion de los paises 1 y 2
print('Area y poblacion de los paises 1 y 2 de BRICS:')
print(brics.iloc[1:3,2:])
print('Area y poblacion de los paises 1 y 2 de MERCOSUR:')
print(mercosur.iloc[1:3,2:])

Area y poblacion de los paises 1 y 2 de BRICS:
     area  population
1  17.100       143.5
2   3.286      1252.0
Area y poblacion de los paises 1 y 2 de MERCOSUR:
    Area  Poblacion
1  8.516      200.4
2  0.176        3.5


### 2. Archivos de Datos

### 2.1. Guardar DataFrame

In [23]:
# Notas:
# El separador presentado abajo es multi OS.
separador = os.path.sep

#### A formato CSV (archivo de texto)

In [30]:
archivoBricsCsv="datasets"+str(separador)+"datos_brics.csv"
archivoMercosurCsv="datasets"+str(separador)+"datos_mercosur.csv"
brics.to_csv(archivoBricsCsv,index=None)
mercosur.to_csv(archivoMercosurCsv)

#### A formato de Planilla Excel

In [31]:
archivoBricsExcel="datasets"+str(separador)+"datos_brics.xlsx"
archivoMercosurExcel="datasets"+str(separador)+"datos_mercosur.xlsx"
brics.to_excel(archivoBricsExcel,index=None)
mercosur.to_excel(archivoMercosurExcel)

#### A formato Pickle (archivo binario)

In [32]:
archivoBricsPkl="datasets"+str(separador)+"datos_brics.pkl"
archivoMercosurPkl="datasets"+str(separador)+"datos_mercosur.pkl"
brics.to_pickle(archivoBricsPkl)
mercosur.to_pickle(archivoMercosurPkl)

### 2.2. Recuperar DataFrame desde archivo

#### Desde archivo CSV (archivo de texto)

In [33]:
brics2csv=pd.read_csv(archivoBricsCsv)
print('BRICS recuperado csv:')
print(brics2csv)
mercosur2csv=pd.read_csv(archivoMercosurCsv)
print('MERCOSUR recuperado csv:')
print(mercosur2csv)

BRICS recuperado csv:
        country    capital    area  population
0        Brazil   Brasilia   8.516      200.40
1        Russia     Moscow  17.100      143.50
2         India  New Dehli   3.286     1252.00
3         China    Beijing   9.597     1357.00
4  South Africa   Pretoria   1.221       52.98
MERCOSUR recuperado csv:
   Unnamed: 0       Pais       Capital   Area  Poblacion
0           0  Argentina  Buenos Aires  2.784       47.0
1           1     Brasil      Brasilia  8.516      200.4
2           2    Uruguay    Montevideo  0.176        3.5
3           3   Paraguay      Asuncion  0.406        7.3


##### Columna "unnamed" que aparece al cargar Datos (ver Mercosur).
<p>Esto está causada por almacenar índice. Para evitarlo, en el argumento del método "to_csv" colocar "index=None". Por ejemplo: df.to_csv(nombre,index=None).</p> 
<p>Ahora bien, si el csv ya fue creado, deberemos cargar el csv sin el índice. Esto se hace agregando al argumento del método "read_csv", "index_col=0". Por ejemplo: pd.read_csv(archivo,index_col=0)</p>

##### Eliminamos la columna "unnamed" que aparece en Mercosur

In [35]:
mercosur2csv=pd.read_csv(archivoMercosurCsv, index_col=0)
print('MERCOSUR recuperado csv:')
print(mercosur2csv)

MERCOSUR recuperado csv:
        Pais       Capital   Area  Poblacion
0  Argentina  Buenos Aires  2.784       47.0
1     Brasil      Brasilia  8.516      200.4
2    Uruguay    Montevideo  0.176        3.5
3   Paraguay      Asuncion  0.406        7.3


#### Desde Planilla Excel

In [37]:
brics2xlsx=pd.read_excel(archivoBricsExcel)
print('BRICS recuperado xlsx:')
print(brics2xlsx)
mercosur2xlsx=pd.read_excel(archivoMercosurExcel,index_col=0)
print('MERCOSUR recuperado xlsx:')
print(mercosur2xlsx)

BRICS recuperado xlsx:
        country    capital    area  population
0        Brazil   Brasilia   8.516      200.40
1        Russia     Moscow  17.100      143.50
2         India  New Dehli   3.286     1252.00
3         China    Beijing   9.597     1357.00
4  South Africa   Pretoria   1.221       52.98
MERCOSUR recuperado xlsx:
        Pais       Capital   Area  Poblacion
0  Argentina  Buenos Aires  2.784       47.0
1     Brasil      Brasilia  8.516      200.4
2    Uruguay    Montevideo  0.176        3.5
3   Paraguay      Asuncion  0.406        7.3


#### Desde archivo binario Pickle

In [38]:
brics2pkl=pd.read_pickle(archivoBricsPkl)
print('BRICS recuperado pkl:')
print(brics2pkl)
mercosur2pkl=pd.read_pickle(archivoMercosurPkl)
print('MERCOSUR recuperado pkl:')
print(mercosur2pkl)

BRICS recuperado pkl:
        country    capital    area  population
0        Brazil   Brasilia   8.516      200.40
1        Russia     Moscow  17.100      143.50
2         India  New Dehli   3.286     1252.00
3         China    Beijing   9.597     1357.00
4  South Africa   Pretoria   1.221       52.98
MERCOSUR recuperado pkl:
        Pais       Capital   Area  Poblacion
0  Argentina  Buenos Aires  2.784       47.0
1     Brasil      Brasilia  8.516      200.4
2    Uruguay    Montevideo  0.176        3.5
3   Paraguay      Asuncion  0.406        7.3
