Desmenuzar un DataFrame — Pandas 01

José Arnulfo R. H.
3 min readMar 2, 2022

Antes de profundizar con la librería Pandas vale la pena conocer los componentes del DataFrame.

Visualmente la salida de un DataFrame de pandas (en un Jupyter Notebook) parece ser nada más que una tabla ordinaria de datos que consta de filas y columnas.

Debajo de la superficie se esconden tres componentes:

  • el índice, (index)
  • las columnas y (columns)
  • los datos. (data).

Esto se debe tener en cuenta para maximizar todo el potencial de DataFrame.

Photo by Mathew Schwartz on Unsplash

En esta sección veremos el conjunto de datos (dataset) de movie, se proporciona un diagrama etiquetado de todos los componentes principales.

¿Cómo lo haremos?

Vamos a usar la función read_csv para leer el conjunto de datos y mostraremos las primeros cinco filas con el método head:

movie = pd.read_csv('data/movie.csv')movie.head()

Analicemos un DataFrame:

Pandas primero lee los datos del disco en la memoria y a un DataFrame usando la función read_csv. El resultado (output) de las columnas y el índice esta en negrita, lo que facilita la identificación.

Por convención, el termino etiqueta de índice (index label) y el nombre de columna (column name) se refiere a los miembros individuales del índice y las columnas, respectivamente.

Las columnas y el índice tienen un propósito particular, el de proporcionar etiquetas para las columnas y filas del DataFrame. Estas etiquetas permiten un acceso directo y fácil a diferentes subconjuntos de datos.

Un DataFrame tiene dos ejes: un eje vertical (el índice) y un eje horizontal (las columnas). Pandas toma prestada la convención de NumPy y usa los números enteros 0/1 como otra forma de referirse al eje vertical/horizontal.

Los datos de DataFrame (values) siempre están en fuente regular y son un componente completamente separado de las columnas o el índice. Pandas utiliza NaN (no un número) para representar valores faltantes (missing values).

Por ejemplo, la columna color solo tiene valores de cadena (string), esta utiliza NaN para representar un valor faltante.

Los tres puntos consecutivos en el medio de las columnas indican que hay al menos una columna que existe pero que no se muestra debido a que la cantidad de columnas excede los límites de visualización predefinidos.

Final

El método head acepta un único parámetro, n, que controla el número de filas mostradas. De manera similar, el método tail devuelve las ultimas n filas.

Documentación oficial de read_csv:

Thanks for reading!
¡Gracias por leer!

Gracias por llegar hasta aquí. Recibo con mucho agrado los comentarios y las críticas constructivas.

Si gustas puedes seguirme en mis redes sociales en Instagram @arnulfo o LinkedIn.

--

--