Skip to content

Tipologia-y-Ciclo-de-Vida-de-los-Datos/Practica-2--Limpieza-y-Analisis-de-datos

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

42 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation


Logo

Práctica 2 - Limpieza y Análisis de Datos

En esta práctica, se ha complementado el dataset final de países extraído en la Práctica 1- Web scraping con el PIB anual y el SMI por país. Una vez conseguido, se ha procedido a la limpieza y análisis de los datos.

ÍNDICE
  1. Sobre los Datasets
  2. El proyecto
  3. Contactos

Sobre los datasets

Descripción de los datasets

Expatistan es un webpage que nos ofrece una forma sencilla, intiutiva y eficaz de visualizar el coste de vida por ciudades y países. Además, también se pueden hacer comparativas entre ellos y cálcular tu salarios aproximado por ciudad actual y ciudad de destino.

Par este proyecto nos centraremos en ampliar la extracción de datos sobre países que hicismos sobre Expatistan para la práctica 1 con los datos del PIB anual y SMI del webpage Datosmacro. De ahí que en el repositorio hayan dos datasets originales: PIB_SMI_divisas.xlsx y cost_of_living_countries.csv. Como dicen sus nombres, cada uno corresponde al tipo de datos que contienen y, con el notebook Ampliaciones del dataset.ipynb que se puede encontrar dentro del directorio /code, los fusionaremos para crear el dataset inicial de la práctica: cost_of_living_countries_updated.csv. Este dataset contiene las siguientes variables:

cost_of_living_cities.csv Tipo de variable Explicación
Ranking position int Posición numérica del país o ciudad en el Raking de la web
Country chr Nombre del país de originen de la ciudad o país al que se le hace el Web Scraping respectivamente
Category chr Nombre de la clasificación genérica que se le ha otorgado a un conjunto de items
Items chr Objetos o servicioscuyos precios nos sirven para estimar el coste de vida por país o ciudad
Original Currency chr Nombre de la moneda usada por el país o ciudad a los que se ha aplicado el Web Scraping
Original Currency Value chr Valor de la moneda usada por el país o ciudad a los que se ha aplicado el Web Scraping
Exchanged Currency chr Nombre de la moneda usada para el cambio de divisa
Exchanged Currency Value chr Valor de la moneda usada para el cambio de divisa
PIB anual chr Último valor deProducto Interior Bruto anual registrado por país en Euros
SMI (dolares) chr Salario Mínimo Interprofesional por país en Dólares
SMI (euros) chr Salario Mínimo Interprofesional por país en Euros



Una vez se lleve a cabo y se finalice la limpieza de los datos, este dataset final se guardará (apartado 3. Guardamos los datos pre-procesados) bajo el nombre cost_of_living_countries_clean.csv.

(back to top)

Herramientas y Librerias utilizadas

(back to top)

El proyecto

Requisitos previos

  1. Tener instalado Jupyter Notebook en local o una cuenta de alguna plataforma de servicio Cloud con python notebooks habilitados (Google Colab, Kaggle, etc.)
  2. Tener python instalado en la máquina si se quiere usar el notebook en local.
  3. Tener instalado RStudio y R en elocal junto con las librerías mencionadas en el punto anterior

Código de la Práctica

Para pòder dar incio a la práctica, tenemos como primera parte el notebook Ampliaciones del dataset.ipynb en el directorio /code. Este notebook tendrá como función principal generar el dataset que usaremos a lo largo de la práctica: cost_of_living_countries_updated.csv. Sin embargo, como no era posible una unión directa de los datos del PIB anual y SMI con el dataset extraído en la primera práctica, se han llevado a cabo los isguinertes pasos:

  1. Cargar las distintas hojas del dataset PIB_SMI_divisas.xlsx, una para el PIB y otra para los valores del SMI
  2. Cargar el dataset original cost_of_living_countries.csv
  3. Combinar los dataframes del punto 1 tomando como referencia la columna "Países"
  4. Eliminar los espacios y caracteres especiales de la columna "Países" de cada dataframe del punto 1
  5. Traducir los nombres de cada país del español al inglés
  6. Renombrar la columna como "Country"
  7. Fusionar el dataset original con los nuevos datos y guardar como cost_of_living_countries_updated.csv

En cuanto al código principal de la práctica, este se puede encontrar en el directorio /source, donde está el archivo rmd PRA2_Data_cleaning_and_analysis.Rmd que hemos generado el RStudio para hacer el informe interactivo resultante.

(back to top)

Contactos

Este proyecto ha sido llevado a cabo por:

  1. José Luis Santos Durango - josant05@uoc.edu
  2. María Isabel González Sánchez - mgonzalezsanchez19@uoc.edu

Contáctanos: Miembros del equipo

(back to top)

About

Práctica 2 de Tipología y Ciclo de Vida de los Datos 22-23

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published