En esta práctica, se ha complementado el dataset final de países extraído en la Práctica 1- Web scraping con el PIB anual y el SMI por país. Una vez conseguido, se ha procedido a la limpieza y análisis de los datos.
ÍNDICE
Expatistan es un webpage que nos ofrece una forma sencilla, intiutiva y eficaz de visualizar el coste de vida por ciudades y países. Además, también se pueden hacer comparativas entre ellos y cálcular tu salarios aproximado por ciudad actual y ciudad de destino.
Par este proyecto nos centraremos en ampliar la extracción de datos sobre países que hicismos sobre Expatistan para la práctica 1 con los datos del PIB anual y SMI del webpage Datosmacro. De ahí que en el repositorio hayan dos datasets originales: PIB_SMI_divisas.xlsx
y cost_of_living_countries.csv
. Como dicen sus nombres, cada uno corresponde al tipo de datos que contienen y, con el notebook Ampliaciones del dataset.ipynb
que se puede encontrar dentro del directorio /code
, los fusionaremos para crear el dataset inicial de la práctica: cost_of_living_countries_updated.csv
. Este dataset contiene las siguientes variables:
cost_of_living_cities.csv | Tipo de variable | Explicación |
---|---|---|
Ranking position | int | Posición numérica del país o ciudad en el Raking de la web |
Country | chr | Nombre del país de originen de la ciudad o país al que se le hace el Web Scraping respectivamente |
Category | chr | Nombre de la clasificación genérica que se le ha otorgado a un conjunto de items |
Items | chr | Objetos o servicioscuyos precios nos sirven para estimar el coste de vida por país o ciudad |
Original Currency | chr | Nombre de la moneda usada por el país o ciudad a los que se ha aplicado el Web Scraping |
Original Currency Value | chr | Valor de la moneda usada por el país o ciudad a los que se ha aplicado el Web Scraping |
Exchanged Currency | chr | Nombre de la moneda usada para el cambio de divisa |
Exchanged Currency Value | chr | Valor de la moneda usada para el cambio de divisa |
PIB anual | chr | Último valor deProducto Interior Bruto anual registrado por país en Euros |
SMI (dolares) | chr | Salario Mínimo Interprofesional por país en Dólares |
SMI (euros) | chr | Salario Mínimo Interprofesional por país en Euros |
Una vez se lleve a cabo y se finalice la limpieza de los datos, este dataset final se guardará (apartado 3. Guardamos los datos pre-procesados) bajo el nombre cost_of_living_countries_clean.csv
.
- Jupyter Notebook
- RStudio
- dplyr
- VIM
- readxl
- tidyr
- tinytex
- car
- caret
- vcd
- pROC
- pandas
- mtranslate
- Tener instalado Jupyter Notebook en local o una cuenta de alguna plataforma de servicio Cloud con python notebooks habilitados (Google Colab, Kaggle, etc.)
- Tener python instalado en la máquina si se quiere usar el notebook en local.
- Tener instalado RStudio y R en elocal junto con las librerías mencionadas en el punto anterior
Para pòder dar incio a la práctica, tenemos como primera parte el notebook Ampliaciones del dataset.ipynb
en el directorio /code
. Este notebook tendrá como función principal generar el dataset que usaremos a lo largo de la práctica: cost_of_living_countries_updated.csv
. Sin embargo, como no era posible una unión directa de los datos del PIB anual y SMI con el dataset extraído en la primera práctica, se han llevado a cabo los isguinertes pasos:
- Cargar las distintas hojas del dataset
PIB_SMI_divisas.xlsx
, una para el PIB y otra para los valores del SMI - Cargar el dataset original
cost_of_living_countries.csv
- Combinar los dataframes del punto 1 tomando como referencia la columna "Países"
- Eliminar los espacios y caracteres especiales de la columna "Países" de cada dataframe del punto 1
- Traducir los nombres de cada país del español al inglés
- Renombrar la columna como "Country"
- Fusionar el dataset original con los nuevos datos y guardar como
cost_of_living_countries_updated.csv
En cuanto al código principal de la práctica, este se puede encontrar en el directorio /source
, donde está el archivo rmd PRA2_Data_cleaning_and_analysis.Rmd
que hemos generado el RStudio para hacer el informe interactivo resultante.
Este proyecto ha sido llevado a cabo por:
- José Luis Santos Durango - josant05@uoc.edu
- María Isabel González Sánchez - mgonzalezsanchez19@uoc.edu
Contáctanos: Miembros del equipo