Note
Este es un proyecto que pretende analizar datos oficiales de un comercio de moda con el objetivo de impulsar las ganancias y el negocio.
Caution
Utilizar con fines educativos
Una tienda online de moda, con presencia en todo Brasil, necesita impulsar su rendimiento utilizando sus datos de manera estratégica. Como científico de datos, hemos sido convocados para analizar sus datos para generar información y ofrecer insights que guíen sus decisiones y respondan al contexto en el que se encuentran. |
Important
Se requiere importar las siguientes tecnologías librerías para poder trabajar con el proyecto
import geobr
import pandas
import numpy
import matplotlib
import seaborn
import tabulate
import requests
from io import BytesIO
from sqlalchemy import create_engine, MetaData, Table, inspect, text
global df_items_pedidos, df_pedidos, df_productos, df_vendedores, database
Éste es el proceso más laborioso cuando obtenemos raw data y es el mas importante ya que a partir de datos legibles podemos continuar con el proyecto:
Un resumen de éste proceso:
- Eliminamos la columna "sku"
- Eliminamos los registros que no tengan un vendedor o producto conocido, a pedido de nuestro cliente que indico que no desea ningun dato de tipo desconocido
- Cambiamos los tipos de datos de algunas columnas
- Eliminamos duplicados
Para el dataframe_vendedores se encontro que existe una venta de un producto por el valor de U$D780 que corresponde al vendedor 'Unknown'. Por motivos de información relacionada a las ganancias y ventas optamos por no eliminar el vendedor 'Unknown'. Se asume que podría ser un vendedor que ya no existe o se olvidó registrar su nombre y se procedio a explicar la situación al cliente para que decidiera qué medidas tomar y se concluyo que no era de vital importancia esta información, por tanto se elimino el registro que hace referencia a este vendedor con el fin de realizar análisis posteriores sin preocuparnos por esta información.
A partir del pre-procesamiento inicial, hemos obtenido perspectivas preliminares de los datos.
A través de éste análisis nuestro objetivo fué el comprender qué datos teníamos y cómo se relacionan entre ellos para entender el alcance de la información que podíamos llegar a generar.
Además, detectamos información redundante y no escencial de la cual prescindimos para simplificar el proceso de EDA.
Como podemos observar en las imagenes, eliminamos las redundancias encontradas, se elimino la columna producto_id de la tabla df_pedidos y ahora la tabla no se encuentra conectada con la tabla df_productos. En segundo lugar se elimino de la tabla df_pedidos la columna total, ya que esta la podemos encontrar con el nombre de valor_total en la tabla df_items_pedidos, y de esta ultima tabla eliminamos la columna id_recibo, ya que esta información no guarda realación con ninguna otra tabla dentro de la BD.
En cuanto la información obtenida a través del EDA podemos destacar lo siguiente:
-
Se encontro en columna total de df_pedidos, la cual hace referencia a la misma columna valor_total en la df_items_pedidos que tenemos outliers dentro de nuestros datos, pero cuando analizamos de cerca la situación nos encontramos que no son outliers hablando estrictamente desde el punto de vista tecnico y estádistico, ya que esta por fuera de los valores normales, sin embargo el caso de estaduio es sobre venta de ropa, donde existen disferentes tipos de marcas, de las cuales algunas son muy costosos, por lo cual no es raro observar que se registraran ventas por montos tan grandes, en las siguientes imagenes podemos observar ambas gráficas boxplot de ambas columnas donde observamos que son iguales.
-
Tambien podemos observar que tecnicamente hablando existen outliers en las columnas valor unitario y costo_envio, pero esto va acorde con la información que se maneja en este tipo de negocios, donde si observamos existen productos o prendas de ropa con valores hasta por encima de 6000 Reales brasileños lo cual es normal, tendiendo que hablamos de marcas de ropa, y los costos de envios es normal que a sean igual de altos ya que hablamos que muchas veces estos están relacionado o van acorde al valor total de la prenda, al tener compras de más de 10k-40k de Reales Brasileños es normal ver costos de envios elevados
-
Dentro del resto de información no encontramos valores insuales, todos los productos estaban bien identificados, no habían valores en blanco. Dentro de los productos hay 3 caegorías los son usados que representan la mayoría, los que están nuevos pero con etiquetas y por ultimo los que están nuevos pero sin etiquetas
Históricamente, el producto más vendido es la Saia Midi Cinto, que es una falda que incluye un cinturón, con 549 ventas. A pesar de ser el producto más vendido, el producto Vestido Nude Reta, es el que consiguió mayores ingresos con $301,000
El análisis de los ingresos netos históricos muestra un valor promedio de $80 mil de ingresos netos diarios desde el 2020.
También podemos visualizar un histórico que el día 24 Nov del 2019, se reportó un ingreso neto de $289mil generado por la venta de algunas marcas famosas.
Podemos destacar a los vendedores Daniel y Ana, quienes aumentaron considerablemente sus ingresos netos hasta $5M en el 2020. Mientras que los vendedores Nadia y Millena, crecieron también hasta $4M en el 2020, el vendedor Paulo muestra una tendencia a la baja que debe ser acompañada de cerca.
Alagoas y Pernambuco son las 2 ciudades con mayores ingresos con R$ 1.5 M respectivamente.
Sin embargo, la ciudades de Mato Grosso do sul con R$ 1.2 M y Acre con R$ 1.15 M son las 2 ciudades que menores ventas realizaron