Determina el número ideal de Grados de nuestra Facultad de Matemáticas (sistema A) a partir del número óptimo de clusters o vecindades de Voronói:
- Obtén el coeficiente
$\bar{s}$ de A para diferente número de vecindades$k\in {2, 3, ..., 15}$ usando el algoritmo KMeans. Muestra en una gráfica el valor de$\bar{s}$ en función de$k$ y decide con ello cuál es el número óptimo de vecindades. En una segunda gráfica, muestra la clasificación (clusters) resulante con diferentes colores y representa el diagrama de Voronói en esa misma gráfica. - Obtén el coeficiente
$\bar{s}$ para el mismo sistema A usando ahora el algoritmo DBSCAN con la métrica euclidean y luego con manhattan, En este caso, el parámetro que debemos explorar es el umbral de distancia$\varepsilon \in (0.1, 0.4)$ , fijando el número de elementos mínimo en$n_0 = 10$ . Comparad gráficamente con el resultado del apartado anterior. - ¿De qué Grado diríamos que son las personas con coordenadas
$a = (0, 0)$ y$b = (0, -1)$ ? Comprueba tu respuesta con la función kmeans.predict.
Clustering y diagramas de Voronoi son dos herramientas fundamentales en el análisis y visualización de datos. Clustering es una técnica que agrupa conjuntos de objetos o puntos de datos en subconjuntos o grupos homogéneos, mientras que los diagramas de Voronoi son una herramienta matemática que se utiliza para dividir un espacio en regiones basadas en la ubicación de puntos específicos en ese espacio. Estas herramientas son utilizadas en conjunto para visualizar y analizar conjuntos de datos, dividiendo el espacio en regiones y agrupando los puntos de datos dentro de esas regiones en grupos homogéneos para identificar patrones y segmentar los datos en grupos que puedan ser analizados de manera más efectiva.
Como lenguaje de programación, se ha usado python, para realizar todo el código, predicciones y gráficas. Por otro lado como funete de datos se han utilizado los archivos de texto Grados_en_la_facultad_matematicas.txt y Personas_en_la_facultad_matematicas.txt.En ellos podemos encontrar datos recopilados de alumnos de distintos grados de la facultad de matemáticas, estos son el nivel de estrés y la afición al rock. Según estos datos, sin previamente saber a qué grado pertenece cada alumno, debemos encontrar el número óptimo de grados en los que clasificar dicho grupo de personas. Para ello procederemos a hacer el estudio con los algoritmo K Means y DBSCAN.
Podemos observar en la figura (1.a) que para valores de
Ahora obtenemos los valores de Silouette,
Por otro lado, podemos comparar los resultados del apartado anterior con los actuales en la figura (2.b). Como bien se puede apreciar,
los valores de Silouette son bastante mejores en el caso del algoritmo de K-Means. Esto se puede deber a diversos motivos, como por ejemplo
el número
Por último en la figura (2.c) se puede observar la nube de puntos separados en
A raíz de los resultados del DBSCAN comentados anteriormente, he realizado una ampliación en el estudio, aumentando los intervalos de
busqueda de los parámetros óptimos:
Los resultados óptimos se dan para
Como se puede observar en la figura (4) el