Conjunto de Datos
El objetivo de este apéndice es listar los conjuntos de datos utilizados en el curso.
Tabla de Contenido
Paquetes usados
from sklearn.datasets import load_breast_cancer, load_diabetes, load_digits
from scipy.stats import multivariate_normal
from matplotlib import pylab as plt
import numpy as np
import pandas as pd
import seaborn as sns
sns.set_theme()
Problemas Sintéticos
En esta sección se presentan los problemas sintéticos que corresponden aquellos problemas en los que se conocen todos los parámetros y se usan para mostrar algunas características de los algoritmos.
Mezcla de Clases
p1 = multivariate_normal(mean=[5, 5], cov=[[4, 0], [0, 2]])
X_1 = p1.rvs(size=1000)
p2 = multivariate_normal(mean=[1.5, -1.5], cov=[[2, 1], [1, 3]])
X_2 = p2.rvs(size=1000)
p3 = multivariate_normal(mean=[12.5, -3.5], cov=[[2, 3], [3, 7]])
X_3 = p3.rvs(size=1000)
La siguiente figura muestra estas tres distribuciones.
Clases Separadas
X_1 = multivariate_normal(mean=[5, 5], cov=[[4, 0], [0, 2]]).rvs(1000)
X_2 = multivariate_normal(mean=[-5, -10], cov=[[2, 1], [1, 3]]).rvs(1000)
X_3 = multivariate_normal(mean=[15, -6], cov=[[2, 3], [3, 7]]).rvs(1000)
Este problema se muestra en la siguiente figura.
Problemas de Clasificación
En esta sección se listan los problemas de clasificación utilizados durante el curso.
Breast Cancer Wisconsin
El conjunto de datos de Breast Cancer Wisconsin se obtiene con el siguiente código.
X, y = load_breast_cancer(return_X_y=True)
Iris
Un conjunto clásico en problemas de clasificación es el problema del Iris que se encuentra con las siguientes instrucciones.
X, y = load_iris(return_X_y=True)
Números
El conjunto de Digits es un conjunto de clasificación donde se trata de identificar el número escrito en una imagen; este conjunto de datos se descarga utilizando las siguientes instrucciones.
X, y = load_digits(return_X_y=True)
Problemas de Regresión
En esta sección se listan los problemas de regresión utilizados para ejemplificar los algoritmos y su rendimiento.
Problema Sintético
El siguiente ejemplo es un problema de regresión sintético que se forma de la suma de dos funciones trascendentales como se muestra en el siguiente código.
X = np.linspace(-5, 5, 100)
y = np.sin(x) + 0.3 * np.cos(x * 3.)
La siguiente figura muestra este problema sintético.
Código de la figura
df = pd.DataFrame(dict(X=X, y=y))
df.set_index('X', inplace=True)
sns.relplot(df, kind='line')
Diabetes
El conjunto de datos Diabetes es un problema que se puede recuperar usando el siguiente código.
X, y = load_diabetes(return_X_y=True)