Évaluation de l'agrégation des grains

Dans l'exercice précédent, vous avez observé à partir du graphique d'inertie que 3 est un bon nombre de clusters pour les données grain. En réalité, les échantillons de céréales proviennent d'un mélange de trois variétés différentes : « Kama », « Rosa » et « Canadian ». Dans cet exercice, regroupez les échantillons de céréales en trois groupes et comparez ces groupes aux variétés de céréales à l'aide d'un tableau croisé.

Vous disposez du tableau samples contenant des échantillons de grains, ainsi que d'une liste varieties indiquant la variété de grain pour chaque échantillon. Les pandas (pd) et KMeans ont déjà été importés pour vous.

Cet exercice fait partie du cours

Apprentissage non supervisé en Python

Afficher le cours

Instructions

Créez un modèle d'KMeans appelé « model » avec des clusters « 3 ».
Utilisez la méthode « .fit_predict() » de « model » pour l'ajuster à « samples » et dériver les étiquettes des clusters. L'utilisation de .fit_predict() est identique à l'utilisation de .fit() suivie de .predict().
Créez un DataFrame df avec deux colonnes nommées « 'labels' » et « 'varieties' », en utilisant respectivement labels et varieties pour les valeurs des colonnes. Cela a été fait pour vous.
Veuillez utiliser la fonction « pd.crosstab() » (compter les occurrences) sur df['labels'] et df['varieties'] pour compter le nombre de fois où chaque variété de grain coïncide avec chaque étiquette de groupe. Affectez le résultat à ct.
Veuillez cliquer sur « Soumettre » pour afficher le tableau croisé !

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a KMeans model with 3 clusters: model
model = ____

# Use fit_predict to fit model and obtain cluster labels: labels
labels = ____

# Create a DataFrame with labels and varieties as columns: df
df = pd.DataFrame({'labels': labels, 'varieties': varieties})

# Create crosstab: ct
ct = ____

# Display ct
print(ct)

Modifier et exécuter le code

Cet exercice fait partie du cours

Apprentissage non supervisé en Python

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Découvrez comment identifier les groupes sous-jacents (ou « clusters ») dans un ensemble de données. À la fin de ce chapitre, vous serez en mesure de regrouper des entreprises en fonction de leurs cours boursiers et de distinguer différentes espèces en regroupant leurs mesures.

Exercise 1: Apprentissage non supervisé Exercise 2: Combien de grappes ?Exercise 3: Regroupement de points 2D Exercise 4: Vérifiez votre clustering Exercise 5: Évaluation d'un regroupement Exercise 6: Combien de grappes de grains ?Exercise 7: Évaluation de l'agrégation des grains

Exercice en cours

Exercise 8: Transformation des caractéristiques pour améliorer les regroupements Exercise 9: Mise à l'échelle des données sur les poissons pour le regroupement Exercise 10: Regroupement des données sur les poissons Exercise 11: Regroupement de titres à l'aide de KMeans Exercise 12: Quelles actions évoluent de manière similaire ?

Dans ce chapitre, vous découvrirez deux techniques d'apprentissage non supervisé pour la visualisation des données : le clustering hiérarchique et le t-SNE. Le regroupement hiérarchique fusionne les échantillons de données en grappes de plus en plus grossières, ce qui permet d'obtenir une visualisation arborescente de la hiérarchie des grappes obtenue. Le t-SNE mappe les échantillons de données dans un espace 2D afin de visualiser la proximité des échantillons les uns par rapport aux autres.

Exercise 1: Visualisation des hiérarchies Exercise 2: Combien de fusions ?Exercise 3: Regroupement hiérarchique des données sur les grains Exercise 4: Hiérarchies des actions Exercise 5: Étiquettes de grappes dans le regroupement hiérarchique Exercise 6: Quels sont les clusters les plus proches ?Exercise 7: Différents liens, différents regroupements hiérarchiques !Exercise 8: Regroupements intermédiaires Exercise 9: Extraction des étiquettes de cluster Exercise 10: t-SNE pour les cartes en deux dimensions Exercise 11: Visualisation t-SNE de l'ensemble de données sur les grains Exercise 12: Une carte t-SNE du marché boursier

La réduction de dimension résume un ensemble de données en utilisant ses modèles courants. Dans ce chapitre, vous découvrirez la technique la plus fondamentale de réduction de dimension, l'« analyse en composantes principales » (ACP). L'ACP est souvent utilisée avant l'apprentissage supervisé afin d'améliorer les performances et la généralisation du modèle. Il peut également être utile pour l'apprentissage non supervisé. Par exemple, vous utiliserez une variante de l'ACP qui vous permettra de regrouper des articles Wikipédia en fonction de leur contenu.

Exercise 1: Visualisation de la transformation PCA Exercise 2: Données corrélées dans la nature Exercise 3: Décorrélation des mesures de grain à l'aide de l'ACP Exercise 4: Composantes principales Exercise 5: Dimension intrinsèque Exercise 6: La première composante principale Exercise 7: Variance des caractéristiques PCA Exercise 8: Dimension intrinsèque des données sur les poissons Exercise 9: Réduction de dimension avec l'ACP Exercise 10: Réduction des dimensions des mesures des poissons Exercise 11: Tableau de fréquence des mots tf-idf Exercise 12: Regroupement de Wikipédia, partie I Exercise 13: Regroupement de Wikipédia, deuxième partie

Dans ce chapitre, vous découvrirez une technique de réduction de dimension appelée « factorisation matricielle non négative » (ou « NMF »), qui exprime les échantillons sous forme de combinaisons de parties interprétables. Par exemple, il exprime les documents sous forme de combinaisons de thèmes et les images en termes de motifs visuels courants. Vous apprendrez également à utiliser NMF pour créer des systèmes de recommandation capables de vous proposer des articles similaires à lire ou des artistes musicaux correspondant à vos goûts musicaux.

Exercise 1: Factorisation de matrices non négatives (NMF)Exercise 2: Données non négatives Exercise 3: NMF appliqué aux articles Wikipédia Exercise 4: Caractéristiques NMF des articles Wikipédia Exercise 5: Le NMF reconstruit les échantillons.Exercise 6: Le NMF apprend les parties interprétables Exercise 7: Le NMF apprend les sujets des documents.Exercise 8: Explorer l'ensemble de données sur les chiffres LED Exercise 9: Le NMF apprend les différentes parties des images.Exercise 10: L'analyse en composantes principales (ACP) ne prend pas en compte les parties.Exercise 11: Construire des systèmes de recommandation à l'aide de la NMF Exercise 12: Quels sont les articles similaires à « Cristiano Ronaldo » ?Exercise 13: Recommander des artistes musicaux, première partie Exercise 14: Recommander des artistes musicaux, deuxième partie Exercise 15: Dernières réflexions