Gabarit « Association »
Fichier à télécharger
Téléchargez le gabarit Association.
Le gabarit a été mis à jour le 23 septembre 2024. Il permet maintenant d’analyser jusqu'à 40 variables (plutôt que 30 comme énoncé dans la vidéo). Il permet aussi de calculer les règles d’association lorsque certaines données sont manquantes (ce qu’il ne faisait pas avant).
Description
Le gabarit Association est un gabarit qui a été développé spécifiquement pour le cours MATH 10605 - Introduction à l’analytique d’affaires. Il permet de calculer les règles d’associations (supports, confiances et lifts) d’une base de données. Vous pouvez télécharger le gabarit en soi (fichier Excel) en cliquant sur le lien en haut de cette page.
Voici un bref rappel des règles d’associations utilisées. Des interprétations concrètes sont fournies dans la vidéo fournie plus bas sur cette page.
Support(X) = P(X) = Ratio du nombre de personnes répondant à une certaine caractéristique par rapport au nombre total de personnes observées.
Support(X => Y) = Ratio du nombre de personnes répondant simultanément à deux caractéristiques ou plus par rapport au nombre total de personnes observées.
Confiance(X => Y) = P(Y|X) = Probabilité qu’un évènement Y se réalise sachant qu’un évènement X à déjà eu lieu.
Lift(X => Y) = P(Y|X) / P(Y) = Mesure permettant de déterminer dans quelle mesure l’ajout d’un item X vient modifier la probabilité de consommer l’item Y.
Procédure (Vidéo)
La vidéo ci-dessous illustre comment utiliser le gabarit Association. Un résumé écrit de la procédure est fourni plus bas. Rappel : Vous pouvez télécharger le fichier en cliquant sur le lien tout en haut de la page.
Téléchargez le gabarit Association.
Résumé de la procédure
À l’ouverture du fichier, n’oubliez pas d’activer les macros. En cas de problèmes, consultez la page Activation des macros.
Si les cellules grises de la feuille Données contiennent déjà des données, effacez-les en cliquant sur le bouton « Cliquez ici pour effacer le contenu des cellules grises ».
Si ce n’est pas déjà fait, n’oubliez pas de recoder vos données de manière à n’avoir que des 0 et des 1.
0 = L’item n’a pas été consommé.
1 = L’item a été consommé au moins une fois.
Une fois que vos données ont été recodées adéquatement, copiez-les, puis collez-les dans la feuille Données du gabarit en effectuant un Collage spécial des valeurs. Toutefois, veuillez-faire attention aux deux éléments ci-dessous.
Comme indiqué dans le gabarit, vous pouvez coller une base de données contenant un maximum de 50 000 lignes (taille d'échantillon maximum) et 40 colonnes (nombre maximum de variables).
La première ligne (à droite de ID) doit contenir les titres de vos variables. Toutes les lignes suivantes (à partir de ID = 1), devraient uniquement contenir des 0 ou des 1 (aucun autre nombre, aucun texte).
Les différents supports, confiances et lifts seront ensuite disponibles dans les feuilles concernées.
Feuille Support
Les nombres sur la diagonale correspondent aux supports individuels des variables.
Les nombres en dessous de la diagonale correspondent aux supports conjoints des deux variables concernées.
Les nombres au-dessus de la diagonale ont été omis étant donné que les supports conjoints sont symétriques : Support(X => Y) = Support (Y => X).
Feuille Confiance
Il n’y a pas de nombres sur la diagonale étant donné que cela n’aurait aucune valeur ajoutée. En effet : Confiance(X => X) = P(X | X) = 1 = 100% de chances de consommer X sachant qu’il a déjà été consommé.
Les informations se lisent de la façon suivante : Confiance(item ligne => item colonne) = P(item colonne | item ligne).
Il y a des nombres au-dessus et en dessous de la diagonale étant donné que les confiances ne sont pas symétriques : Confiance(X => Y) ≠ Confiance(Y => X).
Feuille Lift
Il n’y a pas de nombres sur la diagonale étant donné qu’il n’est pas logique d’interpréter le lift d’un élément avec lui-même.
Les nombres au-dessus de la diagonale ont été omis étant donné que les lifts sont symétriques : Lift(X => Y) = Lift(Y => X).