Méthodologie de l'enquête
Les tris croisés

Christophe Lejeune

Cette page a fait partie des supports des travaux pratiques du cours de méthodologie des sciences sociales jusqu'en 2004. Ces notes (troisième partie) sont conservées ici car elles se sont avérées utiles à d'autres personnes que les étudiants qui ont suivi ce cours.

Lorsque l'on veut croiser les réponses à deux questions et donner une interprétation du type "l'appartenance à telle ou telle classe socio-professionnelle explique-t-elle le choix des loisirs", la procédure à suivre consiste à rapprocher les résultats à deux questions du questionnaire conçu aux étapes précédentes.

On établit donc un tableau croisé des résultats.

Cependant, pour que notre interprétation aie un sens, il faut vérifier que la répartition des réponses ne s'est pas faite dans une configuration similaire à ce qu'elle aurait été s'il s'agissait d'un simple hasard (auquel cas notre hypothèse est réfutée).

On va donc tout d'abord tester la pertinence de l'hypothèse d'indépendance entre les deux variables. On procède comme suit : on compare la répartition des données observées (c'est-à-dire les réponses collectées) à ce qu'aurait pu être une répartition de ces dernières "au hasard" (ce qu'on appelle les "attendues"). Dans le cas d'une indépendance entre les variables, il n'y aurait aucun effet de l'une ou l'autre sur les résultats croisés. On va donc considérer que l'hypothèse d'indépendance (ou de hasard) correspond simplement, pour chacune des variables, à ne pas influencer la seconde (ni être influencée par elle).

Prenons ce petit sondage imaginaire, réalisé auprès de 10 personnes. Deux questions sont posées, respectivement sur la consommation d'alcool et sur une expérience de rencontre du troisième type.

 
Alcoolique
Pas alcoolique
 
A vu un alien
2
3
5
N'a pas vu d'alien
1
4
5
 
3
7
10

Dans l'hypothèse d'une indépendance entre les variables ("alcoolique ou pas" ET "a vu ou pas"), les données (2,3,1,4) se repartiraient au hasard, c'est-à-dire en ignorant l'existence de l'autre variable. Pour l'exemple de la boisson, on aurait donc une répartition de la population en 3 et 7 et, pour celui de la rencontre, 5 et 5.

Vous avez compris que l'on prend en considération les valeurs marginales, c'est-à-dire les valeurs de la ligne du bas (qui somment les valeurs en colonne) et celles de la colonne de droite (qui somment les valeurs des lignes horizontales). Ces valeurs sont prises comme référent de notre hypothèse d'indépendance. Si l'on remarque que les données observées (c'est-à-dire les reponses aux questions, qui se trouvent dans les quatre cases centrales de notre tableau) s'éloignent de manière significative de ce référent, on pourra rejeter l'hypothèse du hasard et procéder à l'interprétation proposée en début de page.

Mais, comment déterminer ce qui est "significatif"? C'est ici que le CHI2 fait sont entrée (prononcer "qui carré" ou "qui deux").

Ce dernier part du principe de la comparaison des valeurs attendues aux valeurs observées. Si on norme le tableau ci-dessus à l'aide de lettres pour les colonnes et de chiffres pour les lignes, il nous faut construire le tableau suivant (utilisez votre tableur préféré) qui va représenter les valeurs attendues (une simulation du hasard si vous voulez)

       
 
D2*B4/D4
D2*C4/D4
 
 
D3*B4/D4
D3*C4/D4
 
       

Ce qui donne :

       
 
1,5
3,5
 
 
1,5
3.5
       

 

Il va donc suffire de comparer des données observées (les quatres cases centrales du premier tableau) aux chiffres obtenus dans le dernier tableau ci-dessus (c'est-à-dire les données dites "attendues"). On utilise (enfin) à cet effet le (fameux) test CHI2 qui nous donne un chiffre.

Si ce chiffre est très petit (par convention inférieur à 0.05), on estime que nos observations ont peu de chance de s'être produites hasard et que l'on peut rejeter l'hypothese d'indépendance. On peut donc se permettre le type d'interprétation présentée en début de page.

Au dessus de 0.05, on dit qu'on ne peut pas rejeter l'hypothèse d'indépendance et on en conlut qu'on ne peut pas expliquer une variable par l'autre..

Dans notre cas (exemple), on obtient : 0.49, ce qui est dix fois trop pour se permettre de dépasser le moment descriptif des tris à plat; on ne dira donc rien du croisement des données si ce n'est que l'on ne peut pas rejeter l'hypothèse d'indépendance.

 

Bon travail !

Retour