Vous êtes ici : Accueil > Recueil de données > Opérations > Ingénierie du recueil de données > Choix de la population
Auprès de qui enquêter et comment déterminer un échantillon ?
La population est constituée par l'ensemble des sujets, unités ou objets qui sont potentiellement concernés par l'enquête. En fonction de l'étude, la population peut être constituée d'un ensemble de personnes, d'organisations ou d'objets matériels. Par exemple, une étude sur les CFA devrait s'adresser à tous les établissements comprenant un CFA en France. De même, une étude sur le sexisme dans les manuels scolaires européens actuels aurait pour population d'enquête l'ensemble des manuels scolaires actuellement utilisés en Europe.
Il est généralement impossible, voire inutile, d'effectuer le recueil de données sur l'ensemble de la population. C'est pourquoi on sélectionne une partie de la population - l'échantillon - sur qui va effectivement porter l'enquête.
L'échantillon doit être représentatif de la population, c'est-à-dire présenter des caractéristiques semblables, qualitativement et proportionnellement, pour que les conclusions de l'enquête puissent être généralisées à l'échelle de la population. La généralisation relève de l'inférence : on infère que les résultats obtenus sur un échantillon particulier sont les mêmes que ceux que l'on aurait obtenus auprès de l'ensemble de la population correspondante. Dans le cadre des recherches scientifiques, l'inférence est outillée par des tests statistiques.
Par conséquent, une fois les caractéristiques déterminantes pour l'étude et la population identifiées, il s'agira de sélectionner un échantillon qui reflète cette population, au moins en ce qui concerne les caractéristiques clés. Différentes méthodes, basées sur le calcul de probabilités, sont possibles. En premier lieu, il s'agira toujours d'identifier la population et d'établir une liste exhaustive de ses "unités" (organisations ou sujets, ou etc.), en fonction des caractéristiques déterminantes pour l'étude. Si la sélection de x% de la population pour constituer l'échantillon tient compte de sous-catégories, on parlera d'un échantillonnage stratifié. Si, a priori, la population ne présente pas de caractéristiques connues qui puissent déterminer (ou contribuer à déterminer) le phénomène étudié, on procèdera à un échantillonnage aléatoire simple. Dans ce cas, on tirera au sort x% de la population, sans opérer de distinction supplémentaire.
Dans la pratique, il est souvent difficile de disposer d'une liste exhaustive et juste de la population. Dans ce cas, on procédera à des échantillonnages qualifiés d'empiriques ou de pragmatiques qui ne se réfèrent pas à des principes et calculs de probabilité. En conséquence, il est alors plus risqué de généraliser à la population les résultats obtenus au niveau de l'échantillon.
Le plus couramment, on effectuera un échantillonnage par convenance. On recherchera des "unités" présentant les critères importants pour l'étude réalisée avec le but de rendre homogènes les participants (personnes, organisations, etc.) à l'étude. Ainsi, si l'étude porte sur des journaux éducatifs français, allemands et italiens, on cherchera à avoir un échantillon équivalent en nombre et en qualité (publications mensuelles/semestrielles ; âge du lectorat, etc.) pour chacune des "nationalités" de journaux. Lorsque l'on s'adresse à des individus, il est courant de mettre en œuvre le procédé dit "boule de neige" en demandant à ces personnes de proposer ou solliciter d'autres participants pour l'étude.
L'échantillonnage par convenance et, en particulier par "boule de neige", même s'il est très courant, fait courir le risque d'obtenir des résultats contingents, c'est-à-dire, liés à l'échantillon et donc non généralisables.
Pour garantir une stabilité des résultats, on pourra chercher à obtenir un échantillon délibérément hétérogène en se fondant sur le postulat suivant : si malgré cette hétérogénéité les résultats se confirment au cours de plusieurs expériences, alors ces mêmes résultats devraient être vrais au niveau de la population.
Enfin, l'échantillon par quotas présente une tentative d'équilibre entre l'échantillonnage aléatoire stratifié et l'échantillonnage par convenance. Ne disposant pas d'informations sur l'ensemble de la population mais connaissant le pourcentage de répartition de diverses variables, on sélectionnera des unités, à concurrence du respect de ces quotas dans l'échantillon. Cette technique est très utilisée dans les sondages. Connaissant les pourcentages de répartition entre chaque catégorie socioprofessionnelle dans la population française, les enquêteurs auront pour consigne d'interroger des personnes de manière à entrer dans le cadre de ces quotas. Le sondeur à la sortie des urnes aura donc pour mission de trouver 5 agriculteurs, 13 ouvriers, etc. On retrouve ici les mêmes biais du procédé boule de neige.
Ainsi, différentes formules statistiques permettent de calculer avec un degré de confiance maîtrisé la taille appropriée. La taille de l'échantillon dépend donc de la précision souhaitée quand on va généraliser les résultats (inférence échantillon/population). Par exemple, un échantillon de 100 personnes, pour une population de taille indéfinie et un risque d'erreur de 5%, apporte une précision d'environ ± 10%. Pour un échantillon de 250 personnes, la précision est de ± 5%. Ainsi, si 53% de l'échantillon de 100 personnes déclare vouloir voter pour le candidat X, je peux affirmer, avec 5 % de risque d'erreur, que 43 à 63 % de la population a l'intention de voter pour ce candidat X. De là à pronostiquer qui sera le vainqueur de l'élection en question... En étudiant les statistiques on apprend à relativiser les sondages !