Contenu archivé

L'information qui porte la mention « archivée » est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n'est pas assujettie aux normes Web du gouvernement du Canada et elle n'a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, contactez-nous.

2. Traitement des données du Recensement et de l'Enquête nationale auprès des ménages

2.1 Introduction

Le présent chapitre porte sur le traitement de tous les questionnaires remplis, ce qui englobe toutes les activités allant de la réception des questionnaires à la création d'une base de données du recensement et d'une base de données de l'Enquête nationale auprès des ménages (ENM) exactes et complètes. Les étapes du traitement décrites ci-dessous sont l'enregistrement des questionnaires, l'imagerie des questionnaires et la saisie des données, la vérification, la correction des erreurs, le suivi des cas de rejet à la vérification, le codage, la classification des logements et les ajustements pour tenir compte de la non-réponse, l'imputation et la pondération.

Les processus automatisés mis en œuvre pour le Recensement et l'ENM de 2011 ont fait l'objet d'un contrôle afin de s'assurer que toutes les résidences de Canadiens soient dénombrées une fois et seulement une fois, et d'indiquer lesquelles de ces résidences devaient être incluses dans l'ENM. Le Système de contrôle principal (SCP) a été construit afin de contrôler et de surveiller l'enchaînement des opérations, de la collecte au traitement des données. Le SCP contenait une liste principale de tous les logements existants au Canada sur laquelle figurait pour chacun d'eux un numéro d'identification unique. Ce système a été mis à jour quotidiennement à l'aide des renseignements sur le statut de chaque logement dans l'enchaînement des opérations du recensement et de l'ENM (c.-à-d. questionnaire livré, reçu, traité, etc.). Le système a produit des rapports que les gestionnaires pouvaient consulter en ligne afin de s'assurer que les opérations du recensement et de l'ENM se déroulaient de manière efficace et efficiente.

2.2 Réception et enregistrement

Les réponses reçues par Internet ou par interview téléphonique de l'assistance téléphonique ont été transmises directement à une installation centralisée de traitement des données appelée Centre des opérations des données (COD) où leur réception a été enregistrée automatiquement.

Les répondants qui ont rempli un questionnaire papier devaient le retourner au COD par la poste. Postes Canada enregistrait automatiquement leur réception dans plusieurs emplacements au Canada (dans le cadre du processus ordinaire de traitement du courrier) en scannant par la fenêtre transparente des enveloppes-réponses le code à barres qui figurait à la première page du questionnaire. Puis, les enveloppes étaient livrées au COD. Chaque jour, Postes Canada envoyait un fichier énumérant tous les questionnaires du recensement et de l'ENM reçus à chaque établissement régional de traitement du courrier, par date de réception.

L'enregistrement de chaque questionnaire retourné était signalé dans le SCP à Statistique Canada. La liste de tous les logements pour lesquels un questionnaire n'avait pas été reçu était produite par le SCP, puis transmise aux opérations sur le terrain en vue d'un suivi. Des mises à jour concernant l'enregistrement étaient envoyées quotidiennement aux opérations sur le terrain afin d'éviter d'effectuer un suivi auprès des ménages qui avaient déjà rempli leur questionnaire.

2.3 Imagerie et saisie des données à partir d'images

En 2011, les formulaires transformés en image étaient les trois questionnaires du recensement (2A, 2C, 3A), le questionnaire du Recensement de l'agriculture (F6), et les deux questionnaires de l'ENM (N1, N2). La qualité des images a été améliorée comparativement à 2006 grâce au remplacement des scanneurs en noir et blanc par des scanneurs en couleurs. Le processus d'imagerie comprenait les étapes suivantes :

  • Préparation des documents : les questionnaires retournés par la poste ont été retirés des enveloppes, puis débarrassés de tous corps étrangers, comme des trombones ou des agrafes, en vue du balayage. Les questionnaires ont été mis en lot selon le type de formule. Les questionnaires sous forme de cahier ont été séparés en feuilles individuelles en coupant le dos de la reliure.
  • Balayage : à cette étape, les questionnaires papier ont été convertis en images numériques.
  • Évaluation automatisée de la qualité des images : un système automatisé a analysé les images afin de déceler les erreurs ou les anomalies. Les images rejetées à cette étape ont été transmises pour examen à un opérateur spécialisé en analyse de documents.
  • Analyse des documents : à cette étape, les images contenant des anomalies ont été présentées à un opérateur en vue de leur examen. L'opérateur pouvait accepter l'image telle quelle, l'envoyer directement à l'étape de la saisie des données ou l'envoyer en vue d'un nouveau balayage.
  • Reconnaissance automatisée de caractères : cette étape consistait en une tentative de reconnaissance automatique des réponses et des marques manuscrites sur les questionnaires.
  • Saisie des données par clavier : des opérateurs ont entré manuellement les réponses que le système de reconnaissance automatisée ne pouvait pas saisir avec suffisamment de certitude.
  • Vérification à la sortie : après qu'ils aient franchi avec succès toutes les étapes susmentionnées, les questionnaires papier ont été retirés du système. La vérification à la sortie est un processus d'assurance de la qualité destiné à s'assurer que les images et les données saisies sont d'une qualité telle que les questionnaires papier ne doivent plus subir de traitement ultérieur. Les questionnaires qui ont été identifiés comme contenant des erreurs ont été retirés à la sortie et traités à nouveau.

2.4 Contrôles de couverture

Les contrôles de couverture ont été appliqués aux questionnaires du recensement ainsi qu'à ceux de l'ENM. À cette étape, un certain nombre de contrôles automatisés ont été exécutés sur les données des répondants. Ces contrôles avaient pour but de déceler les cas où des personnes non valides pouvaient avoir été créées, à cause d'une erreur du répondant ou d'une erreur de saisie des données. Les données entrées par erreur pour une personne dans la mauvaise colonne, les données supprimées qui ont été saisies par erreur, ou les données fournies plus d'une fois pour la même personne, habituellement en raison de la réception de formules en double (p. ex., une personne a répondu au questionnaire par Internet, tandis que son conjoint ou sa conjointe a rempli le questionnaire papier et l'a renvoyé par la poste) en sont des exemples. Les contrôles ont également été conçus afin de déceler l'absence éventuelle de résidents habituels, lorsque les données n'étaient pas fournies pour chacun des membres du ménage énumérés au début du questionnaire.

Environ 45 % des cas de rejet au contrôle ont été résolus de manière déterministe par le système. Les autres cas ont été transmis aux commis préposés au traitement en vue d'être résolus. Un système interactif a permis aux commis d'examiner les données saisies et de les comparer à l'image du questionnaire si celle-ci était disponible (les questionnaires en ligne n'ont pas d'image). Les rejets au contrôle ont été résolus en supprimant les personnes non valides ou en double et en ajoutant les personnes manquantes (c.-à-d. en créant des enregistrements de personne en blanc) au besoin et lorsque pertinent.

2.5 Contrôles d'intégralité et suivi des cas de rejet au contrôle

Les contrôles d'intégralité et le suivi des cas de rejet au contrôle ne s'appliquent qu'aux questionnaires du recensement. Après les contrôles de couverture, une autre série de contrôles automatisés a été exécutée sur les questionnaires du recensement afin de déceler les cas qui comportaient trop de réponses manquantes ou qui portaient à croire que les données n'avaient peut-être pas été fournies pour tous les résidents habituels du ménage. Les ménages dont le questionnaire a été rejeté lors de ces contrôles ont fait l'objet d'un suivi. Un intervieweur a téléphoné au répondant afin de résoudre les problèmes de couverture éventuels et d'obtenir les renseignements manquants en se servant d'une application d'interview téléphonique assistée par ordinateur. Les données ont été renvoyées au COD afin d'être réintégrées dans le système en vue d'un traitement subséquent.

2.6 Codage

Les questionnaires du recensement et de l'ENM contenaient tous deux des questions dont les réponses pouvaient être cochées sur une liste, ainsi que des questions dont les réponses devaient être inscrites par le répondant dans les cases prévues à cette fin. Ces réponses écrites ont été soumises à un codage automatisé afin d'attribuer à chacune un code numérique en se servant des fichiers de référence, des ensembles de codes et des classifications types de Statistique Canada. Les fichiers de référence utilisés pour le processus d'appariement automatisé ont été créés en se servant des réponses réelles recueillies lors des recensements antérieurs, ainsi que de fichiers de données administratives. Des codeurs ayant reçu une formation particulière et des spécialistes du domaine ont résolu les cas où un code ne pouvait pas être attribué automatiquement. Les questions du recensement ainsi que de l'ENM qui nécessitaient un codage étaient les suivantes : Lien avec la Personne 1, Langue parlée à la maison et Langue maternelle. Les questions de l'ENM seulement nécessitant un codage étaient les suivantes : Lieu de naissance, Citoyenneté, Langues non officielles, Origine ethnique, Groupe de population, Première Nation/bande indienne, Religion, Lieu de résidence 1 an auparavant, Lieu de résidence 5 ans auparavant, Lieu de naissance des parents, Principal domaine d'études, Lieu des études, Industrie, Profession, Lieu de travail et Langue de travail.

Environ 15 millions de réponses écrites ont été codées à partir des questionnaires du Recensement de 2011, tandis qu'environ 46 millions ont été codées à partir des questionnaires de l'ENM. Globalement, environ 87 % ont été codées automatiquement, mais le taux de codage automatique variait considérablement d'une variable à l'autre.

Une fois que les réponses pour une variable particulière étaient codées, les données pour cette variable étaient envoyées à l'étape du contrôle et de l'imputation.

2.7 Classification et ajustements pour la non-réponse des logements inoccupés et des logements non répondants

L'Enquête sur la classification des logements (ECL) a servi à estimer le taux d'erreur des agents recenseurs lors de la classification des logements comme étant occupés ou inoccupés dans les régions de collecte par autodénombrement du recensement. En s'appuyant sur l'information ainsi recueillie, des corrections ont été apportées à la base de données du recensement. L'ECL a été réalisé auprès d'un échantillon aléatoire de 1 729 unités de collecte (UC) autodénombrées qui ont été visitées en juillet et août 2011 afin de réévaluer le statut d'occupation le jour du recensement pour chaque logement pour lequel aucune réponse n'avait été reçue. L'ECL a montré que 13,8 % des 1 099 156 logements classés comme étant inoccupés étaient en fait occupés et que 30,8 % des 317 976 logements sans réponse qui avaient été classés comme étant occupés ou dont le statut d'occupation était inconnu, étaient en fait inoccupés. Les estimations fondées sur l'échantillon de l'ECL ont été utilisées pour corriger le statut d'occupation des logements individuels, ce qui a donné lieu à une augmentation de 3,3 % du nombre de logements occupés et à une diminution de 5,0 % du nombre de logements inoccupés à l'échelle du Canada.

Après cet ajustement du statut d'occupation par l'ECL, les logements occupés ayant une non-réponse totale ont fait l'objet d'une imputation du nombre de résidents habituels (s'il n'était pas connu) et de toutes les réponses aux questions du recensement en empruntant les réponses non imputées d'un autre ménage appartenant à la même UC. Ce processus, appelé imputation des ménages au complet (IMC), a été appliqué à 99 % des ménages ayant une non-réponse totale. L'utilisation d'un seul donneur dans le cadre de l'IMC était informatiquement plus efficace et moins susceptible de produire des résultats non plausibles que l'utilisation de plusieurs donneurs dans le cadre du processus principal de contrôle et d'imputation. Néanmoins, pour les autres ménages ayant une non-réponse totale, c'est-à-dire 1 % d'entre eux, pour lesquels aucun ménage donneur n'avait été trouvé dans le cadre de l'IMC, l'imputation a été effectuée au moyen du processus principal de contrôle et d'imputation.

Des renseignements plus détaillés sur l'ECL et la procédure d'imputation des ménages au complet figurent dans le Rapport technique sur la couverture, Recensement de 2011, no 98-303-X au catalogue.

2.8 Contrôle et imputation

Les données recueillies dans le cadre de toute enquête ou recensement contiennent des omissions ou des incohérences. Par exemple, un répondant peut éprouver de la réticence à répondre à une question, ne pas se souvenir de la bonne réponse ou mal comprendre la question. D'autres erreurs, comme le codage incorrect d'une réponse, peuvent aussi avoir lieu.

L'épuration définitive des données, à l'étape du contrôle et de l'imputation, a été presque entièrement automatisée. Deux types d'imputation ont été appliqués. Le premier, appelé « imputation déterministe », consiste à attribuer des valeurs particulières sous certaines conditions quand la résolution du problème est claire et non ambiguë. Des règles de contrôle détaillées ont été appliquées pour déterminer ces conditions, puis des valeurs prédéterminées ont été attribuées aux variables intervenant dans les règles. Le deuxième type d'imputation, appelé « imputation par donneur à changements minimaux par le plus proche voisin », consiste à appliquer une série de règles de contrôle détaillées qui permettent de déceler toute réponse manquante ou incohérente. Quand un enregistrement contenant des réponses manquantes ou incohérentes est repéré, un autre enregistrement dont la plupart des caractéristiques sont les mêmes que celles de l'enregistrement erroné est sélectionné. Les données provenant de cet enregistrement donneur sont empruntées et utilisées pour apporter le nombre minimal de changements aux variables afin de résoudre tous les problèmes de réponses manquantes ou incohérentes. Le Système canadien de contrôle et d'imputation du recensement (SCANCIR) (voir le Guide de base de l'utilisateur, version 5.2 du SCANCIR) est le système automatisé qui a été utilisé pour presque toutes les imputations déterministes et les imputations par donneur à changements minimaux par le plus proche voisin pour le Recensement de 2011 et l'Enquête nationale auprès des ménages (ENM) de 2011.

2.9 Pondération

En 2011, le questionnaire du recensement contenait les huit questions qui figuraient sur le questionnaire abrégé du Recensement de 2006, ainsi que deux questions supplémentaires sur les langues. Ces questions ont été posées à l'ensemble de la population. L'information restante a été recueillie au moyen de l'Enquête nationale auprès des ménages, dont le questionnaire a été distribué à environ 30 % des ménages. On a fait appel à la pondération pour attribuer à l'ensemble de la population l'information recueillie auprès de l'échantillon de 30 %.

La méthode d'échantillonnage utilisée pour l'ENM de 2011 différait de celle appliquée pour le questionnaire complet du Recensement de 2006. Par conséquent, la méthode de pondération était différente également. La première étape de la pondération consistait à attribuer à chaque ménage un poids de base reflétant la probabilité qu'il soit échantillonné. Ces poids ont été ajustés pour tenir compte de la non-réponse totale. Un dernier ajustement, par le plus petit nombre que possible, a été effectué afin d'établir une meilleure concordance entre les estimations de l'échantillon et les chiffres du recensement pour un certain nombre de caractéristiques liées à l'âge, au sexe, à l'état matrimonial, à l'union libre, à la langue et à la taille du ménage. La méthode de pondération est décrite en détail au chapitre 4.

Date de modification :