Rapport technique sur la couverture, Recensement de la population, 2021
8. Étude sur le surdénombrement du recensement

8.1 Aperçu

Une erreur de surdénombrement se produit lorsque des personnes dans le champ de l’enquête sont dénombrées plus d’une fois ou que des personnes qui n’auraient pas dû être dénombrées sont incluses dans la population cible d’une enquête ou d’un recensement. L’Étude sur le surdénombrement du recensement (ESuR) vise à estimer le nombre de personnes dénombrées plusieurs fois dans le cadre du Recensement de la population du CanadaNote 1.

L’ESuR de 2021 a compris deux types de couplages : déterministe et probabiliste. Le couplage déterministe (CD) a relevé des paires définitives de doublons de personnes; ce qui signifie que ces personnes ont été dénombrées plusieurs fois et représentent donc un surdénombrement. Cette méthodologie s’est fondée sur une modification de l’Étude par appariement automatisé (EAA), utilisée dans le cadre de précédents cycles de recensement pour évaluer l’ESuR. Le couplage probabiliste (CP) a relevé des paires possibles de doublons de personnes en se fondant sur des méthodes utilisées dans des cycles antérieurs de l’ESuR. Les données utilisées par l’ESuR proviennent de la base de données des réponses du Recensement de 2021 et de données administratives provenant de la Base statistique de données démographiques, fournies par la Section de recherche en recensement de la Division des méthodes d’intégration statistique. La base de sondage de l’ESuR a été créée en plusieurs étapes et comprend des paires définitives et possibles de doublons de personnes relevés lors du CD et du CP, ainsi qu’une extension de la base de sondage fondée sur les ménages. Un échantillon de paires possibles de doublons de personnes a été tiré de la base de sondage de l’ESuR et envoyé aux fins de vérification manuelle pour déterminer si les paires échantillonnées étaient effectivement des doublons de personnes. Au moyen du résultat de la vérification manuelle des paires échantillonnées et des paires définitives de doublons de personnes détectés par le CD, une estimation du surdénombrement a été obtenue.

8.2 Étapes du couplage

8.2.1 Données utilisées pour les couplages

Deux sources de données ont été utilisées pour ces couplages.

Tout d’abord, la version des études sur la couverture du recensement de la Base de données des réponses du recensement (BDR-ECR; appelée la BDR dans le présent chapitre) était une version de la Base de données des réponses du recensement qui n’incluait pas les dénombrements tardifs ou incomplets ni les personnes ajoutées dans le cadre du processus d’imputation des ménages complets. La BDR contenait un peu plus de 35 millions d’enregistrements et comprenait les réponses des personnes vivant dans des logements privés et collectifs. Elle contenait des noms (notamment des prénoms et des noms de famille), des données démographiques (notamment la date de naissance et le sexe) et des données géographiques (notamment la province ou le territoire et le code postal, ainsi que des variables géographiques propres au recensement, comme l’unité de collecte [UC], la subdivision de recensement [SDR] et la région métropolitaine de recensement [RMR]).

Deuxièmement, des données administratives (ADM) ont été utilisées, provenant de la Base statistique de données démographiques canadiennes, fournies par la Section de recherche en recensement de la Division des méthodes d’intégration statistique. Elles comprenaient des enregistrements de plusieurs sources de données ADM et visaient à représenter des personnes dans le champ d’enquête du recensement. Ces données ADM consistaient en 53 millions d’enregistrements environ. Elles incluaient des noms (prénoms et noms de famille), des données démographiques (y compris la date de naissance et le sexe) et des données géographiques (y compris la province ou le territoire et le code postal).

Les variables d’appariement suivantes ont été utilisées dans les couplages (le cas échéant) :

  • noms : variables de prénom(s) et de nom(s) de famille;
  • données démographiques : variables de date de naissance et de sexe;
  • données géographiques : variables de province ou territoire et de code postal, ainsi que variables géographiques de recensement.

8.2.2 Couplage déterministe

Le CD vise à déterminer les paires de grande qualité de doublons de personnes, consistant en deux enregistrements de la BDR, classés comme des paires définitives de surdénombrement. Les programmes d’appariement déterministe habituellement utilisés pour l’EAA ont été modifiés pour inclure, dans le cadre des critères de couplage, une comparaison des noms en considérant les appariements entre un ménage vivant dans un logement privé et un ménage vivant dans un logement collectif.

Ce CD se basait sur la série d’opérations suivantes :

  • Des programmes d’appariement déterministe ont été utilisés pour relever les paires de ménages « similaires ». La similarité était décrite du point de vue de leur proximité géographique relative (ménages situés dans la même UC, ménages vivant dans des UC différentes, mais dans la même SDR, etc.) et du nombre de personnes appariées entre ces ménages. Les personnes étaient appariées selon les variables de nom, de sexe et de date de naissance. Deux personnes étaient jugées présenter une correspondance exacte si elles avaient le même sexe, les mêmes jour, mois et années de naissance ainsi que le même nom. Deux personnes étaient jugées être une proche correspondance si leurs noms correspondaient et que trois des quatre autres composantes (sexe et jour, mois et année de naissance) correspondaient ou si seulement le jour et le mois de naissance étaient inversés. Les paires de ménages consistaient en l’un ou les deux ménages vivant dans un logement privé.
  • Une liste initiale de paires possibles de doublons de personnes a été créée à partir des paires de ménages.
  • Un échantillon de vérification a été tiré de la liste initiale de paires possibles de doublons de personnes aux fins de vérification manuelle, afin de confirmer leur grande qualité avant de les classer comme paires définitives de doublons de personnes (c.-à-d. surdénombrement).
  • Une liste finale de paires de doublons de personnes a été déterminée, puis elles ont été classées comme paires définitives de doublons de personnes provenant du CD.

Ce couplage a donné 460 572 paires définitives de doublons de personnes provenant du CD.

8.2.3 Couplage probabiliste

Le CP visait à relever les paires possibles de doublons de personnes. Ce couplage consistait à un couplage d’enregistrements probabiliste interne de la BDR entière avec elle-même, appelé couplage BDRBDR, et d’un couplage d’enregistrements probabiliste externe de la BDR avec des données ADM, appelé couplage BDRADM. Le couplage BDRBDR a donné des paires d’enregistrements de BDR, alors que le couplage BDRADM a donné des paires au sein desquelles un enregistrement provenait de la BDR et l’autre de données ADM; des paires d’enregistrements de la BDR ont été ensuite dérivées.

Le couplage probabiliste s’est effectué avec G-Coup, système de couplage d’enregistrements probabiliste conçu à Statistique Canada utilisant la méthodologie Fellegi-Sunter pour résoudre des problèmes de couplage de fichiers volumineux lorsqu’aucun identificateur direct n’est commun aux deux sources (Fellegi et Sunter, 1969). Comme dans les cycles antérieurs, G-Coup a été utilisé en 2021 et les séries suivantes d’opérations ont été effectuées séparément pour les couplages BDRBDR et BDRADM.

La première tâche d’un couplage probabiliste consiste à construire un ensemble de paires potentielles (aussi appelé ensemble couplé), qui sert à estimer les caractéristiques de l’ensemble de paires de réelles correspondances. Pour ce faire, un ensemble de critères de sélection a été appliqué, réduisant le produit cartésien de toutes les correspondances possibles à un espace de comparaison plus gérable. Des améliorations ont été apportées aux critères de sélection de 2021, afin de relever des défis relatifs aux critères de sélection de 2016. De plus, plutôt que d’utiliser les mêmes critères de sélection pour les deux couplages interne et externe, des critères ont été élaborés, testés et optimisés séparément pour ces deux opérations. De nombreuses paires de BDR dérivées de l’ensemble couplé BDRADM avaient des paires de BDR-ADM correspondantes qui ont été recueillies à partir de différents critères; ce qui suggère qu’une comparaison directe ne serait pas en mesure de recueillir ces données. Les critères de sélection du couplage BDRBDR ont fourni un ensemble couplé de 86 429 651 paires BDRBDR. Les critères de sélection du couplage BDRADM externe ont fourni 70 274 756 paires. Seules 41 474 581 de ces paires faisaient intervenir plusieurs enregistrements de la BDR couplés au même enregistrement ADM. Par conséquent, l’ensemble couplé BDRADM comprenait ces 41 474 581 paires.

Une fois un ensemble couplé de paires obtenu, les enregistrements des paires ont été comparés en appliquant des règles de couplage dans G-Coup, qui a calculé les poids des résultats des règles de couplage. Des règles de couplage de qualité, portant sur tous les ensembles de caractéristiques pour lesquelles deux enregistrements concordent, ont été nécessaires pour assurer l’exhaustivité de la base de sondage de l’ESuR résultant du CP. Si certains ensembles de caractéristiques ne sont pas visés par les règles de couplage, les paires présentant de telles caractéristiques sont susceptibles de se voir attribuer un poids de couplage inférieur et d’être rejetées lorsque des seuils sont appliqués. De nombreuses améliorations ont été apportées aux règles de couplage de 2021 pour veiller à ce que les poids de couplage estimés soient bien corrélés avec la probabilité qu’une paire soit une véritable correspondance. En 2021, davantage de variables de couplage ont été ajoutées aux règles et les résultats des règles existantes utilisées en 2016 ont été modifiés, p. ex. les règles sur les noms. Les résultats basés sur les variables géographiques propres au recensement (comme l’identifiant unique d’un logement [appelé FRAME_ID], l’UC et la SDR) ont été ajoutés en 2021 et pouvaient uniquement être appliqués au couplage BDRBDR.

Un seuil de poids de couplage pour chaque province et territoire a ensuite été établi pour les couplages BDRBDR et BDRADM. L’objectif du choix de seuils de poids de couplage était de répartir de façon optimale les paires de l’ensemble couplé en deux catégories : paires non appariées et paires appariées potentielles. Comme dans les cycles antérieurs, les seuils provinciaux et territoriaux ont été choisis hors de G-Coup, car les outils intégrés de détermination de seuils ne fonctionnaient pas bien avec les nombreuses règles de couplage définies par l’utilisateur utilisées par le CP de l’ESuR. Ces seuils ont été choisis en deux étapes. Tout d’abord, un ensemble de seuils préliminaires a été choisi. En général, le choix d’un seuil inférieur est quelque peu subjectif. L’ESuR a utilisé les lignes directrices d’examen de profil élaborées par les experts de l’Environnement de couplage de données sociales (ECDS) de Statistique Canada, afin d’aider à la sélection d’un seuil préliminaire plus bas. Pour éviter de manquer un surdénombrement potentiel, un seuil relativement bas a d’abord été choisi. Un échantillon de paires au‑dessus et en dessous de ce seuil préliminaire a ensuite été sélectionné, et le seuil a été ajusté en fonction des besoins. Le seuil final a été choisi afin de réduire au minimum le taux de correspondance manqué visé à 0,01. Puisqu’un ensemble de paires définitives de doublons de personnes a été obtenu à l’étape du CD, aucun seuil supérieur n’a été sélectionné. Toutes les paires des ensembles de couplage BDRBDR et BDRADM dont le poids était supérieur au seuil ont été sélectionnées et jugées être des paires potentielles.

8.3 Création de la base de sondage de l’Étude sur le surdénombrement du recensement

La base de sondage de l’ESuR a été créée en plusieurs étapes et comprenait les paires couplées déterminées lors du CD et du CP, ainsi qu’une extension de la base de sondage fondée sur les ménages. Des unités d’échantillonnage ont ensuite été créées.

Comme cela a été précédemment décrit, le CD a été utilisé pour déterminer un ensemble de paires BDRBDR qui ont été classées comme paires définitives de doublons de personnes. Le couplage probabiliste a servi à déterminer un ensemble de paires potentielles. Le couplage interne de la BDR à elle-même a permis de déterminer des paires BDRBDR potentielles qui ont été classées comme paires possibles de doublons de personnes. Les paires BDRBDR devaient être dérivées de l’ensemble couplé BDRADM pour les inclure à la base de sondage de l’ESuR. Les paires potentielles relevées dans le cadre du couplage BDRADM ont été converties en paires BDRBDR. Lorsque deux enregistrements de la BDR étaient liés au même enregistrement ADM, ces deux enregistrements de la BDR devenaient une paire BDRBDR. Les paires BDRADM individuelles n’avaient pas d’intérêt, puisque l’objectif était de mesurer le surdénombrement (c.-à-d. les doublons de personnes) relatif à la BDR. L’ensemble final de paires BDRBDR dérivé du couplage BDR-ADM contenait 4 301 512 paires, qui ont été classées comme paires possibles de doublons de personnes.

Comme dans les cycles précédents, la base de sondage a ensuite été enrichie au moyen de paires supplémentaires n’ayant pas encore été relevées dans le cadre du couplage probabiliste, mais ayant été créées à partir de paires de ménages couplées lors des étapes de couplage interne et externe. Cette étape visait à déterminer des paires supplémentaires possibles de doublons de personnes au sein des ménages des paires capturées pouvant ne pas avoir été relevées dans le cadre du CP, car ce dernier était fondé sur des comparaisons de personnes plutôt que de ménages. Les paires potentielles obtenues à cette étape ont été appelées des paires d’extension et classées comme paires possibles de doublons de personnes. Pour créer l’ensemble de paires d’extension, une paire de ménages a d’abord été produite pour chaque paire BDR-BDR classée comme paire possible de doublons de personnes provenant du CP en y ajoutant les autres membres du ménage. Ensuite, à l’aide des variables de sexe et de date de naissance, de nouvelles paires BDRBDR ont été relevées en comparant les personnes présentes dans la paire de ménages. Des règles de comparaison ont été appliquées pour relever les paires pouvant représenter des cas de surdénombrement. Les paires d’extension comprenaient des paires provenant de deux ménages privés ou des paires au sein desquelles une personne d’un ménage privé était couplée à une personne d’un logement collectif. On a exclu les paires pour lesquelles les deux enregistrements provenaient de logements collectifs.

L’ensemble couplé final comprenait des paires du CD, des paires d’extension, des paires du CP de BDRADM et des paires du CP de BDRBDR.

Tableau 8.3.1
Répartition des paires potentielles de personnes dénombrées en double selon le type de couplage Sommaire du tableau
Le tableau montre les résultats de Répartition des paires potentielles de personnes dénombrées en double selon le type de couplage. Les données sont présentées selon Type de couplage (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Type de couplage Fréquence Pourcentage
CD = couplage déterministe
BDR-ADM = couplage probabiliste de la base de données des réponses du recensement aux données administratives
BDR-BDR = couplage probabiliste de la base de données des réponses du recensement avec elle-même
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
CD 460 572 3,62
Extension 471 688 3,71
BDR-ADM 4 301 351 33,80
BDR-BDR 7 491 998 58,87

Lorsque des paires de l’ensemble du CP étaient également relevées par le CD, ce type de couplage a été défini comme CD. Ensuite, les paires possibles de doublons de personnes obtenues du CD, du CP et de l’extension ont été combinées et les doublons ont été éliminés.

Depuis 2011, l’ESuR a utilisé des groupes d’enregistrements interconnectés plutôt que des paires d’enregistrements pour estimer le surdénombrement du recensement. En effet, le surdénombrement estimé par paires d’enregistrements serait biaisé positivement en présence de dénombrements triples ou plus élevés. Ainsi, des groupes mutuellement exclusifs d’enregistrements de la BDR reliés ont été établis; la majeure partie des groupes d’enregistrements de la base de sondage résultant en une ou deux paires (faisant intervenir deux ou trois enregistrements). Pour les cas où des groupes d’enregistrements contenaient plus de 10 liens, une méthode de théorie graphique a été appliquée pour réduire le groupe en petits sous-groupes appelés « voisinages » (Dasylva et al., 2015), afin de faciliter la vérification manuelle.

Enfin, la base de sondage de l’ESuR consistait en trois types d’unités d’échantillonnage : des paires, des groupes et des voisinages. Les unités d’échantillonnage ont été réparties en catégories selon trois types de processus : 1) CD seul, composé de paires et de groupes ou de voisinages d’enregistrements de la BDR provenant du CD; 2) CP seul, composé de paires et de groupes ou voisinages d’enregistrements de la BDR provenant du couplage BDRBDR, du couplage BDRADM et des paires d’extension; 3) CPCD, composé de groupes ou de voisinages d’enregistrements de la BDR provenant du CP et du CD (y compris des paires d’extension).

Tableau 8.3.2
Répartition des paires, des groupes et des voisinages issus du couplage déterministe seul, du couplage probabiliste seul et du couplage déterministe-couplage probabiliste dans la base de sondage de l’Étude sur le surdénombrement du Recensement de 2021 Sommaire du tableau
Le tableau montre les résultats de Répartition des paires, des groupes et des voisinages issus du couplage déterministe seul, du couplage probabiliste seul et du couplage déterministe-couplage probabiliste dans la base de sondage de l’Étude sur le surdénombrement du Recensement de 2021. Les données sont présentées selon Type d’unité d’échantillonnage (titres de rangée) et CD seul, CP seul, Total, CP-CD et Type de processus, calculées selon unités de mesure (figurant comme en-tête de colonne).
Type d’unité d’échantillonnage Type de processus Total
CD seul CP seul CP-CD
CD = couplage déterministe
CP = couplage probabiliste
CP-CD = couplage probabiliste-couplage déterministe (certaines paires du groupe ont été déterminées par le couplage probabiliste seul, et d’autres ont été déterminées par le couplage déterministe)
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
Groupe 4 822 1 635 296 86 930 1 727 048
Voisinage 64 161 641 6 493 168 198
Paire 345 243 5 931 084 0 6 276 327
Total 350 129 7 728 021 93 423 8 171 573

8.4 Plan d’échantillonnage

Le premier niveau de stratification a été obtenu par type de processus de couplage, ce qui a donné trois strates.

  • La strate 1 comprenait des paires et des groupes ou voisinages du CD constitués uniquement de paires du CD. Cette strate a été traitée comme une strate à tirage complet et les unités d’échantillonnage de cette strate ont été classées comme des paires définitives de doublons de personnes.
  • La strate 2 comprenait des paires et des groupes ou voisinages du CP constitués uniquement de paires du CP. Un échantillon probabiliste a été extrait de cette strate et les paires ont été envoyées en vérification manuelle.
  • La strate 3 comprenait des groupes ou voisinages constitués d’une combinaison de paires du CP et du CD. Cette strate a ensuite été répartie en deux sous-strates. La première sous-strate était composée de groupes et voisinages comprenant au moins une paire du CD, échantillonnée dans le cadre de l’échantillon de vérification du CD utilisé pour confirmer la qualité de ces paires. Cette sous-strate a été traitée comme strate à tirage complet. La deuxième sous-strate était composée de groupes et voisinages ne comprenant pas de paire du CD, faisant partie de l’échantillon de vérification du CD. Elle comprenait un échantillon probabiliste de groupes ou voisinages CPCD en ayant été extraits. Les paires du CP en groupes avec les paires du CD appartenant à la première sous-strate ont été envoyées pour vérification manuelle, ainsi que les paires du CP et du CD sélectionnées dans la deuxième sous-strate.

La taille d’échantillons ciblée a été d’environ 55 000 paires de la strate du CP seul et environ 4 500 paires de la strate CPCD. Dans la présente section, intraprovincial signifie que tous les enregistrements de la BDR d’une unité d’échantillonnage proviennent de la même province ou du même territoire, et interprovincial signifie que les enregistrements de la BDR d’une unité d’échantillonnage proviennent de plusieurs provinces ou territoires. Les tableaux de cette section présentent les nombres de paires que l’unité d’échantillonnage soit une paire, un groupe ou un voisinage. Les groupes et voisinages sont décomposés selon leurs paires constituantes, afin de dériver le nombre de paires. À des fins de simplicité, des paires échantillonnées ont été envoyées en vérification manuelle plutôt que des groupes d’enregistrements.

Pour la strate du CP seul, les sous-strates de types d’unités d’échantillonnage ont été encore stratifiées en 14 strates : 13 strates provinciales comprenant des unités d’échantillonnage (paires ou groupes ou voisinages d’enregistrements interconnectés) au sein desquelles tous les enregistrements appartiennent à la même province ou au même territoire, et une strate interprovinciale au sein de laquelle les unités d’échantillonnage comprennent des enregistrements provenant des différentes provinces et différents territoires. Comme en 2016, les unités interprovinciales peuvent être des groupes comprenant également des paires intraprovinciales. Cela ne peut être évité lors de l’utilisation de groupes d’enregistrements interconnectés. Pour mieux contrôler la taille de l’échantillon, les unités d’échantillonnage de groupe et de voisinage ont été encore stratifiées selon le nombre de paires dans le groupe. Enfin, les unités d’échantillonnage ont été triées selon la propension de surdénombrement estimé dans le cas de groupes ou de voisinages et leurs probabilités de correspondance conditionnelle dans le cas de paires; un échantillon systématique a alors été extraitNote 2.

Pour la première sous-strate CP-CD, les paires du CD faisant partie de l’échantillon de vérification avaient déjà été vérifiées et n’ont donc pas été envoyées en vérification manuelle. Cela a été avantageux et a permis un échantillon plus important de la sous-strate CPCD avec au moins une paire du CD dans l’échantillon de vérification. Les groupes CPCD pour lesquels aucune des paires du CD faisaient partie de l’échantillon de vérification ont été encore stratifiés en 14 strates : 13 strates intraprovinciales et une strate interprovinciale. Comme pour la strate du CP seul, ces 14 sous-strates ont en outre été stratifiées selon le nombre de liens, afin de mieux contrôler la taille de l’échantillon. Les unités d’échantillonnage ont ensuite été triées selon la propension estimée au surdénombrement avant qu’un échantillon systématique en soit tiré.

8.4.1 Strate du couplage déterministe seul

Comme cela est mentionné ci-dessus, les paires du CD seul et les groupes ou voisinages ont été jugés être des correspondances définitives et n’ont pas été envoyés en vérification manuelle. Comme le montre le tableau 8.3.2, le nombre de groupes d’enregistrements interconnectés parmi les paires du CD était inférieur à celui des paires du CP. Au tableau 8.4.1.1, présentant la répartition des paires du CD seul, par province ou territoire, et les paires interprovinciales, on observe également moins de paires interprovinciales du CD seul que de paires interprovinciales du CP seul (1,39 % pour le tableau 8.4.1.1 contre 18,34 % pour le tableau 8.4.2.2). C’est ce à quoi l’on s’attend pour des paires étant des correspondances réelles.

Tableau 8.4.1.1
Fréquence des paires issues du couplage déterministe seul selon la province ou le territoire et la strate interprovinciale Sommaire du tableau
Le tableau montre les résultats de Fréquence des paires issues du couplage déterministe seul selon la province ou le territoire et la strate interprovinciale. Les données sont présentées selon Province ou territoire (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Province ou territoire Fréquence Pourcentage
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
Terre-Neuve-et-Labrador 5 133 1,42
Île-du-Prince-Édouard 1 678 0,47
Nouvelle-Écosse 9 145 2,54
Nouveau-Brunswick 8 230 2,28
Québec 77 599 21,54
Ontario 122 913 34,12
Manitoba 11 908 3,31
Saskatchewan 13 159 3,65
Alberta 36 290 10,07
Colombie-Britannique 67 876 18,84
Yukon 463 0,13
Territoires du Nord-Ouest 494 0,14
Nunavut 391 0,11
Interprovinciale 5 001 1,39

8.4.2 Strate du couplage probabiliste seul

Le tableau 8.4.2.1 présente le nombre de paires pour chaque type d’unité d’échantillonnage et une estimation du nombre d’unités d’échantillonnage nécessaires pour obtenir approximativement le même nombre de paires dans l’échantillon. La répartition en paires et groupes ou voisinages était proportionnelle à la taille.

Tableau 8.4.2.1
Fréquence des paires, des unités d’échantillonnage et des tailles d’échantillon selon le type d’unité d’échantillonnage Sommaire du tableau
Le tableau montre les résultats de Fréquence des paires, des unités d’échantillonnage et des tailles d’échantillon selon le type d’unité d’échantillonnage. Les données sont présentées selon Type d’unité d’échantillonnage (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Type d’unité d’échantillonnage Nombre de paires Nombre d’unités d’échantillonnage Taille d’échantillon (en nombre de paires) Pourcentage d’échantillon (en nombre de paires) Taille d’échantillon (en nombre d’unités d’échantillonnage)
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
Groupe ou voisinage 6 411 761 1 796 937 28 110 52 9 599
Paire 5 931 084 5 931 084 25 920 48 25 920
Total 12 342 845 7 728 021 54 030 100 35 519

Paires du couplage probabiliste seul

Les paires du CP seul ont d’abord été stratifiées par paires intraprovinciales et interprovinciales. Le tableau 8.4.2.2 ci-dessous donne la répartition des paires intraprovinciales et interprovinciales parmi les paires issues du CP seul. La répartition de l’échantillon en sous-strates intraprovinciales et interprovinciales était proportionnelle à la taille.

Tableau 8.4.2.2
Fréquence des paires intraprovinciales et interprovinciales parmi les paires issues du couplage probabiliste seul et tailles d’échantillon Sommaire du tableau
Le tableau montre les résultats de Fréquence des paires intraprovinciales et interprovinciales parmi les paires issues du couplage probabiliste seul et tailles d’échantillon. Les données sont présentées selon Type de paires (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Type de paires Fréquence des paires Pourcentage Nombre de paires échantillonnées
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
Intraprovinciales 4 843 438 81,66 22 004
Interprovinciales 1 087 646 18,34 4 753

Dans la strate des paires intraprovinciales, une répartition par la méthode de puissance est utilisée pour répartir les paires issues du CP seul entre les provinces; la taille étant considérée comme équivalant au nombre de paires dans chaque province et q = ½. Les paires ont ensuite été triées selon leurs probabilités de correspondance conditionnelles avant qu’un échantillon systématique n’en soit tiré. Prenez note que les trois territoires sont à tirage complet. Le tableau 8.4.2.3 présente la répartition des paires intraprovinciales issues du CP seul selon la province ou le territoire.

Tableau 8.4.2.3
Répartition de l’échantillon des paires intraprovinciales issues du couplage probabiliste seul selon la province ou le territoire Sommaire du tableau
Le tableau montre les résultats de Répartition de l’échantillon des paires intraprovinciales issues du couplage probabiliste seul selon la province ou le territoire. Les données sont présentées selon Province ou territoire (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Province ou territoire Fréquence
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
Terre-Neuve-et-Labrador 568
Île-du-Prince-Édouard 300
Nouvelle-Écosse 760
Nouveau-Brunswick 748
Québec 6 915
Ontario 5 600
Manitoba 730
Saskatchewan 701
Alberta 1 740
Colombie-Britannique 2 655
Yukon 383
Territoires du Nord-Ouest 448
Nunavut 456
Taille d’échantillon totale 22 004

Les paires interprovinciales issues du CP seul ont ensuite été stratifiées selon la combinaison distincte de provinces et réparties proportionnellement à leur taille. Parmi les paires interprovinciales, on compte 78 combinaisons uniques de provinces. Dans les sous-strates de combinaisons de provinces, les paires ont été triées selon leurs probabilités de correspondance conditionnelles et une méthode d’échantillonnage systématique a été utilisée pour en extraire l’échantillon.

Groupes et voisinages du couplage probabiliste seul

Pour les groupes et voisinages, les paires ont d’abord été stratifiées par groupes intraprovinciaux et interprovinciaux. Un groupe a été jugé être interprovincial s’il contenait au moins une paire interprovinciale. Le tableau 8.4.2.4 présente la répartition des groupes intraprovinciaux et interprovinciaux dans la strate issus du CP seul. L’échantillon a été réparti proportionnellement à la taille entre les strates intraprovinciale et interprovinciale.

Tableau 8.4.2.4
Fréquence des groupes ou des voisinages intraprovinciaux et interprovinciaux et des tailles d’échantillon Sommaire du tableau
Le tableau montre les résultats de Fréquence des groupes ou des voisinages intraprovinciaux et interprovinciaux et des tailles d’échantillon. Les données sont présentées selon Type de groupe (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Type de groupe Fréquence des paires Pourcentage Nombre de paires échantillonnées Nombre de groupes échantillonnés
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
Intraprovinciaux 4 070 750 63,49 17 970 6 656
Interprovinciaux 2 341 011 36,51 10 140 3 022

Au sein de la strate intraprovinciale, les groupes ont été répartis par provinces à l’aide d’une répartition par la méthode de puissance. Le tableau 8.4.2.5 présente la répartition des unités d’échantillonnage intraprovinciales issues du CP seul selon la province ou le territoire. Étant donné le faible nombre d’unités d’échantillonnage dans les territoires, ces sous-strates étaient à tirage complet. Pour mieux contrôler la taille finale de l’échantillon, les strates provinciales ont en outre été stratifiées selon la taille du groupe en fonction du nombre de paires dans le groupe. L’échantillon de chaque strate provinciale a été réparti entre les groupes de manière proportionnelle à leur taille. Au moins une unité d’échantillonnage a été tirée de chaque strate.

Tableau 8.4.2.5
Répartition des unités d’échantillonnage intraprovinciales issues du couplage probabiliste seul selon la province et le territoire Sommaire du tableau
Le tableau montre les résultats de Répartition des unités d’échantillonnage intraprovinciales issues du couplage probabiliste seul selon la province et le territoire. Les données sont présentées selon Niveau du groupe (province ou territoire) (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Niveau du groupe (province ou territoire) Nombre de paires échantillonnées Nombre de groupes échantillonnés
Note : Les trois territoires sont des strates à tirage complet.
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
Terre-Neuve-et-Labrador 270 112
Île-du-Prince-Édouard 100 43
Nouvelle-Écosse 439 187
Nouveau-Brunswick 450 184
Québec 7 594 2 514
Ontario 4 949 1 899
Manitoba 385 162
Saskatchewan 342 143
Alberta 1 119 467
Colombie-Britannique 2 123 866
Yukon 54 24
Territoires du Nord-Ouest 68 27
Nunavut 64 28
Taille d’échantillon totale 17 957 6 656

La strate des groupes et des voisinages interprovinciaux a été divisée en deux sous-strates : ceux comprenant une province ou un territoire majoritaire (c.-à-d. la plupart des paires du groupe appartiennent à une province ou un territoire) et ceux sans province ou territoire majoritaire (c.-à-d. les paires au sein du groupe sont réparties également entre les provinces ou les territoires concernés). La répartition des paires selon la présence ou l’absence d’un groupe ou d’un voisinage majoritaire est présentée au tableau 8.4.2.6.

Tableau 8.4.2.6
Fréquence des paires au sein des groupes et des voisinages interprovinciaux issues du couplage probabiliste seul selon les groupes avec une province ou un territoire majoritaire et les groupes sans province ou territoire majoritaire et taille des échantillons Sommaire du tableau
Le tableau montre les résultats de Fréquence des paires au sein des groupes et des voisinages interprovinciaux issues du couplage probabiliste seul selon les groupes avec une province ou un territoire majoritaire et les groupes sans province ou territoire majoritaire et taille des échantillons. Les données sont présentées selon Type de groupe (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Type de groupe Fréquence des paires Pourcentage Nombre de paires échantillonnées Nombre de groupes échantillonnés
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
Avec province ou territoire majoritaire 515 949 90 9 099 2 702
Sans province ou territoire majoritaire 57 923 10 1 041 422

Les groupes et voisinages interprovinciaux avec province ou territoire majoritaire ont été ensuite encore stratifiés selon la province ou le territoire majoritaire dans le groupe par répartition par la méthode de puissance. Les unités d’échantillonnage au sein des sous-strates provinciales ont ensuite été stratifiées selon le nombre de paires dans les groupes. La répartition aux groupes était proportionnelle à la taille. Les unités d’échantillonnage ont ensuite été triées selon le surdénombrement attendu dans le groupe et la proportion de paires intraprovinciale au sein du groupe, avant qu’un échantillon systématique en soit tiré. Étant donné que seuls 102 groupes comptaient un territoire majoritaire, ces strates ont été à tirage complet. Au moins quatre unités d’échantillonnage ont été tirées des autres strates. Le tableau 8.4.2.7 présente la répartition des unités d’échantillonnage interprovinciales du CP seul ayant une province ou un territoire majoritaire selon la province ou le territoire majoritaire.

Tableau 8.4.2.7
Répartition des unités d’échantillonnage interprovinciales issues du couplage probabiliste seul ayant une province ou un territoire majoritaire selon la province ou le territoire majoritaire Sommaire du tableau
Le tableau montre les résultats de Répartition des unités d’échantillonnage interprovinciales issues du couplage probabiliste seul ayant une province ou un territoire majoritaire selon la province ou le territoire majoritaire. Les données sont présentées selon Niveau du groupe (province ou territoire) (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Niveau du groupe (province ou territoire) Nombre de paires échantillonnées Nombre de groupes échantillonnés
Note : Les trois territoires sont des strates à tirage complet.
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
Terre-Neuve-et-Labrador 282 91
Île-du-Prince-Édouard 127 37
Nouvelle-Écosse 481 156
Nouveau-Brunswick 433 144
Québec 2 000 540
Ontario 2 593 685
Manitoba 346 108
Saskatchewan 264 99
Alberta 898 292
Colombie-Britannique 1 399 448
Yukon 129 49
Territoires du Nord-Ouest 102 39
Nunavut 36 14
Taille d’échantillon totale 9 090 2 702

Les groupes sans province ou territoire majoritaire ont été stratifiés selon la taille du groupe, et l’échantillon a été réparti proportionnellement à la taille. Le tableau 8.4.2.8 montre la répartition des groupes interprovinciaux issus du CP seul sans province ou territoire majoritaire selon la taille du groupe.

Tableau 8.4.2.8
Répartition des groupes interprovinciaux issus du couplage probabiliste seul sans province ou territoire dominant selon le nombre de paires dans le groupe Sommaire du tableau
Le tableau montre les résultats de Répartition des groupes interprovinciaux issus du couplage probabiliste seul sans province ou territoire dominant selon le nombre de paires dans le groupe. Les données sont présentées selon Nombre de paires (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Nombre de paires Nombre de paires échantillonnées Nombre de groupes échantillonnés
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
2 548 274
3 372 124
4 36 9
5 55 11
6 6 1
7 7 1
8 8 1
9 9 1
Taille d’échantillon totale 1 041 422

8.4.3 Strate du couplage probabiliste-couplage déterministe

La répartition des paires issues du CP et du CD dans les groupes et les voisinages du CP-CD est présentée au tableau 8.4.3.1.

Tableau 8.4.3.1
Paires issues du couplage probabiliste et paires issues du couplage déterministe dans les groupes et les voisinages du couplage probabiliste-couplage déterministe Sommaire du tableau
Le tableau montre les résultats de Paires issues du couplage probabiliste et paires issues du couplage déterministe dans les groupes et les voisinages du couplage probabiliste-couplage déterministe. Les données sont présentées selon Couplées par (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Couplées par Fréquence Pourcentage
CP = couplage probabiliste
CD = couplage déterministe
Note : Le terme « couplage probabiliste-couplage déterministe » signifie que certaines paires dans le groupe ont été déterminées par le couplage probabiliste seul, et d’autres ont été déterminées par le couplage déterministe.
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
CP 250 270 70,64
CD 104 020 29,36

Comme cela a été mentionné précédemment, un échantillon de paires du CD a été extrait au cours de l’étape du CD et envoyé en vérification manuelle pour évaluer la qualité des paires du CD et veiller à ce que toutes les paires du CD puissent être classées comme paires définitives de doublons de personnes. On a appelé cet échantillon, l’échantillon de vérification du CD. Pour utiliser cet échantillon de vérification du CD, les groupes auxquels appartenaient ces paires échantillonnées ont été traités comme strates à tirage complet et les paires correspondantes du CP, ainsi que toutes les paires correspondantes du CD ne faisant pas partie de l’échantillon de vérification du CD, ont été envoyées en vérification manuelle.

On a compté 1 010 paires du CD échantillonnées parmi les paires des groupes d’enregistrements interconnectés du CP-CD. Ces paires appartenaient à 929 groupes. La répartition des paires issues du CP et du CD parmi ces 929 groupes est présentée au tableau 8.4.3.2.

Tableau 8.4.3.2
Paires issues du couplage probabiliste et paires issues du couplage déterministe parmi les 929 groupes du couplage probabiliste-couplage déterministe qui contenaient des paires issues du couplage déterministe faisant partie de l’échantillon de vérification du couplage déterministe Sommaire du tableau
Le tableau montre les résultats de Paires issues du couplage probabiliste et paires issues du couplage déterministe parmi les 929 groupes du couplage probabiliste-couplage déterministe qui contenaient des paires issues du couplage déterministe faisant partie de l’échantillon de vérification du couplage déterministe. Les données sont présentées selon Couplées par (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Couplées par Fréquence Pourcentage
CP = couplage probabiliste
CD = couplage déterministe
Note : Le terme « couplage probabiliste-couplage déterministe » signifie que certaines paires dans le groupe ont été déterminées par le couplage probabiliste seul, et d’autres ont été déterminées par le couplage déterministe.
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
CP 2 553 71,31
CD 1 027 28,69

Au total, 17 paires issues du CD et 2 553 paires issues du CP ont été envoyées en vérification manuelle. Les 1 010 paires issues du CD qui faisaient partie de l’échantillon de vérification du CD avaient déjà été vérifiées. Elles n’ont, par conséquent, pas été envoyées en vérification manuelle.

Un échantillon supplémentaire de 533 groupes (1 930 paires) a été sélectionné dans la strate CP-CD. La strate CP-CD a été stratifiée par province ou territoire au niveau du groupe et taille du groupe, et l’échantillon a été sélectionné de sorte que l’échantillon CP-CD complet soit approximativement proportionnel à la taille. La répartition provinciale au niveau de la paire de l’échantillon CP-CD complet est présentée au tableau 8.4.3.3.

Tableau 8.4.3.3
Répartition des paires dans l’échantillon du couplage probabiliste-couplage déterministe selon la province ou le territoire au niveau de la paire Sommaire du tableau
Le tableau montre les résultats de Répartition des paires dans l’échantillon du couplage probabiliste-couplage déterministe selon la province ou le territoire au niveau de la paire. Les données sont présentées selon Province ou territoire (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Province ou territoire Fréquence Pourcentage
Note : Le terme « couplage probabiliste-couplage déterministe » signifie que certaines paires dans le groupe ont été déterminées par le couplage probabiliste seul, et d’autres ont été déterminées par le couplage déterministe.
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
Terre-Neuve-et-Labrador 62 1,13
Île-du-Prince-Édouard 32 0,58
Nouvelle-Écosse 87 1,58
Nouveau-Brunswick 105 1,91
Québec 1 583 28,76
Ontario 1 683 30,57
Manitoba 91 1,65
Saskatchewan 83 1,51
Alberta 311 5,65
Colombie-Britannique 714 12,97
Yukon 15 0,27
Territoires du Nord-Ouest 15 0,27
Nunavut 9 0,16
Interprovinciaux 715 12,99
Total 5 505 100,00

Les strates provinciales ont ensuite été stratifiées selon le nombre de liens et un échantillon systématique en a été tiré.

8.4.4 Tailles d’échantillon finales (par paire)

Le tableau 8.4.4.1 ci-dessous présente les tailles d’échantillon finales pour les strates du CP seul et du CP-CD ayant été envoyées en vérification manuelle. La strate du CD seul comprenait 360 280 paires classées comme paires définitives de doublons de personnes.

Tableau 8.4.4.1
Tailles d’échantillon finales pour les strates du couplage probabiliste seul et du couplage probabiliste‑couplage déterministe qui sont envoyées pour vérification manuelle Sommaire du tableau
Le tableau montre les résultats de Tailles d’échantillon finales pour les strates du couplage probabiliste seul et du couplage probabiliste-couplage déterministe qui sont envoyées pour vérification manuelle. Les données sont présentées selon Strate (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Strate Nombre de paires selon la strate Nombre de paires échantillonnées envoyées pour vérification manuelle (après suppression des paires en double dans les voisinages qui se chevauchent)
CP = couplage probabiliste
CD = couplage déterministe
CP-CD = couplage probabiliste-couplage déterministe (certaines paires dans le groupe ont été déterminées par le couplage probabiliste seul, et d’autres ont été déterminées par le couplage déterministe)
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
CP-CD (sans 1 010 paires du CD faisant partie de l’échantillon de vérification du CD) 92 494 4 495
Paires interprovinciales du CP seul 1 087 646 4 753
Paires intraprovinciales du CP seul 4 844 635 22 004
Groupes intraterritoriaux du CP seul (tirage complet) 4 070 750 186
Groupes intraprovinciaux du CP seul 484 18 153
Groupes interterritoriaux du CP seul avec territoire majoritaire (tirage complet) 266 266
Groupes interprovinciaux du CP seul avec province majoritaire 2 184 665 8 815
Groupes interprovinciaux du CP seul sans province ou territoire majoritaire 156 079 1 040
Taille totale 12 437 019 59 712

8.5 Opération de vérification manuelle

L’opération de vérification manuelle a été une tâche de bureau répondant à plusieurs objectifs :

  • effectuer une vérification indépendante des paires échantillonnées, afin de déterminer si elles constituaient des cas de surdénombrement;
  • examiner les membres de ménage associés aux paires échantillonnées pour relever des cas potentiels de surdénombrement supplémentaire absents de la base de sondage de l’ESuR;
  • coder la cause potentielle du cas de surdénombrement (c.-à-d. le scénario de surdénombrement).

La vérification manuelle a été effectuée paire par paire. Lorsqu’un groupe ou un voisinage était échantillonné, toutes les paires qui le constituaient étaient examinées manuellement. Toutefois, les codeurs ne disposaient pas des renseignements relatifs au regroupement pour les paires au sein des groupes et voisinages. Chaque paire a été vérifiée seule. Les paires n’étaient examinées qu’une fois, même si elles appartenaient à plus d’un voisinage échantillonné.

Le processus de vérification manuelle consistait en un examen exhaustif de toute l’information disponible dans la BDR. Comme en 2016, il comprenait les étapes suivantes :

  1. comparer les personnes échantillonnées de la BDR en fonction du nom, du sexe, de la date de naissance et des relations, ainsi que d’autres renseignements supplémentaires ajoutés en 2021;
  2. comparer les membres des ménages de la BDR en fonction des mêmes critères;
  3. évaluer les résultats permettant de conclure ou non au surdénombrement entre deux personnes de la BDR et entre deux ménages de la BDR;
  4. déterminer le scénario de surdénombrement en cas de surdénombrement (le tableau 8.5.1 fournit une liste des codes de scénarios de surdénombrement et leur description).
Tableau 8.5.1
Codes de scénario de surdénombrement Sommaire du tableau
Le tableau montre les résultats de Codes de scénario de surdénombrement. Les données sont présentées selon Code (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Code Description
FRAME_ID = identificateur unique de ménage
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
1.1 Deux FRAME_ID différents pour le même ménage; même adresse ou adresse similaire
1.2 Deux FRAME_ID différents pour le même ménage; adresses différentes
2.1 Enfant de parents dans des ménages séparés
2.2 Enfant (de 0 à 17 ans) avec autre(s) membre(s) de la famille
2.3 Enfant (de 0 à 17 ans) avec autre(s) adulte(s) non apparenté(s)
3.1 Étudiant ou jeune adulte (de 18 à 24 ans) ayant récemment quitté le domicile familial
3.2 Jeune adulte (de 18 à 24 ans) entrant/quittant une relation de mariage/conjoint de fait
3.3 Jeune adulte (de 18 à 24 ans) avec autre(s) membre(s) de la famille
3.4 Jeune adulte (de 18 à 24 ans) avec autre(s) adulte(s) non apparenté(s)
4.1 Adulte (de 25 ans ou plus) ayant récemment quitté le domicile familial
4.2 Adulte (de 25 ans ou plus) entrant/quittant une relation de mariage/conjoint de fait
4.3 Adulte (de 25 ans ou plus) avec autre(s) membre(s) de la famille
4.4 Adulte (de 25 ans ou plus) avec autre(s) adulte(s) non apparenté(s)
5.1 Un des ménages n’est pas une résidence privée
6.1 Surdénombrement intraménage (même FRAME_ID)
7.1 Autre

L’échantillon a été divisé en lots de 500 paires de ménages (ménage A et ménage B). Chaque lot a été attribué à un agent (vérificateur), qui a procédé à l’examen et décidé si la personne choisie du ménage A était un doublon de la personne choisie (surdénombrée) du ménage B pour chaque paire de ménages du lot. Une paire d’enregistrements sélectionnée était la paire échantillonnée d’intérêt. De plus, le vérificateur relevait des paires supplémentaires de doublons de personnes (le cas échéant) contenues dans chaque paire de ménages et dans chaque ménage.

En cas d’incertitude quant au codage d’un cas, les vérificateurs avaient reçu la directive de le transmettre à un superviseur, qui à son tour consultait l’équipe de la qualité des données (équipe de spécialistes de domaine de la Section de la mesure de la couverture de la Division des méthodes d’intégration statistique) ou lui transmettait le cas. En 2021, certaines paires échantillonnées complexes ont été envoyées directement à l’équipe de la qualité des données aux fins de vérification. Les cas échantillonnés complexes comprenaient :

  • des cas intraménage, c’est-à-dire, lorsque la paire fait partie d’un même ménage (p. ex. même personne deux fois dans la liste);
  • des ménages d’une seule personne (lorsque la paire est issue de deux ménages différents; chacun de taille 1).

Les cycles antérieurs ont révélé que ces cas complexes échantillonnés nécessitaient l’expertise de l’équipe de la qualité des données pour les coder correctement. Cette équipe pouvait également consulter des sources supplémentaires de renseignements lui permettant de prendre une décision exacte, comme consulter les données du questionnaire du cycle du recensement actuel et/ou antérieur et utiliser les couplages effectués par l’équipe de l’ECDS à Statistique Canada. Tous les cas échantillonnés devaient être codés avec certitude, puisqu’aucune non-réponse n’était autorisée.

La confiance dans les résultats codés était requise pour l’opération manuelle, puisque les résultats contribuaient directement à l’estimation du surdénombrement. Ainsi, une vérification à 100 % a été mise en œuvre. Cela signifie que deux vérificateurs différents codaient le même lot. Une fois un lot codé par deux vérificateurs différents, leurs résultats étaient comparés. Tous les champs codés étaient comparés. Si l’un des codes ne correspondait pas, le cas était envoyé à l’équipe de la qualité des données pour qu’une décision éclairée soit prise. Cette stratégie de vérification à 100 % visait à assurer des résultats codés de grande qualité et une rétroaction continue était en outre fournie aux agents tout au long de l’opération de vérification manuelle.

8.6 Pondération et estimation

8.6.1 Pondération

Le poids de départ d’une unité d’échantillonnage était simplement l’inverse de sa probabilité de sélection. Les unités d’échantillonnage qui étaient des groupes ou des voisinages variaient en termes de nombre de paires qu’elles contenaient. Ces unités étaient stratifiées selon le nombre de paires lors de l’échantillonnage, afin de mieux contrôler la taille finale de l’échantillon. Toutefois, pour les groupes et voisinages interprovinciaux, les chiffres provinciaux ou territoriaux pondérés pouvaient différer de la base de sondage. Ainsi, une étape de calage a été ajoutée afin d’assurer une représentation adéquate du nombre de paires dans chaque province et territoire. Les poids de sondage des groupes et des voisinages interprovinciaux ont été calés, afin que le nombre estimé de paires intraprovinciales et interprovinciales dans chaque province ou territoire soit égal au total correspondant sur la base. Le Système généralisé d’estimation (G-Est) de Statistique Canada a été utilisé pour effectuer le calage. Le tableau 8.6.1.1 montre les facteurs de calage pour chaque province et territoire.

Tableau 8.6.1.1
Facteur de calage moyen (rapport entre le total sur la base et l’estimation pondérée) selon la strate et le type de paire pour les groupes et les voisinages intraprovinciaux et interprovinciaux Sommaire du tableau
Le tableau montre les résultats de Facteur de calage moyen (rapport entre le total sur la base et l’estimation pondérée) selon la strate et le type de paire pour les groupes et les voisinages intraprovinciaux et interprovinciaux. Les données sont présentées selon Province ou territoire (titres de rangée) et , calculées selon (figurant comme en-tête de colonne).
Province ou territoire Intraprovinciaux Interprovinciaux
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
Terre-Neuve-et-Labrador 0,76 0,74
Île-du-Prince-Édouard 0,69 1,30
Nouvelle-Écosse 1,01 0,96
Nouveau-Brunswick 0,99 0,88
Québec 0,98 1,08
Ontario 0,99 0,99
Manitoba 1,36 1,07
Saskatchewan 1,13 0,90
Alberta 1,08 1,08
Colombie-Britannique 1,07 0,97
Yukon 1,47 1,21
Territoires du Nord-Ouest 1,40 0,42
Nunavut 1,22 2,80

Au cours de l’opération de vérification manuelle, les vérificateurs ont relevé les cas de surdénombrement dans les ménages de paires échantillonnées non couvertes par la base de sondage de l’ESuR; ces paires de doublons de personnes ont été appelées des paires supplémentaires de surdénombrement trouvées au cours de la vérification manuelle. Cela se produisait lorsque les différences entre les deux enregistrements étaient trop importantes pour que la paire ait été capturée par les processus de couplage. Par exemple, en cas de plusieurs coquilles, erreurs ou trop de différences dans les champs de couplage utilisés par le processus de couplage, la paire de surdénombrement ne figurait pas dans la base de sondage de l’ESuR.

Cette situation est illustrée à la figure 1 ci-dessous. L’ovale avec un contour bleu représente la base de sondage de l’ESuR tandis que l’ovale avec un contour vert représente la base de sondage cible, qui comprend un petit nombre de paires n’ayant pas pu être capturées par les processus de couplage (c.-à-d. la partie non observée de la base de sondage cible). L’ovale  jaune plein représente l’échantillon sélectionné, qui comprend les paires de personnes échantillonnées, tandis que l’ovale rouge plein représente l’échantillon vérifié, qui comprend les paires de personnes échantillonnées et les membres de leur ménage. Aucun poids n’est directement associé aux paires de l’ovale rouge plein qui se trouvent en dehors de la base de sondage de l’ESuR (c.-à-d. une petite partie de l’ovale rouge se trouve dans la partie inobservée de la base de sondage cible). La Méthode généralisée de partage des poids (MGPP) (Lavallée, P. 2007) a été utilisée pour attribuer des poids à partir des poids des paires échantillonnées, par lesquelles ces paires ont été indirectement échantillonnées. Ainsi, un poids a été dérivé pour toutes les paires supplémentaires du surdénombrement trouvées au cours de la vérification manuelle et ces paires ont été ajoutées à l’échantillon aux fins d’estimation. Cela a remplacé l’ajustement fondé sur l’EAA, qui tenait compte du surdénombrement mesuré par l’EAA hors de la base de sondage de l’ESuR. Ce procédé était utilisé depuis l’ESuR de 2006.

Figure 1 Illustration de l’échantillon sélectionné, de  l’échantillon vérifié, de la base de sondage de l’Étude  sur le surdénombrement du recensement et de la base de sondage cible

Description de la figure 1

Cette figure comporte quatre ovales. Un ovale avec un contour vert est le plus gros et représente la base de sondage cible = la base de sondage de l’Étude sur le surdénombrement du recensement (ESuR) + la partie inobservée. Un ovale avec un contour bleu se trouve à l’intérieur de l’ovale avec un contour vert et représente la base de sondage de l’ESuR. Un ovale rouge plein représente l’échantillon vérifié et se trouve entièrement à l’intérieur de l’ovale avec un contour vert, et une petite partie de cet ovale se trouve à l’extérieur de l’ovale avec un contour bleu (c.-à-d. une petite partie de l’ovale rouge plein se trouve dans la partie inobservée de la base du sondage). Un ovale jaune plein représente l’échantillon sélectionné et se trouve entièrement à l’intérieur de l’ovale rouge plein, de l’ovale avec un contour bleu et de l’ovale avec un contour vert.

Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.

Des limitations étaient associées à la manière de détecter des paires supplémentaires de surdénombrement. Les doublons de ménages comptant une seule personne ou les doublons de personnes pour lesquelles les autres membres du ménage n’ont rien en commun au sein de la partie inobservée de la base de sondage cible ne seraient pas relevés lors de la vérification manuelle de tous les membres du ménage d’une paire échantillonnée. Ainsi, on reconnaît que l’ESuR de 2021 peut ne pas toujours représenter l’ensemble de la base de sondage cible des doublons de personnes dans le recensement. Cela aurait également été le cas lors de l’utilisation de l’EAA pour ajuster l’ESuR dans les cycles antérieurs. Cependant, la partie inobservée de la base de sondage cible devrait être extrêmement petite.

8.6.2 Estimation

Les résultats de l’opération de vérification manuelle ont été traités, afin de créer des groupes de surdénombrement servant à l’estimation. Les groupes de surdénombrement étaient formés de tous les enregistrements de la BDR couplés ensemble par un surdénombrement vérifié. Les estimations de l’ESuR se sont basées sur la somme des estimations de surdénombrement comptabilisées dans chaque groupe de surdénombrement. Pour un groupe de surdénombrement qui était une paire, le compte de surdénombrement était simplement de 1. Si le groupe de surdénombrement figurait dans un petit groupe d’enregistrements (c.-à-d. groupe non réparti en voisinages), alors :

Le compte de surdénombrement était égal au nombre d’enregistrements dans le groupe de surdénombrement − 1.

Pour les groupes de surdénombrement répartis en voisinages, le surdénombrement était compté en suivant les deux étapes ci‑après :

  1. Calculer le surdénombrement dans chaque voisinage dont l’ancrage (c.-à-d. l’enregistrement de la BDR tenant lieu de centre du voisinage) intervenait dans le surdénombrement vérifié pour ce groupe de surdénombrement, de la façon suivante :

Surdénombrement pour le voisinage = (nombred'enregistrementsappartenantaugroupedesurdénombrement-1) nombred'enregistrementsappartenantaugroupedesurdénombrement MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaSaaaeaaca qGOaGaaeOBaiaab+gacaqGTbGaaeOyaiaabkhacaqGLbGaaGjbVlaa bsgacaqGNaGaaeyzaiaab6gacaqGYbGaaeyzaiaabEgacaqGPbGaae 4CaiaabshacaqGYbGaaeyzaiaab2gacaqGLbGaaeOBaiaabshacaqG ZbGaaGjbVlaabggacaqGWbGaaeiCaiaabggacaqGYbGaaeiDaiaabw gacaqGUbGaaeyyaiaab6gacaqG0bGaaGjbVlaabggacaqG1bGaaGjb VlaabEgacaqGYbGaae4BaiaabwhacaqGWbGaaeyzaiaaysW7caqGKb GaaeyzaiaaysW7caqGZbGaaeyDaiaabkhacaqGKbGaaey6aiaab6ga caqGVbGaaeyBaiaabkgacaqGYbGaaeyzaiaab2gacaqGLbGaaeOBai aabshacaqGTaGaaeymaiaabMcaaeaacaqGUbGaae4Baiaab2gacaqG IbGaaeOCaiaabwgacaaMe8UaaeizaiaabEcacaqGLbGaaeOBaiaabk hacaqGLbGaae4zaiaabMgacaqGZbGaaeiDaiaabkhacaqGLbGaaeyB aiaabwgacaqGUbGaaeiDaiaabohacaaMe8UaaeyyaiaabchacaqGWb GaaeyyaiaabkhacaqG0bGaaeyzaiaab6gacaqGHbGaaeOBaiaabsha caaMe8UaaeyyaiaabwhacaaMe8Uaae4zaiaabkhacaqGVbGaaeyDai aabchacaqGLbGaaGjbVlaabsgacaqGLbGaaGjbVlaabohacaqG1bGa aeOCaiaabsgacaqGPdGaaeOBaiaab+gacaqGTbGaaeOyaiaabkhaca qGLbGaaeyBaiaabwgacaqGUbGaaeiDaaaaaaa@B9F3@

  1. Additionner le surdénombrement de chaque voisinage pour obtenir le surdénombrement total du groupe de surdénombrement.

Le surdénombrement pour un domaine était obtenu en calculant au prorata le surdénombrement total de la paire, du groupe ou du voisinage par la proportion d’enregistrements de la BDR faisant partie du domaine parmi ceux appartenant au groupe de surdénombrement.

Pour les groupes et les voisinages interprovinciaux, le surdénombrement calculé pour une unité était multiplié par le poids après calage pour obtenir l’estimation pondérée. Les paires supplémentaires de surdénombrement relevées au cours de la vérification manuelle étaient multipliées par leur poids d’échantillonnage dérivé par la MGPP, afin d’obtenir l’estimation pondérée. Sinon, le surdénombrement calculé pour une unité était multiplié par son poids de sondage initial pour obtenir l’estimation pondérée. La variance de l’estimation était calculée à l’aide de G-Est.

8.7 Résultats

L’ESuR de 2021 a estimé que 755 635 personnes ont été dénombrées plusieurs fois dans le cadre du Recensement de la population de 2021. Ces résultats ont été examinés selon chacune des composantes ayant mené à la création de la base de sondage et sa contribution à l’estimation générale du surdénombrement du recensement. Les raisons potentielles de ces dénombrements multiples de personnes dans le cadre du recensement ont également été examinées.

8.7.1 Surdénombrement par composante

Les composantes de l’ESuR ont caractérisé chaque cas de surdénombrement (définitif ou vérifié manuellement) en déterminant les paires présentes dans l’unité d’échantillonnage. Il en existe quatre types :

  • CD seul : toutes les paires du groupe de surdénombrement identifiées par le CD;
  • CP seul : toutes les paires du groupe de surdénombrement identifiées uniquement par le CP;
  • CP-CD : certaines paires du groupe ont été identifiées uniquement par le CP, alors que le CD en a détecté d’autres;
  • vérification manuelle du surdénombrement (VMSD) : toutes les paires dans le groupe de surdénombrement étaient des paires supplémentaires de doublons de personnes identifiées au cours de la vérification manuelle qui ne se retrouvaient pas dans la base de sondage de l’ESuR et pour lesquelles un poids d’échantillonnage indirect a été dérivé à l’aide de la MGPP.

Il est important de ne pas oublier que les paires relevées par les deux étapes du CP et du CD ont été classées dans la catégorie CD; par conséquent la catégorie « CD seul » comprend tous les groupes constitués uniquement de paires détectées par le CD, même si certaines de ces mêmes paires ont également pu être relevées par le CP.

Le tableau 8.7.1.1 présente le nombre de cas de surdénombrement estimés par chacune des composantes de l’ESuR, ainsi que le pourcentage du surdénombrement total estimé représenté, pour le Canada ainsi que par province ou territoire.

Tableau 8.7.1.1
Contribution de chaque composante de l’Étude sur le surdénombrement du Recensement de 2021 au surdénombrement total estimé pour chaque province et territoire Sommaire du tableau
Le tableau montre les résultats de Contribution de chaque composante de l’Étude sur le surdénombrement du Recensement de 2021 au surdénombrement total estimé pour chaque province et territoire. Les données sont présentées selon Province ou territoire (titres de rangée) et CD seul, CP seul, Total, CP-CD et VMSD, calculées selon erreur-type, % du total et nombre estimé unités de mesure (figurant comme en-tête de colonne).
Province ou territoire CD seul CP seul CP-CD VMSD Total
Nombre estimé % du total Nombre estimé % du total Nombre estimé % du total Nombre estimé % du total Nombre estimé Erreur-type
CD seul = toutes les paires du groupe de surdénombrement identifiées par le couplage déterministe
CP seul = toutes les paires du groupe de surdénombrement identifiées uniquement par le couplage probabiliste
CP-CD = certaines paires du groupe ont été identifiées uniquement par le couplage probabiliste, alors que le couplage déterministe en a détecté d'autres
VMSD = toutes les paires dans le groupe de surdénombrement étaient des paires supplémentaires de doublons de personnes identifiées au cours de la vérification manuelle qui ne se retrouvaient pas dans la base de sondage de l’ESuR et pour lesquelles un poids d'échantillonnage indirect a été dérivé à l'aide de la méthode généralisée du partage des poids
Note : En raison de l’arrondissement, la somme des estimations de la couverture pourrait ne pas correspondre au total.
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
Canada 352 059 46,6 318 459 42,1 81 172 10,7 3 946 0,5 755 635 9 648
Terre-Neuve-et-Labrador 5 148 50,5 4 664 45,8 382 3,7 0 0,0 10 194 439
Île-du-Prince-Édouard 1 678 51,0 1 284 39,0 311 9,5 16 0,5 3 289 191
Nouvelle-Écosse 9 200 47,6 8 412 43,5 1 639 8,5 94 0,5 19 344 736
Nouveau-Brunswick 8 079 48,8 6 890 41,7 1 440 8,7 132 0,8 16 541 641
Québec 76 760 42,1 80 126 43,9 25 242 13,8 385 0,2 182 513 5 915
Ontario 120 765 44,7 118 619 43,9 29 382 10,9 1 334 0,5 270 100 6 888
Manitoba 11 930 51,5 10 231 44,2 970 4,2 29 0,1 23 160 757
Saskatchewan 13 210 54,7 9 501 39,3 1 194 4,9 258 1,1 24 163 689
Alberta 36 902 47,3 35 085 44,9 5 527 7,1 570 0,7 78 084 2 736
Colombie-Britannique 66 976 53,2 42 762 34,0 15 017 11,9 1 078 0,9 125 832 2 778
Yukon 479 57,9 315 38,1 21 2,5 12 1,4 827 38
Territoires du Nord-Ouest 508 60,6 293 35,0 25 3,0 12 1,4 837 15
Nunavut 423 56,3 277 36,9 23 3,1 28 3,7 751 17

Au niveau national, les composantes CD seul et CP seul représentaient respectivement 46,6 % et 42,1 % du total du surdénombrement estimé, alors que la composante CP-CD représentait 10,7 %, et la composante VMSD représentait 0,5 %.

La contribution de la composante CD seul à l’estimation provinciale ou territoriale totale était supérieure pour les Territoires du Nord-Ouest (60,6 %) et le Yukon (57,9 %) et inférieure pour l’Ontario (44,7 %) et le Québec (42,1 %). La contribution de la composante CP seule à l’estimation provinciale ou territoriale totale était supérieure pour Terre-Neuve-et-Labrador (45,8 %) et l’Alberta (44,9 %) et inférieure pour les Territoires du Nord-Ouest (35,0 %) et la Colombie-Britannique (34,0 %). La contribution de la composante CP-CD était supérieure au Québec (13,8 %) et en Colombie-Britannique (11,9 %) et inférieure pour les trois territoires (de 2,5 % à 3,1 %). Enfin, la contribution de la composante de VMSD était supérieure pour les trois territoires (de 1,4 % à 3,7 %) et inférieure pour le Manitoba (0,1 %) et Terre-Neuve-et-Labrador (0,0 %), où aucune paire supplémentaire de doublons de personnes n’a été relevée au cours de l’opération de vérification manuelle sans qu’elle ne figure déjà dans la base de sondage de l’ESuR.

8.7.2 Surdénombrement par scénario

Le tableau 8.7.2.1 présente le surdénombrement estimé selon la raison possible de ce surdénombrement (appelé scénario de surdénombrement) au niveau national et au niveau des provinces et des territoires pour 2021. Il est important de mentionner que ces résultats ne sont pas comparables aux résultats du surdénombrement de 2016 par scénario pour deux raisons.

  • Le scénario de surdénombrement a été codé au cours de l’opération de vérification manuelle. Puisque les paires issues du CD seul ont été jugées être des paires définitives de doublons de personnes sans vérification manuelle, un scénario de surdénombrement n’est pas disponible pour ces paires.
  • Les codes utilisés pour les scénarios ont été modifiés pour le cycle de 2021, afin d’améliorer la cohérence du codage et l’utilité des résultats.

À l’exclusion des cas issus du CD seul, près de 25 % de tout le surdénombrement au niveau national se situe entre deux ménages identiques. Cette proportion est un peu inférieure pour Terre-Neuve-et-Labrador et supérieure pour la Colombie‑Britannique.

Lorsque l’on ne considère que le surdénombrement au sein de ménages non identiques et que l’on exclut à nouveau les cas issus du CD seul, le scénario de surdénombrement le plus fréquent est un enfant dénombré par les deux parents de ménages distincts, comme c’était le cas en 2016 et au cours des cycles précédents. Cela s’observe pour toutes les provinces et tous les territoires, à l’exception de la Nouvelle-Écosse et du Nunavut. En Nouvelle-Écosse, le scénario le plus fréquent était un étudiant ou jeune adulte (âgé de 18 à 24 ans) ayant récemment quitté le domicile, alors qu’au Nunavut, il s’agissait d’un enfant (âgé de 0 à 17 ans) avec d’autres personnes apparentées.

Tableau 8.7.2.1
Répartition du surdénombrement du Recensement de 2021 selon le scénario pour chaque province et territoire Sommaire du tableau
Le tableau montre les résultats de Répartition du surdénombrement du Recensement de 2021 selon le scénario pour chaque province et territoire. Les données sont présentées selon Province ou territoire (titres de rangée) et 3.1, 3.4, 7.1, 8.1, Étudiant ou jeune adulte (de 18 à 24 ans) ayant récemment quitté le domicile familial, Couplage déterministe, Jeune adulte (de 18 à 24 ans) avec autre(s) membre(s) de la famille, 5.1, 6.1, Ménages identiques, Jeune adulte (de 18 à 24 ans) avec autre(s) adulte(s) non apparenté(s), 3.2, Adulte (de 25 ans ou plus) avec autre(s) membre(s) de la famille, Surdénombrement intraménage (même FRAME_ID), Enfant (de 0 à 17 ans) avec autre(s) membre(s) de la famille, Jeune adulte (de 18 à 24 ans) entrant/quittant une relation de mariage/conjoint de fait, Adulte (de 25 ans ou plus) entrant/quittant une relation de mariage/conjoint de fait, Enfant (de 0 à 17 ans) avec autre(s) adulte(s) non apparenté(s), Autre, Adulte (de 25 ans ou plus) ayant récemment quitté le domicile familial, pourcentage, Enfant de parents dans des ménages séparés, 4.4, 4.2, 1.1, 2.3, Adulte (de 25 ans ou plus) avec autre(s) adulte(s) non apparenté(s), Scénario de surdénombrement (%), 2.2, 4.3, 2.1, 4.1, Un des ménages n’est pas une résidence privée et 3.3, calculées selon unités de mesure (figurant comme en-tête de colonne).
Province ou territoire Scénario de surdénombrement (%)
1.1 2.1 2.2 2.3 3.1 3.2 3.3 3.4 4.1 4.2 4.3 4.4 5.1 6.1 7.1 8.1
Ménages identiques Enfant de parents dans des ménages séparés Enfant (de 0 à 17 ans) avec autre(s) membre(s) de la famille Enfant (de 0 à 17 ans) avec autre(s) adulte(s) non apparenté(s) Étudiant ou jeune adulte (de 18 à 24 ans) ayant récemment quitté le domicile familial Jeune adulte (de 18 à 24 ans) entrant/quittant une relation de mariage/conjoint de fait Jeune adulte (de 18 à 24 ans) avec autre(s) membre(s) de la famille Jeune adulte (de 18 à 24 ans) avec autre(s) adulte(s) non apparenté(s) Adulte (de 25 ans ou plus) ayant récemment quitté le domicile familial Adulte (de 25 ans ou plus) entrant/quittant une relation de mariage/conjoint de fait Adulte (de 25 ans ou plus) avec autre(s) membre(s) de la famille Adulte (de 25 ans ou plus) avec autre(s) adulte(s) non apparenté(s) Un des ménages n’est pas une résidence privée Surdénombrement intraménage (même FRAME_ID) Autre Couplage déterministe
pourcentage
FRAME_ID = identificateur unique de ménage
Note : Le surdénombrement selon le scénario est estimé au niveau de la paire plutôt qu'au niveau du groupe. C'est pourquoi il y a une légère différence entre les pourcentages lorsqu'on les compare à ceux du tableau 8.7.1.1.
Source : Statistique Canada, Étude sur le surdénombrement du Recensement de 2021.
Canada 12,5 11,3 0,8 0,3 5,8 1,2 0,5 0,7 3,6 3,5 3,9 1,6 2,4 0,6 3,2 48,2
Terre-Neuve-et-Labrador 9,5 11,5 1,2 0,0 7,7 2,5 0,3 0,0 1,6 4,9 3,6 1,0 3,0 0,3 3,3 49,8
Île-du-Prince-Édouard 11,2 11,5 0,3 0,4 9,0 1,1 0,8 0,3 3,7 1,8 1,2 1,3 2,5 0,0 0,8 54,0
Nouvelle-Écosse 10,8 9,9 2,0 0,0 15,5 1,9 0,0 0,6 1,9 3,0 2,1 1,2 1,0 0,4 1,8 47,9
Nouveau-Brunswick 11,0 10,5 1,7 0,5 6,4 3,4 0,4 0,4 2,8 4,5 2,7 0,4 2,2 0,0 3,1 50,0
Québec 12,1 16,6 0,7 0,2 6,0 1,7 0,6 0,5 4,1 4,7 3,9 0,9 2,3 0,7 2,9 41,9
Ontario 13,0 10,6 0,5 0,1 5,4 0,6 0,2 0,9 4,1 3,0 4,9 1,6 2,3 0,7 3,0 49,2
Manitoba 10,5 8,8 2,4 0,5 5,1 1,7 1,1 0,9 3,2 3,5 2,4 1,8 4,1 0,3 2,5 51,2
Saskatchewan 9,3 11,1 1,5 0,8 4,0 0,6 1,5 1,1 2,4 1,5 3,7 1,7 3,1 0,2 2,8 54,6
Alberta 11,5 9,3 0,7 0,8 6,6 2,1 0,5 0,5 3,3 3,8 3,9 2,5 2,7 0,5 4,4 47,0
Colombie-Britannique 14,6 7,0 0,7 0,5 4,7 0,5 0,5 0,9 3,0 2,8 2,5 2,1 2,3 0,4 4,0 53,6
Yukon 9,2 13,1 0,4 0,2 4,0 0,8 0,8 0,3 0,8 3,1 1,9 1,4 1,4 0,1 3,0 59,5
Territoires du Nord-Ouest 10,8 8,2 2,1 1,0 1,4 0,7 0,6 0,5 0,9 2,7 2,9 2,7 1,8 0,5 1,7 61,4
Nunavut 13,6 4,5 8,8 1,2 1,6 1,1 2,7 0,7 1,2 0,8 4,8 1,2 3,2 0,4 2,3 51,7

Date de modification :