Données linguistiques douteuses

«Au Canada, les données linguistiques des recensements sont généralement regroupées en trois classes distinctes: français, anglais et toutes autres langues», écrit l'auteur.
Photo: Justin Tang La Presse canadienne «Au Canada, les données linguistiques des recensements sont généralement regroupées en trois classes distinctes: français, anglais et toutes autres langues», écrit l'auteur.

En août prochain, Statistique Canada diffusera les données du recensement de 2021 sur l’usage des langues à la maison ainsi que dans les milieux de travail. Il serait alors préférable que l’organisme fédéral ne répète pas une erreur qui remonte au recensement de 2001.

Au Canada, les données linguistiques des recensements sont généralement regroupées en trois classes distinctes : français, anglais et toutes autres langues. Dans le fascicule Interprétation et présentation des données linguistiques du recensement (août 2020), le Centre de la statistique ethnoculturelle, langue et immigration (CSELI) affirme qu’il n’y aurait « aucune nécessité que les groupes [linguistiques] soient définis de façon mutuellement exclusive ».

Annoncer que les langues peuvent être classées dans des groupes non exclusifs est une autre façon de dire que certaines données pourraient être comptées plus d’une fois. Selon le rédacteur, M. Jean-François Lepage, analyste au CSELI, on ne devrait pas s’étonner de trouver des additions qui « excède[nt] le total de la population », soit plus de 100 %.

Des Idées en revues

Chaque mardi, Le Devoir offre un espace aux artisans d’un périodique. Cette semaine, nous vous proposons une version abrégée d’un texte paru dans la revue L’Action nationale, février 2022, volume CXII, no 2.

Ce fascicule avance l’idée que, pour « bien prendre la mesure de la présence d’une langue, il est souvent préférable de tenir compte de toutes les mentions de la langue en question ». Or, pour compter « toutes les mentions », Statistique Canada propose d’effectuer des additions inadmissibles en statistiques descriptives.

Bien que l’on admette avec raison que « la langue [parlée le plus souvent] devrait avoir un poids supérieur à celui de la langue [parlée régulièrement] », on suggère, à tort, d’additionner chacune des catégories établies selon la langue parlée le plus souvent avec celles formées d’après la langue parlée régulièrement. De même pour les langues en usage au travail.

À tort aussi, on propose de doubler les trois catégories de réponses doubles : 1) le français et l’anglais, 2) le français et une langue tierce, 3) l’anglais et une langue tierce. Enfin, on suggère de tripler les effectifs de la seule catégorie de réponses triples où sont regroupés les cas mentionnant à la fois le français, l’anglais et une langue tierce. Il en résulte que, dans l’ensemble du Canada en 2016, la somme des langues en usage atteignait 120 % dans les foyers et 116 % dans les milieux de travail.

Il importe de bien saisir la nature des résultats obtenus. Lors d’un examen des calculs décrits par Statistique Canada dans Le Quotidien (29 novembre 2017), nous avions identifié des « sommes d’occurrences » pour le français, l’anglais et toutes langues tierces en réponses aux deux questions sur la langue de travail (Cahiers québécois de démographie, automne 2019). Très rudimentaires, les sommes d’occurrences ne reconnaissent aucune hiérarchie entre les nombres.

Rares sont les situations où des données sont regroupées dans des classes « non mutuellement exclusives », c’est-à-dire des classes qui se recoupent. C’est le cas de la connaissance des langues tierces. Comme on demande aux répondants de mentionner « [toute(s)] langue(s) autre(s) que le français ou l’anglais », on admettra avec le CSELI qu’il faudrait « multiplier les catégories de réponses multiples de façon exponentielle » pour épuiser toutes les situations possibles.

Ainsi, les données sur la connaissance des langues tierces ne s’additionnent pas, car la somme des personnes connaissant, par exemple, l’espagnol d’une part à celles affirmant connaître l’italien d’autre part aurait pour conséquence de compter deux fois quiconque connaît ces deux langues.

Selon Statistique Canada, former des classes « non mutuellement exclusives » résulterait d’une nouvelle approche « émergente ». Cette approche serait, semble-t-il, mieux adaptée que l’approche classique à l’étude des minorités autochtones par exemple. Or, le CSELI aurait fait cavalier seul en la matière, car on ne trouve nulle part dans les institutions fédérales une direction qui aurait compté deux ou trois fois certaines personnes du simple fait qu’elles ont déclaré autant de citoyennetés lors d’un recensement.

Pour « rendre compte de la richesse, de la complexité et de la diversité des comportements et des situations linguistiques au Canada » comme le voudrait Statistique Canada, les instruments élémentaires de la statistique descriptive sont suffisants. Négligés dans cette publication, les « tableaux croisés » ne sont pas devenus obsolètes.

Au contraire, l’absence d’un tel tableau prive le lecteur de plusieurs informations intéressantes : 1) en 2016 dans tout le Canada, au sein des foyers où l’on s’exprimait le plus souvent en français, 9 % des résidents faisaient également usage de l’anglais régulièrement ; 2) à l’opposé, seulement 2,6 % des répondants de foyers anglophones parlaient également le français de manière régulière ; 3) parmi ceux qui parlaient le plus souvent une langue tierce au foyer, l’anglais dominait le français comme langue parlée régulièrement à plus de 9 contre 1.

Des commentaires ou des suggestions pour Des Idées en revues ? Écrivez à rdutrisac@ledevoir.com.



À voir en vidéo