BAnQ de données

Photo: illustration Le Devoir

Une petite colle pour commencer cet article sur la numérisation des journaux au Québec. La collection virtuelle de Bibliothèque et Archives nationales du Québec (BAnQ) rassemble maintenant 248 titres numérisés, dont une grosse moitié (132) diffusée en ligne.

C’est déjà bien appréciable et merci. Seulement, quel lot reste à traiter ? Combien de journaux imprimés la collection complète compte-t-elle ?

Très exactement 5873 titres. On répète : près de 6000 journaux publiés sur de très courtes ou de très longues périodes, depuis trois siècles, ce qui donne la mesure de la « civilisation de la presse » développée ici comme ailleurs dans le monde.

« Je ne sais pas précisément combien de temps il nous faudrait pour tout numériser. Je ne sais pas exactement combien coûterait ce chantier. Mais je sais que la numérisation des archives de journaux est une tâche très importante qui doit se poursuivre et que nous poursuivons », dit Claire Séguin, directrice de la collection nationale et des collections patrimoniales de BAnQ après avoir révélé ces chiffres. La grande gardienne de l’imprimé québécois sous toutes ses formes, c’est elle.

Cette collection nationale, y compris les quelque 6000 journaux, est disponible pour consultation sur place (sous format papier et microfilm) ou en ligne (en version numérisée). C’est ce volet qui prend de l’ampleur maintenant.

5,2 millions

Le programme de numérisation comme tel a débuté en 2003. Les journaux faisaient déjà partie du projet prioritaire. Une analyse de 34 000 consultations étalées sur trois ans avait alors révélé que 70 % des demandes concernaient 17 titres qui ont donc été numérisés en priorité. La Minerve (1826-1899), par exemple, qui a couvert les rébellions de 1837-1838 comme la création de la Confédération. La Patrie (1879-1978) aussi et Le Petit Journal (1926-1978).

La technologie utilisée au départ avait de grandes lacunes. La numérisation se faisait en mode image et n’offrait donc pas la possibilité de recherche par mot. L’océrisation, soit la reconnaissance optique de caractère (OCR en anglais), coûtait alors dix fois plus cher.

BAnQ accélère le développement de son offre patrimoniale en ligne depuis l’adoption du Plan culturel numérique du Québec en septembre dernier. Le chantier comporte une cinquantaine de mesures, dont huit touchant l’institution de mémoire. Des fonds supplémentaires de 5,2 millions dépensés sur deux ans lui permettront notamment d’accroître la cadence de la numérisation, de faciliter l’accès aux collections dématérialisées et d’acquérir de nouveaux équipements.

Au total, en 2015 et 2016, le fonds national devrait s’enrichir d’environ 5,3 millions de fichiers. Ils s’ajouteront donc aux 132 journaux déjà en ligne et à une cinquantaine de revues qui représentent pour l’instant 22,7 % des actifs numériques de BAnQ.

Du vieux au neuf

Le transfert s’opère aussi des vieilles aux nouvelles technologies. Il y a quelques semaines, Le Devoir a récupéré ses archives sur microfilms de la Société canadienne du microfilm (Socami), plus importante entreprise historique de microfilmage du Québec, maintenant fermée. BAnQ négocie pour les numériser et les diffuser comme elle s’apprête à le faire avec d’autres fonds qu’elle a reçus de la Socami.

« Cette acquisition va nous permettre d’accélérer certains processus, dit Mme Séguin. Avoir la copie maîtresse des microfilms procure un grand avantage par rapport à l’utilisation de copies de copies. »

L’évolution technologique réduit les coûts énormément. L’institution utilise un nouveau serveur dédié à la reconnaissance optique (« l’océrisation ») qui permet de transformer très rapidement les fichiers image en fichiers texte.

Si les négociations aboutissent, la directrice souhaiterait numériser les archives du Devoir en partant des origines en 1910.Un autre projet, avec La Presse, se fera à rebours, des plus récents aux plus anciens numéros. Dans ce cas, le travail des prochains mois permettra alors de remonter jusqu’à la Deuxième Guerre mondiale.

Tous pour tous

La numérisation s’arrime à la diffusion. Un nouveau portail baptisé BAnQ numérique est en préparation. Il sera plus convivial et permettra aux usagers de mieux comprendre l’ensemble de l’offre, promet la directrice. Elle ajoute que la population sera aussi mise à contribution pour enrichir l’offre numérique, y compris avec les collections de journaux.

« Malgré la numérisation et l’océrisation, notre taux de réussite n’est jamais de 100 %, dit-elle. Les gens peuvent donc contribuer à faire de la transcription. »

La stratégie populaire a fait ses preuves. BAnQ a lancé l’an dernier un appel sur Wikisource pour transcrire le vieux livre de recettes Nouvelle cuisinière canadienne de 1865 capté en mode image. La tâche a été accomplie en 48 heures avec toutes sortes de bonifications, dont un index et une réorganisation logique des sections.

La National Library of Australia fournit un autre exemple. L’institution a lancé un projet de numérisation de 15 millions de pages liées à quelque 900 journaux publiés depuis 1803. Le chantier financé publiquement se réalise avec une armée de bénévoles qui travaillent en ligne.

Cet attrait universel se confirme aussi dans la consultation, la population ne se contentant pas des grands titres historiques ailleurs comme ici. « Il y a un engouement évident pour l’histoire locale et régionale, note Claire Séguin. Il y a aussi un grand potentiel pour le milieu de l’éducation. »

Tout le Québec se retrouve et se comprend dans les 5873 titres du fonds en voie de numérisation croissante. Les communautés culturelles y trouvent autant leur compte. La directrice donne l’exemple du Keneder Adler (L’Aigle canadien), publié en yiddish à Montréal de 1907 à 1967 qu’elle souhaite numériser. Elle raconte qu’un étudiant y a récemment  analysé la couverture par ce journal des Jeux olympiques de Berlin en 1936.