Entretien avec Emma Griffiths, Ph. D.
Les données contextuelles, par exemple la provenance d’un échantillon de SRAS-CoV-2, le moment où il a été recueilli et la façon dont il l’a été, sont indispensables à la surveillance génomique de la COVID-19. Aussi appelées « métadonnées », les données contextuelles sont nécessaires pour comprendre la propagation du virus et prévoir les interventions de la santé publique. Tous les ensembles de données contextuelles ne sont toutefois pas égaux et pour cette raison, la normalisation des données est un pilier essentiel des efforts nationaux et internationaux de surveillance de la COVID-19.
Au cours de la dernière année, l’initiative VirusSeq du RCanGéCO a fait des progrès importants en matière de normalisation des données, faisant du Canada un chef de file mondial dans ce domaine.
Les données contextuelles viennent de diverses sources, par exemple les formulaires de déclaration de cas remplis par les professionnels de la santé au moment des tests de COVID-19 et des suivis, les logiciels de suivi des méthodes de collecte des échantillons, de séquençage et des analyses bio-informatiques. Il existe, au Canada, au moins huit versions différentes du formulaire de déclaration de cas utilisé par les autorités fédérales et provinciales de santé publique qui contiennent différentes zones de données et posent différents types de questions. Ces divergences compliquent la comparaison et l’intégration des données.
Nous avons demandé à Emma Griffiths, Ph. D., pourquoi la normalisation des données revêt autant d’importance dans la lutte contre la COVID-19. Mme Griffiths est présidente du Groupe de travail sur les structures de données à la Public Health Alliance for Genomic Epidemiology (PHA4GE) et chef d’équipe Groupe de travail sur l’analyse des métadonnées de l’initiative VirusSeq du RCanGéCO à qui l’on a confié la tâche de normaliser les données contextuelles.
« Si l’on imagine la complexité de l’intégration des données des diverses instances canadiennes pour la réalisation des études, on imagine aussi la complexité encore plus grande de l’intégration des données provenant d’ailleurs dans le monde. Notre norme est mise en œuvre aux États-Unis, en Australie, en Amérique latine et dans des pays d’Afrique. Nous abordons dans la communauté internationale un grand nombre des mêmes enjeux que ceux que nous abordons au RCanGéCO. » — Emma Griffiths, Ph. D.
Que sont exactement les données contextuelles (aussi appelées « métadonnées ») et pourquoi sont-elles importantes?
Notre équipe, qui se compose du chercheur principal William Hsiao, Ph. D., de Rhiannon Cameron, de Sarah Savic Kallesoe, de Nithu Sara John, d’Emilie Diver, de Damion Dooley et de moi-même, supervise l’harmonisation des métadonnées pour l’initiative VirusSeq. Nous préférons parler de données contextuelles parce qu’on en a besoin pour donner un contexte à l’interprétation des données des séquences. Il peut s’agir de données sur l’état et les résultats de santé, les signes et les symptômes de la COVID-19, les conditions préexistantes et les facteurs de risque, les complications et les évaluations cliniques, l’état de la vaccination, de même que l’information sur l’exposition, qui comprend des éléments comme le lieu de résidence de la personne et ses antécédents de voyage. Sans de bonnes données contextuelles, il est très difficile de faire quoi que ce soit avec les données produites par le séquençage génomique des échantillons de SRAS-CoV-2. Combinées, les données du séquençage génomique et les données contextuelles sont indispensables à la surveillance et aux interventions de la santé publique, en particulier à la compréhension de la façon dont la COVID-19 est arrivée au Canada, comment elle s’est propagée et comment elle touche les personnes dans leurs collectivités.
Quelles sont les difficultés si les données de séquençage ne sont pas normalisées?
Nous avons, au Canada, un système de santé décentralisé qui relève de la compétence des provinces. Dans ce contexte, les provinces conçoivent leurs programmes de santé, décident des tests à effectuer et des meilleures mesures à prendre dans les situations d’urgence de santé publique. Cette façon de faire est sensée parce que les provinces sont proches de leurs collectivités et elles les connaissent le mieux. Cela veut aussi dire, toutefois, que chacune utilise des bases de données et des systèmes différents pour recueillir et coder l’information. Celle-ci est recueillie à différents niveaux de détail et sous diverses formes. Les questions sont différentes, et de ce fait, les éléments de données recueillis diffèrent aussi. Lorsque vient le temps de combiner ces données en un même endroit, les choses peuvent assez rapidement se compliquer. Sans un système d’harmonisation de ces milliers et milliers d’enregistrements de données, il devient extrêmement difficile d’intégrer toute cette information pour brosser un tableau fidèle.
Le Groupe de travail sur les métadonnées de l’initiative VirusSeq du RCanGéCO a mis au point un outil logiciel, le DataHarmonizer. Que fait cet outil?
Cette application ressemble à un tableur grâce auquel différents groupes peuvent saisir des données contextuelles dans un format normalisé. Le logiciel DataHarmonizer contient tous les champs que nous avons conçus dans la norme de données contextuelles, utilisée partout au Canada et adoptée même à l’échelle internationale. Lorsqu’un utilisateur a inscrit toute l’information, il peut la valider en cliquant sur le bouton « Valider ». Toute erreur apparaît surlignée en rouge et l’utilisateur peut alors utiliser le bouton Erreur suivante pour résoudre les problèmes de manière systématique. L’outil permet aux utilisateurs de sauvegarder le fichier ou de l’exporter sous diverses formes, pour qu’il soit prêt au téléversement dans différentes bases et autres dépôts de données : un guichet unique qui permet d’organiser les données en fonction de différentes utilisations.
(DataHarmonizer est offert en anglais seulement)
Les travaux de l’initiative VirusSeq du RCanGéCO sur l’harmonisation des données ont été reconnus à l’échelle internationale, y compris la norme de données contextuelles. Pouvez-vous expliquer comment cette norme de données fonctionne et l’importance de la collaboration internationale dans ce domaine?
La norme de données contextuelles est une collection de champs et de termes normalisés pour différents types de données. Ces derniers comprennent des éléments comme l’information sur la collecte et le traitement des échantillons, les expositions, les symptômes, les conditions préexistantes, la vaccination, les réinfections, le séquençage, la bio-informatique et l’information des tests diagnostiques, de même que l’information sur les variants.
Surtout, cette norme de données indique qui fait le travail, de sorte que les contributions de tous puissent être dûment reconnues et que les fournisseurs de données puissent être contactés en vue de collaborations.
Si l’on imagine la complexité de l’intégration des données des diverses instances canadiennes pour la réalisation des études, on imagine aussi la complexité encore plus grande de l’intégration des données provenant d’ailleurs dans le monde. Notre norme est mise en œuvre aux États-Unis, en Australie, en Amérique latine et dans des pays d’Afrique. Nous abordons dans la communauté internationale un grand nombre des mêmes enjeux que ceux que nous abordons au RCanGéCO. Je fais également partie d’une nouvelle organisation appelée la Public Health Alliance for Genomic Epidemiology (PHA4GE). Elle compte des membres de nombreux autres instituts de recherche et agences de santé publique différentes d’ailleurs dans le monde. Les principaux objectifs de la PHA4GE sont l’amélioration de l’interopérabilité, de la reproductibilité et de la portabilité des outils et des infrastructures de bio-informatique en santé publique, de même que le renforcement des capacités dans tous les pays.
Quels seront les prochains travaux du RCanGéCO en matière de normalisation des données contextuelles?
À mesure de l’évolution de la pandémie, nous mettons à jour la norme de données contextuelles et nous ajoutons des fonctionnalités au DataHarmonizer pour améliorer son utilisation et son adoption. Nous recevons de plus en plus de demandes de divers groupes qui veulent mettre en œuvre la norme et nous demandent des conseils. Évidemment, aussi, nous nous efforçons de consigner le tout par écrit dans des guides le plus rapidement possible. Voilà les activités auxquelles je participe et de nombreux autres travaux sont en cours pour améliorer l’échange des données au Canada. Notre équipe développe également un outil de visualisation des mutations, il y a beaucoup en cours.
Le Réseau canadien de génomique COVID-19 (RCanGéCO) a pour mission de relever le défi de la COVID-19 en produisant les données accessibles et utilisables des génomes viraux et humains pour orienter les décisions stratégiques et les décisions en santé publique, et mettre au point des traitements et des vaccins. Ce consortium pancanadien est dirigé par Génome Canada, en partenariat avec les six centres de génomique régionaux, le Laboratoire national de microbiologie et les laboratoires provinciaux de santé publique, les centres de séquençage du génome (par le truchement de CGEn), les hôpitaux, les universités et l’industrie dans l’ensemble du pays.