Rechercher
Fermer ce champ de recherche.

Nous vous présentons une curatrice de données du RCanGéCO

Explorez le monde de la curation des données avec Nithu John, adjointe de recherche à la Simon Fraser University et curatrice au Portail canadien des données du projet VirusSeq (RCanGéCO).
Facebook
Twitter
Email
LinkedIn

Explorez le monde de la curation des données avec Nithu John, adjointe de recherche à la Simon Fraser University et curatrice au Portail canadien des données du projet VirusSeq (RCanGéCO).

Les données contextuelles — par exemple où, quand et comment un échantillon de SRAS-CoV-2 a été recueilli — sont indispensables à l’interprétation des tendances des données des séquences génomiques du SRAS-CoV-2 qui nous aide à mieux comprendre la COVID-19 et à orienter la réponse de la santé publique. Les données provenant de diverses sources doivent être rapidement et fidèlement normalisées. La difficulté réside dans le fait que les personnes et les équipes qui fournissent des données se servent de systèmes de gestion des données différents qui utilisent des champs, des termes et un formatage de codage des données qui leur sont propres.

C’est là que l’harmonisation et la curation des données viennent à la rescousse et permettent d’utiliser ensemble les données provenant de tout le pays, même du monde, afin d’orienter notre compréhension de la COVID-19 et notre réponse à cette maladie et à d’autres problèmes de santé publique de grande envergure.

Le DataHarmonizer (mis au point par le Groupe de travail des métadonnées du RCanGéCO) est un outil qui résout un grand nombre des problèmes de normalisation signalés ci-dessus (en savoir plus). Le DataHarmonizer :

  • normalise le formatage et la saisie des données;
  • valide et automatise les transformations des données;
  • constitue un outil vital de la curation des données.

Ensuite, une étape cruciale de la préparation des données consiste à vérifier les données contextuelles fournies par différentes provinces et différents laboratoires avant de les verser dans la base de données à accès contrôlé du Laboratoire national de microbiologie et d’y donner accès public dans le Portail canadien de données du projet VirusSeq, inauguré en avril 2021.

En quoi consiste la curation des données au RCanGéCO?

  • Le processus de curation comprend les éléments suivants :
    • des vérifications de l’uniformité et de l’intégralité des données, de même que la vérification du sens des données;
    • le dépannage, l’élaboration et la mise à jour des normes pour répondre aux besoins de la santé publique;
    • la conversion des données pour s’assurer qu’elles correspondent aux exigences des bases de données de différentes organisations;
    • les corrections et les mises à jour après la soumission des données.

Voir une répartition plus détaillée du processus de curation.

Préoccupations relatives à la protection des renseignements personnels et autres préoccupations d’ordre juridique

  • Les autorisations d’échange des données varient d’une agence de santé publique à une autre, de sorte que les curateurs de données doivent être au fait des nombreuses questions éthiques, juridiques et de confidentialité liées aux divers ensembles de données et diverses ressources, par exemple les ensembles qui proviennent de bases de données à accès contrôlé par opposition à ceux qui proviennent des bases de données d’accès public.
  • Un curateur des données du RCanGéCO assure la coordination avec le Laboratoire national de microbiologie et les partenaires provinciaux pour s’assurer que ces questions sont prises en compte.

Étapes suivantes des données préparées et problèmes restants

Les données contextuelles — par exemple où, quand et comment un échantillon de SRAS-CoV-2 a été recueilli — sont indispensables à l’interprétation des tendances des données des séquences génomiques du SRAS-CoV-2 qui nous aide à mieux comprendre la COVID-19 et à orienter la réponse de la santé publique. Les données provenant de diverses sources doivent être rapidement et fidèlement normalisées. La difficulté réside dans le fait que les personnes et les équipes qui fournissent des données se servent de systèmes de gestion des données différents qui utilisent des champs, des termes et un formatage de codage des données qui leur sont propres.

Il reste des problèmes à régler, par exemple s’assurer que tous les génomes soumis à l’initiative GISAID se trouvent également dans le Portail canadien de données du projet VirusSeq. Il peut y avoir des divergences entre les deux parce que les exigences relatives aux génomes soumis au Portail diffèrent des exigences du GISAID (GISAID n’accepte que les génomes ayant une couverture de 90 %, alors que VirusSeq accepte également les génomes ayant une couverture inférieure aux fins de recherche).

« Les données préparées vont au-delà de la simple inscription parce qu’elles structurent la communication des données sur les modes de transmission des infections virales dans une population diversifiée. »

Nithu John, adjointe de recherche à la Simon Fraser University et curatrice pour le Portail canadien de données du projet VirusSeq (RCanGéCO).


Le Réseau canadien de génomique COVID-19 (RCanGéCO) a pour mission de relever le défi de la COVID-19 en produisant les données accessibles et utilisables des génomes viraux et humains pour orienter les décisions stratégiques et les décisions en santé publique, et mettre au point des traitements et des vaccins. Ce consortium pancanadien est dirigé par Génome Canada, en partenariat avec les six centres de génomique régionaux, le Laboratoire national de microbiologie et les laboratoires provinciaux de santé publique, les centres de séquençage du génome (par le truchement de CGEn), les hôpitaux, les universités et l’industrie dans l’ensemble du pays.

Faits rapides

Relations avec les médias

Nicola Katz
Directrice, Communications
Génome Canada
Cell. : 613-297-0267
nkatz@genomecanada.ca

Partager

Facebook
Twitter
Email
LinkedIn