Entrevue avec le Dr Lincoln Stein, chef, Oncologie adaptative, Institut ontarien de recherche sur le cancer
Nous avons demandé au Dr Lincoln Stein, chef, Oncologie adaptative à l’Institut ontarien de recherche sur le cancer (IORC) de nous parler du rôle de l’OIRC dans le Portail canadien de données du projet VirusSeq. Génome Canada a lancé le Portail canadien de données du projet VirusSeq le 27 avril 2021 pour suivre l’évolution de la pandémie de COVID-19 au Canada. Le portail est un pilier de l’infrastructure nationale de données qui renforce la capacité du Canada de gérer la pandémie actuelle – et toute pandémie ultérieure – par l’échange et le ressourcement des séquences de génomes viraux. Cette solution canadienne en matière de données est l’un des principaux livrables de la Stratégie intégrée de lutte contre les variants préoccupants de 53 millions de dollars, annoncée par le gouvernement du Canada le 12 février 2021, pour détecter et contrer les variants préoccupants de la COVID-19 au Canada.
« Nous avons créé et mis en service tout le portail dans les 28 jours environ qui se sont écoulés entre le début du financement et le lancement. » – Dr Lincoln Stein
Quel est le rôle de l’IORC dans le Portail canadien de données du projet VirusSeq?
Nous avons trois rôles. Premièrement, nous sommes un producteur de données, mais ce rôle s’est beaucoup atténué.
Deuxièmement, nous participons au RCanGéCO et nous avons effectué une bonne partie de la première tranche de séquençage de génomes viraux avant que les laboratoires de santé publique soient en mesure d’effectuer du séquençage génomique. Nous avons fait plus de 4 000 des premières séquences virales en Ontario.
Troisièmement, nous sommes les principaux concepteurs de logiciels pour le Portail canadien de données du projet VirusSeq, le dépôt central de tous les ensembles de données du séquençage des virus financé par le RCanGéCO. La ressource est publique et ouverte à toute personne ayant un accès à Internet qui veut télécharger des séquences virales complètes et les données connexes en libre accès pour les patients donneurs qui soumettent leur test. L’équipe de développement de logiciels de l’IORC collabore également avec la Supergrappe des technologies numériques du Canada dans le Projet du Nuage COVID qui fournit des installations permettant d’effectuer une analyse intégrative en aval parmi les ensembles de données sur les séquences virales et de données à accès contrôlé grâce à laquelle les chercheurs peuvent cerner les changements dans le génome viral qui modifient sa pathogénicité (capacité d’un organisme de causer une maladie) ou le taux d’infection.
Visitez l’IORC pour en savoir plus.
Quel est votre rôle précisément?
Je suis directeur par intérim du groupe d’informatique génomique à l’IORC. Mon rôle à temps plein est celui de chef du Programme d’oncologie adaptative à l’IORC, ce qui comprend notre groupe de génomique, le groupe d’informatique génomique, le groupe de pathologie de développement des diagnostics, le groupe de l’imagerie et le groupe de génématique. Compte tenu de l’impact de la COVID-19 sur les patients atteints de cancer et la recherche sur le cancer, j’ai donné le feu vert à nos chercheurs pour qu’ils commencent des travaux sur la COVID-19 autres que la recherche sur le cancer pendant la pandémie.
Le Portail de données a été développé à une vitesse incroyable. Comment l’IORC a-t-il contribué à le rendre fonctionnel en si peu de temps?
Nous avons créé et mis en service tout le portail dans les 28 jours environ qui se sont écoulés entre le début du financement et le lancement. Un grand nombre des logiciels existaient déjà pour nos projets liés au cancer. Le portail est propulsé par Overture, une suite logicielle à code source libre de gestion et d’échange des données à grande échelle.
L’une des difficultés auxquelles nous nous sommes heurtés a trait aux caractéristiques opérationnelles différentes du portail que nous ne connaissions pas vraiment. Nous avons l’habitude d’un petit nombre de patients, entre 10 000 et 20 000 tout au plus, ayant de très grands génomes. Au lieu de cela, dans le cadre de l’initiative VirusSeq du RCanGéCO, nous avons un grand nombre de petits génomes. Le premier problème a été l’arrêt du fonctionnement de tout le système lorsque nous avons atteint environ 50 000 génomes viraux, car il y avait plus de génomique que le système ne pouvait en accepter. Nous avons donc rapidement augmenté la capacité à 100 000 génomes, puis lorsque nous nous sommes rapprochés de ce plafond, nous sommes passés à 200 000. Nous continuons de devoir adapter le logiciel pour aller au-delà de ces limites basées sur des hypothèses formulées il y a des années pour le cancer.
Maintenant que le Portail est fonctionnel, que prévoit le groupe du Portail de données pour l’avenir?
L’objectif immédiat du RCanGéCO était de créer un dépôt complet pour que toutes les séquences génomiques que nous produisions puissent s’y trouver. Notre équipe d’informatique génomique à l’IORC a bâti un dépôt très rudimentaire qui contient la séquence virale et quelque 15 champs cliniques pour les données contextuelles, mais à peu près rien d’autre. Même si nous avons récemment ajouté une visualisation de l’arbre généalogique des lignées virales qui illustrent l’émergence des variants préoccupants, nous ne fournissons pas (encore) de cartes interactives des lieux où les cas ont été recueillis au Canada ou des lignes du temps montrant la croissance ou la diminution des cas.
Cette fonctionnalité est assurée par un autre partenaire, DNAstack et sa plateforme infonuagique COVID. Le Portail de données est libre d’accès, mais le Nuage COVID est un environnement à accès contrôlé. Il faut demander l’accès au Nuage et avoir un plan expérimental pour l’utiliser. Comme le public n’y a généralement pas accès, nous aimerions avoir une partie de cette fonctionnalité dans le Portail pour donner aux gens une vue de premier ordre de l’évolution du virus, sa propagation et sa régression partout au Canada — et une idée de ce qu’on peut obtenir par l’interface complète du Nuage COVID. Cela nous permettrait d’aider un chercheur occasionnel – un directeur d’école secondaire, par exemple – qui veut consulter les données pour faciliter la prise de décisions localement.
En savoir plus sur l’équipe qui a créé cette solution canadienne en matière de données.
Les provinces canadiennes partagent leurs données de séquençage des virus avec la banque de la Global Initiative on Sharing Avian Influenza Data (GISAID) depuis le début de la pandémie de COVID-19. Pourquoi était-il important de créer une plateforme canadienne d’échange des données?
Premièrement, l’échange des laboratoires canadiens de santé publique avec les bases de données internationales n’était pas uniforme et seule une fraction des données était échangée. Deuxièmement, il n’y avait pas de normes concernant le type de données qu’échangeaient les différentes provinces. Ces dernières échangeaient certains champs cliniques et d’autres pas, ce qui donnait l’impression qu’il y avait de grandes différences entre les provinces alors qu’en réalité, il s’agissait simplement de divergences dans les politiques relatives aux données. Le RCanGéCO voulait une conservation centralisée dotée d’un ensemble de normes pour la vérification de l’intégralité et l’uniformité des données.
Renseignez-vous sur le contrôle de la qualité du séquençage du SRAS-CoV-2 et nous vous présentons une curatrice de données du RCanGéCO.
Le Réseau canadien de génomique COVID-19 (RCanGéCO) a pour mission de relever le défi de la COVID-19 en produisant les données accessibles et utilisables des génomes viraux et humains pour orienter les décisions stratégiques et les décisions en santé publique, et mettre au point des traitements et des vaccins. Ce consortium pancanadien est dirigé par Génome Canada, en partenariat avec les six centres de génomique régionaux, le Laboratoire national de microbiologie et les laboratoires provinciaux de santé publique, les centres de séquençage du génome (par le truchement de CGEn), les hôpitaux, les universités et l’industrie dans l’ensemble du pays.