Home / De nouveaux outils logiciels pour les données volumineuses à l’appui de la recherche de pointe sur le cancer
De nouveaux outils logiciels pour les données volumineuses à l’appui de la recherche de pointe sur le cancer
Résultat
Statut
Concurrence
Centre(s) de génomique
GE3LS
Chef(s) de projet
- Lincoln Stein,
- Ontario Institute for Cancer Research
Lancement du projet d'exercice financier
Description du projet
Ce projet permettra la mise en place d’un centre unique d’informatique en nuage grâce auquel les chercheurs travailleront avec l’ensemble de données le plus vaste et le plus exhaustif au monde sur le génome du cancer. Grâce aux installations du collaboratoire sur le génome du cancer, les chercheurs pourront réaliser des opérations complexes d’extraction et d’analyse sur 10 à 15 pétaoctets de données sur les séquences du génome du cancer et l’information clinique connexe sur les donneurs.
En utilisant des techniques avancées de marquage des métadonnées et de suivi de la provenance, et grâce à des logiciels de gestion du flux de travail, les chercheurs pourront réaliser des pipelines d’analyse complexes, créer des traces reproductibles de chaque étape de calcul et mettre en commun les méthodes et les résultats. Il s’agit d’une véritable révolution par rapport aux techniques actuelles d’analyse génomique. Au lieu de passer des semaines à télécharger des centaines de téraoctets de données depuis un dépôt central avant de commencer les calculs, les chercheurs pourront dorénavant télécharger leurs logiciels d’analyse dans le nuage du collaboratoire, les faire fonctionner dans le nuage, puis télécharger les résultats compilés de manière sécurisée.
Comme les données génétiques utilisées par le collaboratoire sont très détaillées et permettraient l’identification des personnes, les questions de confidentialité sont au cœur de la conception du projet. Une équipe spéciale d’informaticiens étudiera les moyens de protéger la vie privée de toutes les personnes dont les données sont analysées. On recourra notamment à des techniques visant à rendre anonymes les profils génétiques sans la perte de détails qui rendrait les profils trop vagues, ainsi qu’à des techniques pour structurer les demandes des chercheurs en santé afin qu’elles puissent être traitées par l’entremise de sites de stockage sécurisé de données.