La création d’une équipe dirigée par Johns Hopkins permet une collaboration scientifique mondiale

Exploiter la puissance de la génomique pour trouver des facteurs de risque de maladies majeures ou rechercher des parents repose sur la capacité coûteuse et chronophage d’analyser un grand nombre de génomes. Une équipe codirigée par un informaticien de l’Université Johns Hopkins a uniformisé les règles du jeu en créant une plate-forme basée sur le cloud qui permet aux chercheurs en génomique d’accéder facilement à l’une des plus grandes bases de données génomiques au monde.
Connue sous le nom d’AnVIL (Genomic Data Science Analysis, Visualization, and Informatics Lab-space), la nouvelle plateforme permet à tout chercheur disposant d’une connexion Internet d’accéder à des milliers d’outils d’analyse, de dossiers de patients et à plus de 300 000 génomes. Le travail, un projet de l’Institut national du génome humain (NHGRI), apparaît aujourd’hui dans Génomique cellulaire.
« AnVIL inverse le modèle de partage de données génomiques, offrant de nouvelles opportunités sans précédent pour la science en connectant les chercheurs et les ensembles de données de nouvelles manières et en promettant de permettre de nouvelles découvertes passionnantes », a déclaré le co-chef de projet Michael Schatz, professeur émérite Bloomberg d’informatique et de biologie. à Johns Hopkins.
En règle générale, l’analyse génomique commence par le téléchargement par les chercheurs de quantités massives de données depuis des entrepôts centralisés vers leurs propres centres de données, un processus non seulement long, inefficace et coûteux, mais qui rend également difficile la collaboration avec des chercheurs d’autres institutions.
“AnVIL sera transformateur pour les institutions de toutes tailles, en particulier les petites institutions qui n’ont pas les ressources nécessaires pour construire leurs propres centres de données. Nous espérons qu’AnVIL uniformise les règles du jeu, afin que chacun ait un accès égal pour faire des découvertes”, dit Schatz.
Les facteurs de risque génétiques de maladies telles que le cancer ou les maladies cardiovasculaires sont souvent très subtils, obligeant les chercheurs à analyser des milliers de génomes de patients pour découvrir de nouvelles associations. Les données brutes pour un seul génome humain comprennent environ 40 Go, donc le téléchargement de milliers de génomes peut prendre de plusieurs jours à plusieurs semaines : un seul génome nécessite environ 10 DVD de données, donc transférer des milliers signifie déplacer “des dizaines de milliers de DVD d’une valeur de données », a déclaré Schatz.
De plus, de nombreuses études nécessitent l’intégration de données collectées dans plusieurs établissements, ce qui signifie que chaque établissement doit télécharger sa propre copie tout en s’assurant que la sécurité des données des patients est maintenue. Ce défi devrait devenir encore plus grand à l’avenir, alors que les chercheurs se lancent dans des études de plus en plus vastes nécessitant l’analyse de centaines de milliers à des millions de génomes à la fois.
“La connexion à AnVIL à distance élimine le besoin de ces téléchargements massifs et permet d’économiser sur les frais généraux”, déclare Schatz. “Au lieu de déplacer péniblement les données vers les chercheurs, nous permettons aux chercheurs de se déplacer sans effort vers les données dans le cloud. Cela facilite également le partage des ensembles de données afin que les données puissent être connectées de nouvelles façons pour trouver de nouvelles associations, et cela simplifie beaucoup de calcul. problèmes, comme fournir un cryptage fort et la confidentialité des ensembles de données des patients. »
AnVIL fournit également aux chercheurs plusieurs outils d’analyse majeurs, notamment Galaxy, développé en partie à Johns Hopkins, ainsi que d’autres outils populaires tels que R/Bioconductor, les ordinateurs portables Jupyter, les WDL, Gen3 et Dockstore pour prendre en charge à la fois l’analyse interactive et les lots à grande échelle. l’informatique. Collectivement, ces outils permettent aux chercheurs de s’attaquer même aux études les plus importantes sans avoir à créer leurs propres environnements informatiques.
Des chercheurs du monde entier utilisent actuellement la plateforme pour étudier diverses maladies génétiques, notamment les troubles du spectre autistique, les maladies cardiovasculaires et l’épilepsie. L’équipe de Schatz, qui fait partie du consortium Telomere-to-Telomer, l’a utilisé pour réanalyser des milliers de génomes humains avec le nouveau génome de référence afin de découvrir plus d’un million de nouvelles variantes.
Déjà, l’équipe AnVIL a collecté des pétaoctets de données provenant de plusieurs des plus grands projets du NHGRI, y compris des centaines de milliers de génomes du Genotype-Tissue Expression (GTEx), des Centers for Mendelian Genetics (CMG) et des Centers for Common Disease Genomics (CCDG ) projets, avec des plans pour accueillir de nombreux autres projets dans un proche avenir.
L’équipe AnVIL comprend des chercheurs de l’Université Johns Hopkins, du Broad Institute of MIT et Harvard, de l’Université Harvard, de l’Université Vanderbilt, de l’Université de Chicago, de l’Oregon Health and Sciences University, de la Yale University School of Medicine, de l’Université de Californie, Santa Cruz, Roswell Park Comprehensive Cancer Institute, la Pennsylvania State University, la City University of New York, le Carnegie Institute et la Washington University à St. Louis.
Ce travail a été soutenu par des prix d’accord de coopération du NHGRI, avec un cofinancement du Bureau de la stratégie de science des données de l’Institut national de la santé au Broad Institute et à l’Université Johns Hopkins.