Bio-informatique : à l’interface entre la biologie et l'informatique


Par Maria Virginia Ruiz Cuevas 

Source Image : Pixabay


La bio-informatique est généralement définie comme l'application de l'informatique, des mathématiques et des statistiques au développement d'algorithmes et de modèles statistiques impliqués dans la gestion et l'analyse de données biologiques. Bien que la bio-informatique semble être un nouveau domaine de recherche, elle existe depuis les années 1960. La première personne à avoir perçu le potentiel de l'utilisation des ordinateurs dans les domaines de la biologie et de la médecine a été la remarquable scientifique Margaret Dayhoff. Au cours de sa thèse de doctorat en électrochimie, Dayhoff a appliqué des méthodes informatiques pour calculer les énergies moléculaires des molécules organiques. Au cours de sa carrière, elle a apporté plusieurs contributions au domaine de la bioinformatique, la plus remarquable étant la publication du premier catalogue de protéines, Atlas of Protein Sequence and Structure. Depuis lors, elle est connue comme la pionnière de la bioinformatique.


Le projet du génome humain : la turbine propulsive de la bioinformatique


Le projet du génome humain, lancé en 1991, visait à identifier la séquence de lettres qui composent l'ADN humain et à cartographier tous les gènes codant pour des protéines. Dans une cellule, l'ADN stocke les informations qui définissent biologiquement un individu sous forme de lettres A (Adénine), T (Thymine), C (Cytosine) et G (Guanine). Cette énorme quantité d'informations, qui totalise plus de 3 milliards de lettres, est stockée et organisée dans 23 chromosomes. L'ADN est transformé, par un processus complexe, en protéines qui sont les composants de base de la vie, car elles exécutent plusieurs fonctions qui assurent la survie de la cellule.


La cartographie de tous les gènes codant pour des protéines a plusieurs implications non seulement dans la compréhension de la biologie humaine, mais aussi dans les soins de santé. Par exemple, elle a permis d'identifier non seulement les gènes impliqués dans la biologie normale, mais aussi les gènes liés aux maladies. L'identification des gènes impliqués dans des physiopathologie comme la maladie d'Alzheimer ou les cancers, est cruciale pour identifier les causes de ces maladies, ce qui permettra d'améliorer le diagnostic et les traitements.


Ainsi, le projet du génome humain est devenu un moment clé pour le domaine de la bioinformatique moderne. Il a nourri le besoin de développer des algorithmes et des modèles pour comprendre les joyaux d'information souvent cachés dans les grandes quantités de données qui échappent au discernement humain.


Le rôle des bio-informaticiens


Dans le contexte du projet du génome humain, par exemple, des programmes ont été écrits pour assembler le séquençage du génome entier (WGS). Cela peut sembler un peu mystérieux, mais en termes simples, pour discerner l'ordre de la séquence complète d'un génome, étant donné sa taille énorme, il faut le découper en petits morceaux d'ADN. Ces morceaux seront traités par un instrument de séquençage qui lit l'ADN et le convertit en séquence numérique de lettres (ATCG). L'étape suivante consiste donc à assembler toutes les séquences pour obtenir la séquence globale du génome qui permettra enfin de cartographier tous les gènes codant pour les protéines.



Crédit image : Maria Virginia Ruiz Cuevas

A la manière du séquençage du génome, depuis les années 2000, on sait révéler la présence de la molécule clé dans la transformation de l'ADN en protéine : la molécule d'ARN messager (ARNm). La technique RNA-seq révèle les séquences d'ARN présentes dans la cellule qui vont permettre, entre autres, la génération de protéines. Ces séquences sont stockées numériquement sous forme de chaînes de caractères écrits dans l'alphabet spécifique de l'ADN, ce qui permet d'analyser l'information.



Crédit image : Maria Virginia Ruiz Cuevas


À mesure que la collecte de données biologiques progresse, les bioinformaticiens cherchent à écrire des programmes plus puissants, capables d'effectuer des tâches essentielles et de gérer la charge importante de nouvelles données.

L'ARN-seq ouvre la porte à une myriade de questions. Les bioinformaticiens doivent faire preuve d'ingéniosité pour développer des outils permettant d'étudier les relations intrinsèques et souvent invisibles entre l'ADN et sa transformation en protéines.

En médecine, par exemple, les bioinformaticiens ont contribué aux applications RNA-seq qui fournissent des informations pour déduire la génération différentielle de protéines, la biologie des maladies, les biomarqueurs, les diagnostics génétiques et les polymorphismes mononucléotidiques (SNP) associés aux maladies. Notamment, ces dernières années, sur la base des données de séquençage de l'ARN, ils ont développé plusieurs approches pour améliorer la sélection et l'identification de antigens candidats pour la conception de vaccins contre le cancer.


En outre, l'analyse des données par le moyen de ces applications peut soulever des questions importantes et intéressantes, auxquelles les bioinformaticiens peuvent se consacrer. Une analyse rapide effectuée sur le nombre de lettres de l'ADN qui codent pour des protéines montre que seulement 2% des 3 milliards de lettres sont effectivement utilisées pour se transformer en protéines. Cette observation soulève certainement plus de questions que de réponses : pourquoi la cellule transporte-t-elle une telle quantité de données si elles semblent inutiles ? Quelle pourrait être l'utilité biologique des 98% du génome qui ne codent pas pour des protéines ?


C'est donc une période passionnante pour les bioinformaticiens, car ils ont un rôle clé à jouer dans la recherche. Avec l'abondance de nouvelles données, il y a beaucoup de travail à faire dans de nombreux domaines de la recherche biologique et donc beaucoup à découvrir.

184 vues1 commentaire