Source: Science, EurekAlert & Université de Montréal

Une équipe de bio-informaticiens de l'Université de Montréal rapportent dans la revue Nature une percée dans l'interprétation de l'information génétique. Les chercheurs y présentent la découverte d'un "alphabet structural" propre à l'acide ribonucléique (ARN) et le développement d'outils bio-informatiques capables de prédire la structure tridimensionnelle d'une molécule d'ARN à partir de la séquence de ses constituants.

Compte tenu de l'importance des ARN dans la régulation de plusieurs processus cellulaires, cette percée ouvre la voie à une meilleure compréhension du métabolisme de la cellule, en plus d'illustrer l'avantage de combiner biologie et informatique pour déchiffrer l'information génétique.

Une nouvelle approche pour prédire la structure des ARN
Contrairement à son célèbre cousin, l'acide désoxyribonucléique (ADN), formé sur toute sa longueur de deux brins complémentaires qui s'enroulent en une double hélice monotone, l'ARN n'est constitué que d'un seul brin capable de se replier en une multitude de structures complexes. Cette diversité structurale explique la multiplicité de rôles que joue l'ARN à l'intérieur de la cellule, notamment dans la régulation de l'activité des gènes.

La structure d'un ARN est dictée en grande partie par l'appariement de ses constituants, les nucléotides A, G, C et U, sur de courtes régions de la molécule. Jusqu'ici, la structure des ARN était modélisée en recherchant la combinaison d'appariements la plus stable. Cette approche souffre toutefois d'une limitation importante: seuls les appariements classiques A:U et G:C, c'est-à-dire ceux où les nucléotides se font face, sont pris en considération. Les appariements non classiques, ceux où les nucléotides se côtoient ou se superposent, ne sont pas pris en compte par les algorithmes de prédiction conventionnels. Ceux-ci génèrent donc des modèles incomplets qui peuvent entraîner le chercheur sur une fausse piste.

C'est en voulant remédier à cette lacune que François Major, chercheur à l'Institut de recherche en immunologie et en cancérologie (IRIC) et professeur au département d'informatique et de recherche opérationnelle de l'Université de Montréal, Marc Parisien, étudiant au doctorat, et leur équipe ont été amenés à proposer une approche radicalement différente pour prédire la structure des ARN. Cette approche consiste à assembler la structure in silico à partir de motifs qui tiennent compte de l'ensemble des interactions entre un nucléotide et ses voisins, indépendamment de la séquence de l'ARN. Les bio-informaticiens de l'Université de Montréal ont ainsi pu faire une découverte primordiale: un nombre très restreint de petits motifs de huit nucléotides ou moins suffit pour reconstituer les structures des ARN répertoriées dans les banques de données expérimentales.

"Nous avons pensé que construire un langage structural à partir de mots déjà formés plutôt qu'à partir de lettres prises isolément permettrait de faire de meilleures prédictions quant à la structure qu'adopte une molécule d'ARN dans l'espace", explique François Major. "Notre hypothèse s'est avérée pleinement fondée; nous avons seulement été surpris par le peu de mots que comporte ce langage, dix-neuf pour être plus précis. Ce qui n'empêche pas que leurs différentes combinaisons dans l'espace génèrent un très grand nombre de structures tridimensionnelles, d'où l'intérêt de pouvoir maintenant prédire avec le plus d'exactitude possible celle qui correspond à une séquence donnée. Pour ce faire, un premier algorithme, MC-Fold, assigne de façon systématique les différents motifs à chaque segment de la séquence et retient la paire la plus probable en fonction de sa fréquence d'apparition dans les structures déjà connues. Un deuxième algorithme, MC-Sym, assemble ensuite les motifs retenus en tenant compte des contraintes présentes dans les structures existantes. Notre approche est donc une approche statistique fondée sur des données expérimentales."

De nombreuses applications
La prédiction de la structure des ARN n'est pas qu'un exercice académique. Au contraire, vus l'importance biologique et le potentiel thérapeutique des ARN, les algorithmes de prédiction de structure trouvent déjà plusieurs applications. Ainsi, François Major et Marc Parisien ont montré que les nouveaux outils bio-informatiques qu'ils ont mis au point pouvaient servir à mieux comprendre la biologie des virus à ARN tels le VIH. Ils ont également montré leur utilité dans l'identification des microARN, ces molécules régulatrices qui font aujourd'hui l'objet d'intenses recherches mais qui restent difficilement identifiables à partir de la seule séquence génomique. Les microARN, parce qu'ils sont capables de bloquer efficacement et spécifiquement l'activité de gènes-cibles, sont souvent considérés comme la prochaine génération d'agents thérapeutiques. Leur identification sur la base de traits structuraux représente une avancée importante.

Le professeur Major s'intéresse au problème de la prédiction de la structure des ARN depuis près de 20 ans, période au cours de laquelle il a fait plusieurs contributions importantes, en particulier l'idée que la prédiction de structures doit reposer sur les données expérimentales disponibles et non sur un a priori théorique. Les travaux de François Major et de son équipe s'inscrivent dans une tradition d'innovation en bio-informatique à l'Université de Montréal, qui remonte au travail de pionniers tels Robert Cedergren et David Sankoff à partir de la fin des années 1970.