Présentation
L’assemblage du transcriptome est la reconstruction computationnelle des séquences de transcrits exprimés à partir de lectures RNA-seq, effectuée avec ou sans génome de référence. Pour les organismes dépourvus de génome séquencé, l’assemblage de novo du transcriptome est la seule option, offrant la première vue du potentiel codant d’un organisme. Même lorsqu’un génome de référence est disponible, l’assemblage du transcriptome peut capturer de nouvelles isoformes, des transcrits de fusion et des séquences provenant de régions génomiques mal assemblées. Le transcriptome assemblé sert de fondement aux analyses en aval, notamment la quantification de l’expression, l’annotation fonctionnelle et les études comparatives.
Méthodes
L’assemblage de novo du transcriptome utilise des algorithmes d’assemblage conçus pour une couverture inégale et l’épissage alternatif. Les outils populaires incluent Trinity, qui utilise une approche par graphe de Bruijn avec plusieurs tailles de k-mer ; rnaSPAdes, adapté de l’assemblage de génomes ; et SOAPdenovo-Trans. Ces outils assemblent les lectures en contigs représentant des fragments de transcrits, puis regroupent les contigs apparentés en groupes d’isoformes et résolvent les transcrits complets. Les assembleurs guidés par référence (StringTie, Cufflinks) exploitent les alignements tenant compte de l’épissage sur le génome et assemblent les lectures chevauchantes en modèles de transcrits. Les métriques de qualité clés incluent la complétude de l’assemblage (scores BUSCO par rapport aux orthologues conservés), la longueur N50 et le nombre de transcrits complets récupérés. La réduction de redondance avec CD-HIT ou Corset regroupe les transcrits très similaires.
Applications
L’assemblage du transcriptome permet la découverte de gènes chez les organismes non modèles, des cultures agricoles aux espèces marines peu explorées. Il identifie les gènes exprimés différentiellement, les isoformes spécifiques aux tissus et les transcrits de fusion dans le cancer. La technique est essentielle lorsque les données de séquençage de l’ARN proviennent d’organismes sans référence, et elle s’intègre profondément dans les workflows de séquençage de nouvelle génération. Les transcriptomes assemblés contribuent également aux études évolutives en permettant des comparaisons interspécifiques de la structure et des types d’ARN. À mesure que le séquençage en longues lectures (Iso-Seq, Oxford Nanopore) s’améliore, les stratégies d’assemblage hybrides combinant lectures courtes et longues produisent des transcriptomes plus complets et plus précis que jamais.