Skip to content

Article image
Convertisseur de format de séquence

Convertissez vos séquences d’ADN ou d’acides aminés entre différents formats bioinformatiques avec ce convertisseur polyvalent.

Comment utiliser

  1. Saisissez votre séquence d’ADN ou d’acides aminés dans la zone de saisie.
  2. Saisissez le nom de la séquence, la description et le numéro d’accession (si applicable) dans les champs correspondants.
  3. Sélectionnez le format d’entrée dans le menu déroulant.
  4. Sélectionnez le format de sortie souhaité dans le menu déroulant.
  5. Cliquez sur le bouton « Convertir ».
  6. La séquence convertie sera affichée dans la zone de sortie.
  7. Cliquez sur le bouton « Télécharger » pour enregistrer la séquence convertie dans un fichier. L’extension du fichier sera automatiquement déterminée en fonction du format de sortie sélectionné.

Formats pris en charge

Ce convertisseur prend en charge les formats de séquence suivants :

  • FASTA : Un format textuel simple représentant des séquences nucléotidiques ou d’acides aminés. Une séquence au format FASTA commence par une description sur une seule ligne, suivie de lignes de données de séquence. La ligne de description doit commencer par le symbole « > ».
  • EMBL : Un format complet pour stocker des données de séquences nucléotidiques. Un fichier au format EMBL peut contenir plusieurs séquences, chacune avec des annotations détaillées. Les données de séquence sont précédées des lignes ID, AC, DE et SQ, et la séquence elle-même est souvent divisée en lignes de 60 caractères. La séquence se termine par « // ».
  • GCG : Un format utilisé par le progiciel Genetics Computer Group (GCG). Un fichier au format GCG contient généralement une seule séquence avec des annotations. Le début de la séquence est marqué par une ligne se terminant par deux points (« .. »).
  • GenBank : Un format largement utilisé pour stocker des données de séquences nucléotidiques et d’acides aminés. Similaire à EMBL, les fichiers GenBank peuvent contenir plusieurs séquences avec des annotations. Les séquences commencent après le mot-clé « ORIGIN » et se terminent par « // ».
  • IG/Stanford : Un format utilisé par le logiciel Integrated Genetics (IG). Les fichiers au format IG peuvent contenir plusieurs séquences, chacune avec des commentaires (lignes commençant par « ; »), une ligne de nom et la séquence elle-même, terminée par « 1 » (linéaire) ou « 2 » (circulaire).
  • Plain/Raw : Un format simple contenant uniquement les caractères de la séquence (caractères IUPAC et espaces). Aucun en-tête ou annotation n’est inclus. Un fichier de séquence simple peut contenir une seule séquence.
  • Pretty : La séquence est formatée pour la lisibilité, généralement en ajoutant des espaces tous les 10 caractères.

Remarque : Ce convertisseur fournit des conversions de format de base. Pour une manipulation ou une analyse plus avancée des données de séquence, des outils bioinformatiques spécialisés sont recommandés. Le formatage de certains formats (comme GCG) peut nécessiter un ajustement supplémentaire en fonction des exigences logicielles spécifiques. Les sommes de contrôle et autres métadonnées peuvent ne pas être entièrement exactes. Vérifiez toujours la sortie, en particulier pour les applications critiques. La détection du format d’entrée est basique et peut ne pas identifier correctement toutes les variations d’un format. Il est préférable de sélectionner explicitement le format d’entrée.