Sequenzformate

 

Mit Hilfe von Sequenzformaten ist es möglich die Primärstruktur von Nukleinsäuren und Proteinen darzustellen. Die Sequenzen können dann in verschiedene Programme geladen und dort weiter bearbeitet werden. Da jedoch nicht jedes Programm jedes Sequenzformat erkennt bzw. einige Programme ein spezielles Sequenzformat benötigen, gibt es mehrere geläufige Formate. Einige der am häufigsten genutzten Sequenzformate werden im folgenden vorgestellt.

 

Fasta Nexus Phylip MEGA GenBank

 

Fasta-Format

Das Fasta-Format ist ein sehr einfaches Format und kann daher von vielen Programmen eingelesen werden. Fasta-Dateien können sogar im Text-Editor erstellt werden. Viele Datenbanken nutzen die erste Zeile der Sequenz, auch Kommentarzeile genannt, zur genauen Beschreibung der Sequenz.

 

Darstellung: eine Fasta-Datei beginnt immer mit einem ">"-Zeichen hinter dem eine Beschreibung der nachfolgenden Sequenz wie z.B. der Artname steht. In der nächsten Zeile folgt dann die eigentliche Sequenz. Durch ein erneutes ">"-Zeichen beginnt dann die nächste Sequenz.
Beispiel: hier
Formatendung: *.fas *.fasta *.fsa
Vorteile/Nachteile: + einfacher Aufbau
+ keine Begrenzung in Länge und Form der Kommentarzeile
+ wird von vielen Programmen anerkannt
- enthält nur die Sequenzen und die Kommentarzeile

 

 

Nexus-Format

Das Nexus-Format dient nicht nur der Darstellung von Nuklein- oder Proteinsequenzen, sondern ermöglicht auch das Erstellen von Prozessen, durch welche die Sequenz bearbeitet werden können. Diese Prozesse können dann mit Hilfe anderer Programme wie PAUP oder MrBayes ausgeführt werden. Kommentare können bei diesem Format durch schreiben in eckige Klammern eingefügt werden.

 

Darstellung: Eine Nexus-Datei beginnt immer mit "#Nexus". Anschließend werden Blöcke erstellt, die immer mit "begin;" starten und mit "end;" abschließen. Im DATA-Block, in dem auch die Sequenzen stehen werden zuerst Angaben über die Zahl der Taxa und die Länge sowie Art der Sequenzen festgelegt. Zudem müssen alle in der Sequenz vorkommenden Sonderzeichen, z.B. für Lücken definiert werden. Die Sequenzen stehen dann unter "MATRIX" aufgefürht, wobei zu beachten ist, dass in der Beschreibung bzw. im Artnamen kein Leetzeichen steht, da das Leerzeichen hier als Trennung zwischen Beschreibung der Sequenz und der Sequenz selbst dient. Ist der DATA-Block abgeschlossen kann ein weitere Block erstellt werden,in dem Parameter für eine Analyse, wie z.B. Maximum Likelihood, festgelegt werden.
Beispiel: hier
Formatendung: *.nex *.nxs
Vorteile/Nachteile: + wird von vielen Programmen anerkannt
+ erlaubt Implementierung von Prozessen
+ Kommentarfunktion
- nicht alle Sonderzeichen im Dateinamen erlaubt

 

 

Phylip-Format

Das Phylip-Format ist nur zur Darstellung von Nukleinsäure- und Proteinsequenzen geeignet. Es wurde speziell für das PHYLIP-Programmpaket entwickelt, bei dem man mit insgesamt 35 Einzelprogrammen verschiedene Analysen durchführen kann. Da in diesem Paket jedoch kein Programm zum Erstellen oder Verwalten von Alignments vorhanden ist, muss die Phylip-Datei mit einem anderen Programm wie z.B. BioEdit erstellt werden. Das Phylip-Format selbst ist sehr einfach aufgebaut, was es jedoch auch wenig leistungsfähig macht.

 

Darstellung: In der ersten Zeile einer Phylip-Datei stehen die Zahl der nachfolgenden Taxa sowie die Länge des Alignments. Mit der zweiten Zeile beginnen dann die Sequenzen. Zu beachten ist hierbei, dass die Sequenzbeschreibung bzw. der Artname auf 10 Zeichen abgekürzt wird. Mit dem Setzen eines Leerzeichens legt man die Trennung zwischen Beschreibung und der eigentlichen Sequenz fest. Durch einen Zeilenumbruch wird die erste Sequenz beendet und die nächste Sequenz begonnen.
Beispiel: hier
Formatendung: *.phy
Vorteile/Nachteile: + das umfangreiche PHYLIP-Programmpaket kann genutzt werden
+ einfacher Aufbau
- Beschränkung der Sequenznamen auf 10 Zeichen
- keine Kommentarfunktion
- wenig leistungsfähiges Format

 

 

MEGA-Format

Das MEGA-Format wurde speziell für das MEGA-Programmpaket entwickelt, findet jedoch auch in PAUP rege Anwendung, da PAUP einige Funktionen und Analysen beherrscht, die im MEGA-Paket fehlen. Auf den ersten Blick scheint es eine Mischung aus Nexus- und Fasta-Format zu sein und kann daher als Konkurrenz zu diesen angesehen werden, da es keine besonderen zusätzlichen Funktionen enthält.

 

Darstellung: eine MEGA-Datei beginnt immer mit "#mega". In der zweiten Zeile kann dem Projekt ein Titel gegeben werden. In der dritten Zeile folgen dann Informationen zum Format der Sequenzen. Jede dieser Zeilen, also die Titel- und Formatzeile, beginnen mit einem "!" und enden mit einem ";". Eine Sequenz beginnt immer mit einem "#"-Zeichen gefolgt von der Beschreibung der Sequenz bzw. dem Artnamen. Dabei ist zu beachten, dass das MEGA-Format bei der Sequenzbeschreibung bis zu 40 Zeichen zulässt und auch Sonderzeichen verwendet werden können. Durch einen Zeilenbruch wird dann der Beginn der Sequenz markiert. Diese Sequenz wird durch einen erneuten Zeilenumbruch beendet und durch Setzen des "#"-Zeichens wird die nächste Sequenz begonnen.
Beispiel: hier
Formatendung: *.mas *.meg
Vorteile/Nachteile: + Sequenzbeschreibung bis zu 40 Zeichen lang und mit Sonderzeichen möglich
- funktioniert nur in MEGA und PAUP
- keine Kommentarfunktion

 

 

GenBank-Format

Das GenBank-Format ist das Standardausgabeformat der NCBI GenBank. Es ist liefert die meisten zusätzlichen Informationen zur Sequenz unter allen Sequenzformaten. So werden unter anderem der Zeitpunkt und Form der Veröffentlichung angegeben. Die Sequenz selbst liegt dann in doppelter Ausführung vor. Die erste Ausführung ist aufgespalten und zeigt die Funktion eines bestimmten Abschnitts der Sequenz, sofern diese bekannt ist. In der zweiten Ausführung ist die komplette Sequenz kompakt in Zehnerblöcken aufgeführt. Zusätzlich wird alle 60 Basen die Größe der Sequenz angegeben, sodass ein navigieren in der Sequenz sehr einfach ist.

 

Darstellung: Das GenBank-Format ist immer das Ergebnis einer Suche in der GenBank von NCBI. Dieses Format ist in mehrere Blöcke unterteilt. Im ersten Block werden allgemeine Angaben zur Sequenz gemacht. Im zweiten Block werden dann die Funktionen von einzelner Sequenzabschnitte beschrieben. Im dritten Block liegt dann die komplette Sequenz vor.
Beispiel: hier
Formatendung: *.gb *.gbk
Vorteile/Nachteile: + sehr informativ und umfangreich
- wird nicht von allen Programmen zur Verwaltung und Bearbeitung von Alignments erkannt