FASTA - format fil indeholder en eller flere sekvenser af nukleotider i DNA. Den FASTA format stammer med FASTA software-pakke til DNA-sekventering , selv om det er blevet en standard format til repræsentation af DNA-sekvenser i bioinformatik . FASTA er en simpel format, der gør sekvenser nemt at tolke bruge scriptsprog såsom Perl og Python. Overblik
baggrund af en fil er en linje starter med ">" tegn og efterfølges af teksten at identificere oprindelsen af sekvensen . Den header linje er typisk færre end 80 tegn . Den linje følger denne header linje indeholder en række tegn, der repræsenterer nukleotider i DNA eller aminosyrerester i en peptidsekvens .
Tilladt DNA Tegn
eneste meningsfulde tegn er tilladt som del af en FASTA sekvens . Sekvenser kan bestå af A, C , T , G eller U , svarende til nukleotiderne adenosin , cytosin , thymidin , guanin eller uracil hhv . Imidlertid kan den nøjagtige identitet af nukleotidsekvensen ikke altid være til stede fra sekventering . FASTA indeholder også koder, der repræsenterer de mulige nukleotider , når usikkerheden er til stede. Koden N anvendes, når ingen bestemmelse kan foretages og X når nukleotidet er maskeret af andre molekyler . På "-" kode bruges til at repræsentere et hul på ubestemt længde
Tilladt Peptid Characters
En alfanumerisk kode kan også bruges til at repræsentere . de 24 aminosyrer til stede i en peptidsekvens . Hvis et peptid ikke kan bestemmes , skal koden X anvendes på samme måde som en DNA-sekvens . En " * " bruges til at indikere terminalen eller translationsstopkodon sekvens af et peptid . A "-". Bruges også til at repræsentere et hul i sekventering data for peptider
Andre oplysninger
NCBI sætter en standard sekvens id, eller SEQ ID , til brug i FASTA hovedlinjer , der er dog ingen endelig standard for optagelse i FASTA header linje. En FASTA fil, der indeholder flere sekvenser er kendt som et multi - FASTA fil . FASTA filer kan have filtypenavnet " . FASTA ", " . Fna ", " . FFN ", " . FAA, " " . FRN " eller " . FAS . " < Br >