פורמט FASTA

פורמט FASTA הוא מונח בביואינפורמטיקה המתאר את צורת הכתיבה המוסכמת לייצוג של רצף הנוקלאוטידים בחומצת גרעין או את רצף חומצות האמינו בחלבון. בפורמט מתיר גם קיום של שורת פתיחה, בו ניתן להוסיף תווי הערות באופן חופשי. מקור הפורמט הוא בתוכנה FASTA, על אף קיומם של פורמטים אחרים, פורמט FASTA הפך להיות הפורמט המקובל בביואינפורמטיקה. הפשטות של הפורמט הופכת את הרצף להיות קל לעיבוד באמצעות כלי עיבוד טקסט ושפות תכנות כמו פייתון, פרל ורובי.

תיאור הפורמט

בשורת הפתיחה יופיע הסימן “<” ולאחריו תיאור הרשומה. בשורות לאחר מכן מופיע הרצף, וכל נוקלאוטיד או חומצה אמינית מיוצגים באות אחת ללא רווחים או מספור.

דוגמאות לרצפים בפורמט FASTA:

>LCBO - Prolactin precursor - Bovine
MDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSS
EMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHL
VTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDED
ARYSAFYNLLHCLRRDSSKIDTYLKLLNCRIIYNNNC*

>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken
ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID
FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA
DIDGDGQVNYEEFVQMMTAK*

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY

אורך השורה הוא לרוב 80 אותיות, אך הגבול המרבי הוא 120 אותיות. האורך נקבע לפי הגודל הסטנדרטי של מסופי מחשב, וכן בדף מודפס שורה (כתלות בגופן) ישנם 70–80 תווים. שורת הפתיחה אינה נצרכת, אך היא אפשרית. ניתן גם להשתמש בשורת הפתיחה בסימן ";" כדי להוסיף הערה, אך זה פחות מקובל. בשורת הפתיחה יופיעו לרוב שם הרצף, שם האורגניזם ומזהה ייחודי לרצף. לאחר שורת הפתיחה יבוא הרצף עצמו, כאשר כל תו שאינו תקני לא יזוהה (ראו פירוט בהמשך). הרצף יכול להסתיים בכוכבית (*), המסמל את קודון הסיום.

ניתן להכניס בקובץ מספר רצפי FASTS שונים, כאשר הם מופרדים זה מזה בתחילת שורה חדשה ובסימן "<".

שורת הפתיחה

לשורת הפתיחה, או שורת ההערה, המתחילה בסימן "<" מקובל להכניס תיאור של הרצף ומזהה ייחודי שלו. ישנם מאגרים המשתמשים בתו "|" כדי להפריד בין שדות שונים. ישנן תוכנות שמציגות את שורת התיאור כשם החלבון, אך לעיתים הן יקרא עד הרווח הראשון או לחלופין יהיו מוגבלים למספר מסוים של תווים. לכן מקובל לערוך את שורת הפתיחה לפי תוכנת היעד.

ה-NCBI הגדיר תקן למזהה ייחודי (accession) של רצפים שבו מקובל להשתמש בשורת הפתיחה. השדות המקובלים במאגרי מידע שונים כוללים לרוב קיצור של שם מאגר המידע, מספר המזהה הייחודי ושם הרצף:

מאגר מידע	שדות הפורמט
GenBank	`gb\|accession\|locus`
EMBL Data Library	`emb\|accession\|locus`
DDBJ, DNA Database of Japan	`dbj\|accession\|locus`
NBRF PIR	`pir\|\|entry`
Protein Research Foundation	`prf\|\|name`
SWISS-PROT	`sp\|accession\|entry name`
Brookhaven Protein Data Bank	`pdb\|entry\|chain`
Patents	`pat\|country\|number`
GenInfo Backbone Id	`bbs\|number`
General database identifier	`gnl\|database\|identifier`
NCBI Reference Sequence	`ref\|accession\|locus`
Local Sequence identifier	`lcl\|identifier`

הרצף

הרצף חייב להיות של תווים התקניים המייצגים חומצות אמינו או נוקליאוטידים. מלבד זאת, ניתן להשתמש בתו "-" כדי לייצג רווח, ובתו "*" לייצג קודון סיום. אותיות קטנות (a) יומרו לאותיות גדולות (A). שימוש במספרים אסור, אך לעיתים יימצא במאגרי מידע כדי לתת מידע על אורך הרצף.

התווים המותרים לחומצות גרעין:

קוד חומצת גרעין	משמעות הקוד	משמעות הסימול
A	A	אדנין (Adenine)
C	C	ציטוזין (Cystosine)
G	G	גואנין (Guanine)
T	T	תימין (Thymine)
U	U	אורציל (Uracil)
R	A\G	פורין (Purine)
Y	C\T\U	פירימידין (Pyrimidine)
K	G\T\U	בסיסים קטוניים (Ketones)
M	A\C	בסיסים עם קבוצות אמיניות (Amino)
S	C\G	בסיסים בעלי זיווג חזק (Strong)
W	A\T\U	בסיסים בעלי זיווג חלש (Weak)
B	הכל מלבד אדנין (C\G\T\U)	האות B מופיעה לאחר A בא"ב
D	הכל מלבד ציטוזין (A\G\T\U)	האות D מופיעה לאחר C בא"ב
H	הכל מלבד גואנין (A\C\T\U)	האות H מופיעה לאחר G בא"ב
V	הכל מלבד תימין או אורציל	האות V מופיעה לאחר U בא"ב
N	כל חומצה אמינית	נוקליאוטיד (Nucleotide)
-	רווח

התווים המותרים לחומצות אמינו:

קוד חומצת אמינו	משמעות הקוד
A	אלנין
B	חומצה אספרטית או אספרגין (D\N)
C	ציסטאין
D	חומצה אספרטית
E	חומצה גלוטמית
F	פנילאלנין
G	גליצין
H	היסטידין
I	איזולאוצין
J	לאוצין או איזולאוצין (L\I)
K	ליזין
L	לאוצין
M	מתיונין
N	אספרגין
O	פירוליזין
P	פרולין
Q	גלוטמין
R	ארגינין
S	סרין
T	תראונין
U	סלנוציסטאין
V	ואלין
W	טריפטופן
Y	טירוזין
Z	חומצה גלוטמית או גלוטמין (E\Q)
X	כל חומצה אמינית
*	קודון סיום
-	רווח

סיומת קובץ

אין סיומת תקנית לקבצים המכילים רצפים בצורת FASTA. הטבלה שלהלן מכילה סיומות מקובלות ומשמעותן:

סיומת	משמעות	הערות
fasta	סיומת כללית	מתאים לכל קובץ FASTA. סיומות מקוצרות יותר הן: fas, fa, seq, fsa
fna	fasta nucleic acid	מייחד את הקובץ כקובץ FASTA של חומצות גרעין
ffn	רצפי נוקליאוטידים של גנים	מכיל אזורים מקודדים לחלבון מתוך גנום
faa	fasta amino acid	מייחד את הקובץ כקובץ FASTA של חומצות אמינו
frn	fasta non-coding RNA	מכיל רצפים של RNA לא מקודד (כגון tRNA, rRNA)

פורמט FASTA

תוכן עניינים

תיאור הפורמט

שורת הפתיחה

הרצף

סיומת קובץ

ראו גם