Base64

שיטת קידוד נתונים המייצגת נתונים בינאריים בפורמט טקסטואלי

Base64 היא שיטת קידוד נתונים המייצגת נתונים בינאריים בפורמט טקסטואלי. כל רצף של שש סיביות מיוצג על ידי תו ASCII אחד מתוך קבוצה של 64 תווים אפשריים. המונח Base64 מקורו בקידוד מסוים של MIME.

את הקידוד בשיטה זו ניתן לראות כהעברה מבסיס בינארי (שבו שתי ספרות, 0 ו-1) לבסיס 64 (שבו 64 ספרות). שלושה בתים של 8 סיביות כל אחד (שבהם 24 סיביות בסך הכל) מיוצגים על ידי ארבע ספרות של Base64.

שימוש בקידוד מחרוזת בינארית ל-Base64 נחוץ בעת העברה של מחרוזת כזו בין מערכות, שעלולה להשתבש מחמת משמעות מיוחדת שניתנת, במערכת היעד או באחת המערכות שבתווך, לרצפים מסוימים של ספרות בינאריות.

תיאור

עריכה

בחירת 64 התווים המשמשים לייצוג 64 הספרות של Base64 משתנה בין מימושים שונים של שיטה זו. העיקרון הוא בחירה של 64 תווים הניתנים להדפסה ומשותפים למרבית השיטות לקידוד תווים. בחירה זו מבטיחה שתווים אלה לא ישתנו במעברם בין מערכות שונות. קידוד MIME של Base64 משתמש בתווים 0-9, a-z, A-Z (סה"כ 62 תווים) בתוספת שני התווים '/', '+'. מימושים אחרים בוחרים שני תווים אחרים להשלמת הסדרה של 64 התווים. שיטת uuencode של UNIX משתמשת בתווים 0-9, A-Z, אך במקום התווים a-z משתמשת בשלל סימני פיסוק ותווים אחרים.

Base64 - טבלת ערכים

עריכה

רצף של שישה ביטים נותן 64 = 26 אפשרויות שונות, ולכן טבלת ההמרה של Base64 כוללת 64 ערכים כדלקמן:

ערך בייצוג
עשרוני
ערך בייצוג
בינארי
תו בקידוד
Base64
ערך בייצוג
עשרוני
ערך בייצוג
בינארי
תו בקידוד
Base64
ערך בייצוג
עשרוני
ערך בייצוג
בינארי
תו בקידוד
Base64
ערך בייצוג
עשרוני
ערך בייצוג
בינארי
תו בקידוד
Base64
0 000000 A 16 010000 Q 32 100000 g 48 110000 w
1 000001 B 17 010001 R 33 100001 h 49 110001 x
2 000010 C 18 010010 S 34 100010 i 50 110010 y
3 000011 D 19 010011 T 35 100011 j 51 110011 z
4 000100 E 20 010100 U 36 100100 k 52 110100 0
5 000101 F 21 010101 V 37 100101 l 53 110101 1
6 000110 G 22 010110 W 38 100110 m 54 110110 2
7 000111 H 23 010111 X 39 100111 n 55 110111 3
8 001000 I 24 011000 Y 40 101000 o 56 111000 4
9 001001 J 25 011001 Z 41 101001 p 57 111001 5
10 001010 K 26 011010 a 42 101010 q 58 111010 6
11 001011 L 27 011011 b 43 101011 r 59 111011 7
12 001100 M 28 011100 c 44 101100 s 60 111100 8
13 001101 N 29 011101 d 45 101101 t 61 111101 9
14 001110 O 30 011110 e 46 101110 u 62 111110 +
15 001111 P 31 011111 f 47 101111 v 63 111111 /

שימושים

עריכה

אישורים דיגיטליים (סרטיפיקטים) נפוצים כגון תעודות X.509 בפורמט PEM[1] נשמרים בפורמט Base64 עקב קריאותם הרבה. באופן דומה, תוצאות של פונקציות גיבוב (Hash functions) מוצגות בדרך כלל ב-Base64 מפני שהתוצר הגולמי שלהן עלול להכיל תווים לא קריאים.

נפוץ למצוא מידע מקודד ב-Base64 בתוך מסמכי XML שונים, במיוחד כאשר נעשה שימוש בתקשורת להעברת המסמכים.
סכמה פשוטה לדוגמה של שיבוץ קידוד כזה במסמך XML:

<data encoding="base64">TextEncodedInBase64ComesHere</data>

הדוגמה הנפוצה ביותר לשימוש יום יומי בפורמט Base64 היא העברת קבצים בדואר אלקטרוני. פרוטוקול SMTP שעליו עובר הדואר האלקטרוני מאפשר העברת תווים רגילים בלבד. כיוון שקובץ הרצה (EXE) או קובץ אופיס מכיל תווים רבים שאינם רגילים, מבצעת תוכנת שליחת הדואר המרה של הקובץ לפורמט Base64 כלומר Encode, ובצד המקבל מבצעת תוכנת הדואר Decode של הקובץ כלומר המרה מפורמט Base64 חזרה למבנה הקובץ המקורי. להמרה זו תוצאת לוואי הגורמת לכך שמערכות דואר "מסרבות" להעביר קבצים גם כשגודלם קטן מהגודל המקסימלי שהמערכת מאפשרת, לדוגמה מערכת המאפשרת העברת דואר עד גודל של עשרה מגהבייט, לא תאפשר שליחת קובץ בגודל שמונה מגהבייט. תופעה זו נגרמת כתוצאה מכך ששלושה בתים מיוצגים בפועל על ידי ארבעה בתים כלומר "ניפוח" של כ-33%.

OpenPGP[2], המתואר ב-RFC 4880 מגדיר קידוד Radix-64 (מכונה גם ASCII Armor).‏ Radix-64 הוא למעשה זהה ל Base64, בתוספת (אופציונלית) של 24 סיביות CRC. ה-Checksum, מחושב על המידע לפני הקידוד ואחר כך עובר בעצמו קידוד Base64, בתוספת תחילית של = המשמשת כתו מפריד, ומשורשר למידע המקודד.

המתודות atob() ו btoa() של שפת JavaScript, המוגדרות במפרט של HTML5[3] נותנות שירות קידוד ל-Base64 עבור קוד JS שרץ בדף אינטרנט. btoa() מוציאה את תווי הריפוד, אך אלו אופציונאליים בקלט של atob()

פרוטוקול LDAP עושה שימוש בפורמט LDIF כדי להציג תוכן ספריות LDAP ולעדכן נתונים. קידוד המחרוזות המועברות בפרוטוקול נעשה באמצעות Base64.

Base64 בעולם התקיפה

עריכה

השימוש ב-base64 מקובל מאוד בעולם התקיפה:

העברת קבצים

עריכה

נתוני base64 הם טקסטואליים ולכן קל יחסית להעביר אותם דרך מערכות בדיקה בהשוואה להעברת קבצים בפורמטים אחרים.

CertUtil

עריכה

CertUtil הוא כלי שבאופן רשמי נועד לניהול אישורים (סרטיפיקטים), אבל כיוון שהוא מותקן על כל מערכת מסוג "חלונות" כברירת מחדל, ניתן להשתמש בו על מנת לפתוח קבצים שנשלחו בפורמט Base64, פעולה החביבה על תוקפי מחשבים, לצורך מעקף תוכנות סינון.

DNS tunneling

עריכה

DNS tunneling היא טכניקה להוצאת קבצים מארגונים, כאשר הפיכת מידע ל-Base64 מאשר בניית בקשות DNS שיוציאו את שורות Base64 מהארגון כאשר בסוף התהליך הקובץ נבנה מחדש ומומר לפורמט המקורי.

דוגמה

עריכה

הטקסט"War @ Peace+" יוצג בקידוד ASCII הקסדצימלי כך: 57 61 72 20 40 20 50 65 61 63 65 2B, ובקידוד ASCII בינארי כך:01010111 01100001 01110010 00100000 01000000 00100000 01010000 01100101 01100001 01100011 01100101 00101011. כל 8 סיביות ברצף זה של 96 סיביות מייצגות תו אחד של הטקסט המקורי. הרצף הראשון 01010111, למשל, מייצג את האות 'W'.

רצף סיביות זה יופרד לקטעים של 6 סיביות כל אחד, וכל קטע של 6 סיביות יוצג באמצעות תו ASCII המתאים לו, לפי הטבלה דלעיל, ובכך יקודד למחרוזת הבאה Base64 של תווי ASCII:‏ V2FyIEAgUGVhY2Ur

ריפוד

עריכה

כיוון שכל 3 בתים (24 סיביות) ממופים ל-4 תווי Base64, יכול להיות במקרה בו הרצף המקורי אינו מתחלק ב-3 וחייב להתבצע "ריפוד" המשלים את הבתים החסרים בקבוצה האחרונה. בציטוט שבדוגמה יש 12 תווים, שהם 96 סיביות, שאותם ניתן לחלק בדיוק ל-16 קטעים של 6 סיביות. אם נגדיל את הטקסט, בתוספת תו אחד בסופו, כך: War @ Peace+- נקבל מחרוזת של 13 תווים, שהם 104 סיביות, מספר שבחלוקתו לקטעים של 6 סיביות נותן 17 קטעים שלמים, ועוד קטע שבו שתי סיביות בלבד. הקידוד ל-Base64 של טקסט זה נותן את המחרוזת הבאה: V2FyIEAgUGVhY2UrLQ==

תחילתו של קידוד זה זהה לקידוד של המחרוזת בת 12 התווים, ובסופו נוסף הקידוד LQ== של התו הנוסף. בדוגמה שלנו, תו זה (מקף -), מקודד למחרוזת LQ שאינה ממלאת את כל המקום ב"קבוצה" האחרונה. לכן אנו רואים את הסיומת LQ==, כאשר התוספת של הרצף == מצביעה על כך שהקבוצה האחרונה (של 3 תווים) הכילה רק תו אחד במקור ולכן התווסף "ריפוד" של שני תווי = נוספים. במקרים בהם הקבוצה האחרונה מכילה שני תווים, ידרש ריפוד של = בודד.

קישורים חיצוניים

עריכה

הערות שוליים

עריכה
  1. ^ PEM Files, באתר How2SSL
  2. ^ קוד פתוח פופולרי להצפנה המבוסס על הסטנדרט PGP
  3. ^ "7.3. Base64 utility methods". HTML 5.2 Editor's Draft. World Wide Web Consortium. נבדק ב-2 בינואר 2017. {{cite web}}: (עזרה) Introduced by changeset 5814, 2011-02-01.