משתמש:דרור ש/אתר לניסויים גרעיניים

זהירות, שטח אש!


פסולת גרעיניתעריכה

טבלה שהוצאתי מהערך UTF-8 וחבל לי לזרוקעריכה

טווח הקוד ההקסדצימלי UTF-16 UTF-8 בינארי הערות
000000 - 00007F 00000000
0xxxxxxx
0xxxxxxx טווח תווי ASCII; הבית מתחיל ב־0
000080 - 0007FF 00000xxx
xxxxxxxx
110xxxxx 10xxxxxx הבית הראשון מתחיל עם 110 או 1110, והבית/בתים הבא/ים מתחיל/ים עם 10
000800 - 00FFFF xxxxxxxx
xxxxxxxx
1110xxxx 10xxxxxx 10xxxxxx
010000 - 10FFFF 110110xx
xxxxxxxx
110111xx
xxxxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx UTF-16 מחייב בית נוסף; ב־UTF-8, ‏0x10000 מוחסר, אז תבנית הסיבית לא זהה ל־UTF-16

עוד דברים שזרקתי מהערך UTF-8עריכה

למעשה, UTF-8 מסוגל להשתמש ביותר מ־6 בתים ולכסות על כל האזור 0x00-0x7FFFFFFF ‏(31 סיביות), אבל UTF-8 הוגבל על ידי RFC 3629 להשתמש רק באזור שהוגדר על ידי יוניקוד הרשמי, 0x00-0x10FFFF, בנובמבר 2003. לפני כן, רק בתי 0xFE ו־0xFF לא קודדו בטקסט UTF-8. אחרי שהגבלה זו יושמה, מספר הבתים הבלתי משומשים עלה ל־13 בתים: 0xC0,‏ 0xC1 ו־0xF5-0xFF. למרות שפירושים חדשים אלה מגבילים את הקידוד הזמין מאוד, הבעיה עם רצפים ארוכים מדי (דרכים שונות לקידוד תו זהה, שיכול להיות בעיית אבטחה) מסולקת, בגלל שרצף ארוך מדי יכיל כמה מבתים אלה, שאין בהם שימוש ולכן הם לא רצף חוקי.