UTF-16 – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
←‏תיאור הקידוד: סבור שיש לרמוז יותר לקורא מה הקשר בין 2,048 ל 1,048,576
תגית: חזרות
שורה 4:
== רקע ==
 
ב־1990, כאשר הוחל בתקינת תקן יוניקוד לקידוד תווים אחיד, עלה במחשבה כי אין צורך אלא בהרחבת הקידוד לכל תו מבית אחד (8 סיביות) ל־2 בתים (16 סיביות). קידוד כזה נותן מקום ל־65,536 תווים, והמייסדים של יוניקוד סברו כי מספר זה יספיק. תוכנן כי אותיות עם אקצנטים והברות קוריאניות יקודדו באמצעות יסודות מתחברים (combining characters), דבר שיחסוך במקומות, וכי תווים היסטוריים (כמוכגון גותית ואוגריתית) יקודדו בתוך אזור השימוש הפרטי (private use area) של יוניקוד, במקומות U+A000 עד U+FAFF (מספרים [[בסיס הקסדצימלי|הקסדצימליים]]). כך היה המצב בגרסה 1 של תקן יוניקוד.
 
ברם, כעבור כמה שנים השתנו הדברים תכלית שינוי. לצורך [[תאימות לאחור]] הוחלט על הקצאת מקומות לתווים מחוברים, כלומר במקום לקודד את האות ē כשני תווים, האות e ולאחריה קו עליון מתחבר, לקודד את כל הסימן הזה כתו אחד. כך עלה הצורך להקצות אלפי קודים לקידוד ההברות הקוריאניות (אשר הועברו למקומות U+AC00 עד U+D7FF, ואזור השימוש הפרטי הועבר ל־U+D800 עד U+FAFF), והתחזיות לשימוש העתידי של קידוד 16 סיביות התבדו. מתכנני יוניקוד הבינו כי 65,536 תווים אינם מספיקים לכל הצרכים, וכך נולד UTF-16, שהוא הרחבה של גרסה 1 של יוניקוד.