מחשביםטכנולוגיית המידע

קידוד "Unicode": תקן קידוד תווים

כל משתמש אינטרנט בניסיון להגדיר אחד מהשניים תפקידו לפחות פעם ראיתי על המסך כתוב באותיות לטיניות את המילה "Unicode." מה זה, תלמד על ידי קריאת מאמר זה.

הגדרה

"Unicode" קידוד - תקן קידוד תווים. הוצע על ידי ארגון ללא כוונת רווח Unicode Inc. ב 1991. ההתקן נועד להפגיש את המספר הגדול ביותר האפשרי של סוגים שונים של דמויות במסמך. עמוד, אשר הוקם על הבסיס ממנו, יכול להכיל אותיות ותווים משפות שונות (מרוסית הקוריאנית) וסימנים מתמטיים. במקרה זה, כל הדמויות בערכת התווים מוצגים ללא כל בעיות.

הסיבות ליצירה

פעם, הרבה לפני הופעתו של מערכת יחידת קידוד "Unicode" נבחר על בסיס ההעדפות של מחבר המסמך. מסיבה זו, לעתים קרובות לקרוא מסמך, היה צורך להשתמש בטבלאות שונות. לפעמים יש צורך לעשות מספר פעמים, שבעליל מסבך את החיים של המשתמש הממוצע. כפי שכבר הוזכר, הפתרון לבעיה זו ב 1991 הוזמן Inc. Unicode ארגון ללא כוונת רווח להציע סוג חדש של קידוד תווים. הוא תוכנן לשלב מיושן ועוד מגוון של סטנדרטים. "Unicode" - קידוד כי ozvolila להשיג את הדעת בזמנו: כדי ליצור כלי שתומך מספר עצום של דמויות. התוצאה עלתה על ציפיות רבות - היו מסמכים המכילים זמנית הוא טקסט באנגלית רוסי, לטיני, וביטויים מתמטיים.

אבל יצירת קידוד אחיד קדם את הצורך לפתור מספר בעיות שהתעוררו בשל המגוון העצום של סטנדרטים כבר קיימים באותה התקופה. הסוג הנפוץ ביותר של אותם:

  • בכתב גמדיים, או "ג'יבריש";
  • המגבלות של מערכת תווים;
  • בעיה להפוך codings;
  • שכפול גופן.

excursus ההסטורי קטן

תארו לעצמכם כי 80 בחצר. חומרת מחשב היא לא כל כך נפוצה ויש לו צורה שונה מהיום. בעוד כל מערכת הפעלה הוא ייחודי ומעודן כל הצרכים הספציפיים של חובבי. Need for החילוף מידע מומר הכל חוזר נוסף. מנסה לקרוא מסמך שנוצר על ידי מערכת הפעלה אחרת, לעתים קרובות מציג שורה מוזרה של דמויות, והמשחק מתחיל עם הקידוד. זה לא תמיד עושה את זה מהר, ולפעמים מסמך דרושים ניתן לפתוח בתוך שישה חודשים, ואף מאוחר יותר. אנשים המרבים להחליף מידע, ליצור לעצמם טבלת המרה. ואז לעבוד עליהם חושף פרט מעניין: הצורך ליצור אותם בשני כיוונים, "מן שלי שלך" קדימה ואחורה. הפוך מכונת מחשוב היפוך בנאלי לא יכולה, זה בעמודה הימנית של המקור, ואת שמאלי - התוצאה, אך לא להיפך. אם אתה רואה את הצורך להשתמש בכל התווים המיוחדים במסמך, הם היו צריכים להתווסף הראשונה, ולאחר מכן עוד, וכדי להסביר את השותף מה שהוא צריך לעשות כדי תווים אלה אינם הופכים "ג'יבריש". ובואו לא נשכח שלכל קידוד נאלצו לפתח או ליישם גופנים משלהם, אשר הובילה ליצירת מספר עצום של כפילויות במערכת ההפעלה.

תארו לעצמכם שכל הגופנים בעמוד, תוכלו לראות 10 חתיכות של רומי ניו טיימס זהה עם פתק קטן: עבור UTF-8, UTF-16, ANSI, UCS-2. עכשיו אתה מבין את הפיתוח של סטנדרטים אוניברסליים היה הכרחי?

"אבות המייסדים של היוצרים"

מקורותיה של יצירת Unicode להימצא 1987 כאשר Dzho Bekker מן Xerox, יחד עם Lee קולינס ומארק דיוויס מן אפל החלה במחקר בתחום היצירה המעשית של סט אופי אוניברסלי. בחודש אוגוסט 1988, Dzho Bekker פרסם טיוטת הצעה ליצירת 16-bit רב-לשוני מערכת קידוד בינלאומי.

כמה חודשים לאחר מכן קבוצת עבודת Unicode הורחבה לכלול קן ויסלר ומייק Kernegana מן RLG, גלן Rayt של סאן מיקרוסיסטמס וכמה מומחים אחרים, מה שמאפשר את השלמת העבודה על ההיווצרות הראשונית של תקן קידוד משותף.

תיאור כללי

Unicode מבוסס על הרעיון של הסמל. תחת הגדרה זו מתייחסת למקרים בהם קיימת תופעה מופשטת כי קיים בצורה מסוימת של כתיבה והבנתי דרך גרפמה ( "דיוקנאות" שלהם). כל דמות ניתנת בקוד "Unicode" הייחודי השייך תקן יחיד בפרט. B גרפמה לדוגמא הוא גם באנגלית אלפבית רוסי, אבל זה מתאים Unicode 2 תווים שונים. הם כפופים המרה לאותיות קטנות, t. E., שכל אחד מהם מתאר את הנתונים העיקריים, סט של תכונות ואת שמו המלא.

היתרונות של Unicode

מאת מלחינים אחרים בני זמנו קידוד "Unicode" יש מלאי עצום של סימנים עבור תווי "הצפנה". העובדה קודמיו היו 8 ביטים, כי הוא נתמך על ידי 28 תווים, אבל העיצוב החדש היה כבר 216 תווים, כי היה צעד ענק קדימה. לקודד מותר זה כמעט כל אלפבית קיים משותף.

עם כניסתו של "Unicode" כבר לא צריך להשתמש טבלת המרה: כתקן יחיד זה רק שללו את הצורך בהם. באופן דומה, הם שקעו בתהום הנשייה, ועל "ג'יבריש" - תקן יחיד עשה אותם בלתי אפשרי, כמו גם לשלול את הצורך ליצור גופנים כפולים.

פיתוח של Unicode

כמובן, ההתקדמות היא לא במקום, ומאז ההצגה הראשונה עברה במשך 25 שנים. עם זאת, charset "Unicode" ישמור על מיקומו שלה בעקשנות בעולם. במובנים רבים זה כבר מתאפשר הודות לעובדה שהוא הפך קל ליישם התפשט, שיזהה מפתחי תוכנות קוד קניינים (בתשלום) ופתוחות.

אנחנו לא צריכים להאמין שהיום אנו רואים את אותו הקוד "Unicode" כמו לפני רבע מאה. כרגע, הוא הוחלף על ידי הגרסה 5.h.h, ומספר סימני מקודד גדל ל 231. על האפשרות של שימוש מרווח גדול יותר סימני סירב עדיין לשמור תמיכת Unicode-16 (קידוד, איפה את הסכום המקסימאלי של המספר שלהם המוגבל 216). מאז הקמתה ועד גרסת 2.0.0 "תקן Unicode" הגדיל את מספר התווים שהיא כללה כמעט 2 פעמים. הזדמנויות והמשך צמיחה בשנים הקרובות. לקבלת גירסה 4.0.0 כבר קיים צורך להגדיל את רמת עצמו, וכי נעשה. כתוצאה מכך, "Unicode" מצא הצורה שבה אנחנו מכירים אותה כיום.

מהו אחר Unicode?

בנוסף המכריע, מתעדכן כל הזמן עם מספר תווים, מידע בטקסט "Unicode" -Encoding הוא עוד תכונה שימושית. זהו נורמליזציה שנקרא. במקום לגלול את אופי המסמך כולו על ידי דמות, ואת להחליף את האייקונים של שולחן ההתכתבות, השתמש באחת אלגוריתמי הנורמליזציה קיים. מה זה?

במקום לבזבז את המשאבים של המחשב על מחאה רגילה של אותה הדמות, אשר עשוי להיות דומה באלפבית שונה, באמצעות אלגוריתם מיוחד. זה מאפשר לך לבצע טבלת חיפוש בטור נפרדת סימנים דומים חל כבר אליהם, לא שוב ושוב לחזור ולבדוק את כל הנתונים.

אלגוריתמים כאלו פתחו ויישמו ארבעה. כל המרה מתרחשת על ידי עיקרון מוחלט בהחלט, שונה מן האחרים, כך לקרוא כל אחד מהם אינו אפשרי ביותר והיעיל. כל המיועדים לצרכים הספציפיים, היה מוטבע והשתמשו בהצלחה.

תקן להפצה

בשנת 25 השנים של קידוד בתולדותיה "Unicode" קיבלתי כנראה הנפוצה ביותר בעולם. בהתאם לתקן זה מותאם כמו תוכניות ודפי אינטרנט. רוחב היריעה של יישום עשויה להצביע על כך Unicode כעת בשימוש על ידי יותר מ 60% של משאבי אינטרנט.

עכשיו, אתה יודע, כאשר "Unicode" התקן הופיע. מה זה, אתה גם יודע להיות מסוגל להעריך את המשמעות המלאה של ההמצאה, שנעשתה על ידי קבוצה של מומחי Unicode Inc. לפני יותר 25 שנים.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 iw.birmiss.com. Theme powered by WordPress.