ICU-1923 upgrade to Unicode 3.2: add new scripts; fix script name comparisons to perform loose matches according to Property[Value]Aliases.txt (use uprv_comparePropertyNames); make hardcoded arrays more maintainable

X-SVN-Rev: 8765
2025-04-07 22:44:49 +00:00 · 2002-06-01 00:43:07 +00:00 · 2002-06-01 00:43:07 +00:00 · 869dfa4583
commit 869dfa4583
parent 067b86e8a3
1 changed files with 133 additions and 229 deletions
--- a/icu4c/source/common/uscript.c
+++ b/icu4c/source/common/uscript.c
@ -15,6 +15,7 @@

 #include "unicode/uscript.h"
 #include "unicode/ures.h"
+#include "uprops.h"
 #include "cmemory.h"
 #include "cstring.h"

@ -43,202 +44,124 @@ static int8_t highBit(int32_t value);

 static const char kLocaleScript[] = "LocaleScript";

-static const char * const scriptNames[]={
-        "ARABIC",               /* USCRIPT_ARABIC     */
-        "ARMENIAN",             /* USCRIPT_ARMENIAN   */
-        "BENGALI",              /* USCRIPT_BENGALI    */
-        "BOPOMOFO",             /* USCRIPT_BOPOMOFO   */
-        "CANADIAN-ABORIGINAL",  /* USCRIPT_UCAS       */
-        "CHEROKEE",             /* USCRIPT_CHEROKEE   */
-        "COMMON",               /* USCRIPT_COMMON     */
-        "CYRILLIC",             /* USCRIPT_CYRILLIC   */
-        "DESERET",              /* USCRIPT_DESERET    */
-        "DEVANAGARI",           /* USCRIPT_DEVANAGARI */
-        "ETHIOPIC",             /* USCRIPT_ETHIOPIC   */
-        "GEORGIAN",             /* USCRIPT_GEORGIAN   */
-        "GOTHIC",               /* USCRIPT_GOTHIC     */
-        "GREEK",                /* USCRIPT_GREEK      */
-        "GUJARATI",             /* USCRIPT_GUJARATI   */
-        "GURMUKHI",             /* USCRIPT_GURMUKHI   */
-        "HAN",                  /* USCRIPT_HAN        */
-        "HANGUL",               /* USCRIPT_HANGUL     */
-        "HEBREW",               /* USCRIPT_HEBREW     */
-        "HIRAGANA",             /* USCRIPT_HIRAGANA   */
-        "INHERITED",            /* USCRIPT_INHERITED  */
-        "KANNADA",              /* USCRIPT_KANNADA    */
-        "KATAKANA",             /* USCRIPT_KATAKANA   */
-        "KHMER",                /* USCRIPT_KHMER      */
-        "LATIN",                /* USCRIPT_LATIN      */
-        "MALAYALAM",            /* USCRIPT_MALAYALAM  */
-        "MONGOLIAN",            /* USCRIPT_MONGOLIAN  */
-        "MYANMAR",              /* USCRIPT_MYANMAR    */
-        "OGHAM",                /* USCRIPT_OGHAM      */
-        "OLD-ITALIC",           /* USCRIPT_OLD_ITALIC */
-        "ORIYA",                /* USCRIPT_ORIYA      */
-        "RUNIC",                /* USCRIPT_RUNIC      */
-        "SINHALA",              /* USCRIPT_SINHALA    */
-        "SYRIAC",               /* USCRIPT_SYRIAC     */
-        "TAMIL",                /* USCRIPT_TAMIL      */
-        "TELUGU",               /* USCRIPT_TELUGU     */
-        "THAANA",               /* USCRIPT_THANA      */
-        "THAI",                 /* USCRIPT_THAI       */
-        "TIBETAN",              /* USCRIPT_TIBETAN    */
-        "UCAS",                 /* USCRIPT_UCAS       */
-        "YI"                    /* USCRIPT_YI         */
+/*
+ * Use pairs of (name, code) instead of separate arrays to simplify maintenance
+ * of these arrays.
+ */
+struct NameCodePair {
+    const char *name;
+    int32_t code;
+};
+typedef struct NameCodePair NameCodePair;
+
+/* script names with codes, sorted by names */
+static const NameCodePair
+scriptNames[]={
+   { "ARABIC",              USCRIPT_ARABIC      },
+   { "ARMENIAN",            USCRIPT_ARMENIAN    },
+   { "BENGALI",             USCRIPT_BENGALI     },
+   { "BOPOMOFO",            USCRIPT_BOPOMOFO    },
+   { "BUHID",               USCRIPT_BUHID       },
+   { "CANADIAN_ABORIGINAL", USCRIPT_UCAS        },
+   { "CHEROKEE",            USCRIPT_CHEROKEE    },
+   { "COMMON",              USCRIPT_COMMON      },
+   { "CYRILLIC",            USCRIPT_CYRILLIC    },
+   { "DESERET",             USCRIPT_DESERET     },
+   { "DEVANAGARI",          USCRIPT_DEVANAGARI  },
+   { "ETHIOPIC",            USCRIPT_ETHIOPIC    },
+   { "GEORGIAN",            USCRIPT_GEORGIAN    },
+   { "GOTHIC",              USCRIPT_GOTHIC      },
+   { "GREEK",               USCRIPT_GREEK       },
+   { "GUJARATI",            USCRIPT_GUJARATI    },
+   { "GURMUKHI",            USCRIPT_GURMUKHI    },
+   { "HAN",                 USCRIPT_HAN         },
+   { "HANGUL",              USCRIPT_HANGUL      },
+   { "HANUNOO",             USCRIPT_HANUNOO     },
+   { "HEBREW",              USCRIPT_HEBREW      },
+   { "HIRAGANA",            USCRIPT_HIRAGANA    },
+   { "INHERITED",           USCRIPT_INHERITED   },
+   { "KANNADA",             USCRIPT_KANNADA     },
+   { "KATAKANA",            USCRIPT_KATAKANA    },
+   { "KHMER",               USCRIPT_KHMER       },
+   { "LATIN",               USCRIPT_LATIN       },
+   { "MALAYALAM",           USCRIPT_MALAYALAM   },
+   { "MONGOLIAN",           USCRIPT_MONGOLIAN   },
+   { "MYANMAR",             USCRIPT_MYANMAR     },
+   { "OGHAM",               USCRIPT_OGHAM       },
+   { "OLD_ITALIC",          USCRIPT_OLD_ITALIC  },
+   { "ORIYA",               USCRIPT_ORIYA       },
+   { "RUNIC",               USCRIPT_RUNIC       },
+   { "SINHALA",             USCRIPT_SINHALA     },
+   { "SYRIAC",              USCRIPT_SYRIAC      },
+   { "TAGALOG",             USCRIPT_TAGALOG     },
+   { "TAGBANWA",            USCRIPT_TAGBANWA    },
+   { "TAMIL",               USCRIPT_TAMIL       },
+   { "TELUGU",              USCRIPT_TELUGU      },
+   { "THAANA",              USCRIPT_THAANA      },
+   { "THAI",                USCRIPT_THAI        },
+   { "TIBETAN",             USCRIPT_TIBETAN     },
+   { "UCAS",                USCRIPT_UCAS        },
+   { "YI",                  USCRIPT_YI          }
 };

-static const char * const scriptAbbr[]= {
-        "Arab",       /* USCRIPT_ARABIC     */
-        "Armn",       /* USCRIPT_ARMENIAN   */
-        "Beng",       /* USCRIPT_BENGALI    */
-        "Bopo",       /* USCRIPT_BOPOMOFO   */
-        "Cans",       /* USCRIPT_UCAS       */
-        "Cher",       /* USCRIPT_CHEROKEE   */
-        "Cyrl",       /* USCRIPT_CYRILLIC   */
-       /* "Cyrs",  */ /* USCRIPT_CYRILLIC   */
-        "Deva",       /* USCRIPT_DEVANAGARI */
-        "Dsrt",       /* USCRIPT_DESERET    */
-        "Ethi",       /* USCRIPT_ETHIOPIC   */
-       /* "Geoa",  */ /* USCRIPT_GEORGIAN   */
-       /* "Geon",  */ /* USCRIPT_GEORGIAN   */
-        "Geor",       /* USCRIPT_GEORGIAN   */
-        "Goth",       /* USCRIPT_GOTHIC     */
-        "Grek",       /* USCRIPT_GREEK      */
-        "Gujr",       /* USCRIPT_GUJARATI   */
-        "Guru",       /* USCRIPT_GURMUKHI   */
-        "Hang",       /* USCRIPT_HANGUL     */
-        "Hani",       /* USCRIPT_HAN        */
-        "Hebr",       /* USCRIPT_HEBREW     */
-        "Hira",       /* USCRIPT_HIRAGANA   */
-        "Ital",       /* USCRIPT_OLD_ITALIC */
-        "Kana",       /* USCRIPT_KATAKANA   */
-        "Khmr",       /* USCRIPT_KHMER      */
-        "Knda",       /* USCRIPT_KANNADA    */
-        "Lao",        /* USCRIPT_LAO        */
-        /*"Laoo",  */ /* USCRIPT_LAO        */
-        /*"Latf",  */ /* USCRIPT_LATIN      */
-        /*"Latg",  */ /* USCRIPT_LATIN      */
-        "Latn",       /* USCRIPT_LATIN      */
-        "Mlym",       /* USCRIPT_MALAYALAM  */
-        "Mong",       /* USCRIPT_MONGOLIAN  */
-        "Mymr",       /* USCRIPT_MYANMAR    */
-        "Ogam",       /* USCRIPT_OGHAM      */
-        "Orya",       /* USCRIPT_ORIYA      */
-        "Qaac",       /* USCRIPT_COPTIC     */
-        "Qaai",       /* USCRIPT_INHERITED  */
-        "Runr",       /* USCRIPT_RUNIC      */
-        "Sinh",       /* USCRIPT_SINHALA    */
-        "Syrc",       /* USCRIPT_SYRIAC     */
-       /* "Syre",  */ /* USCRIPT_SYRIAC     */
-       /* "Syrj",  */ /* USCRIPT_SYRIAC     */
-       /* "Syrn",  */ /* USCRIPT_SYRIAC     */
-        "Taml",       /* USCRIPT_TAMIL      */
-        "Telu",       /* USCRIPT_TELUGU     */
-        "Thaa",       /* USCRIPT_THANA      */
-        "Thai",       /* USCRIPT_THAI       */
-        "Tibt",       /* USCRIPT_TIBETAN    */
-        "Yiii",       /* USCRIPT_YI         */
-        "Zyyy"        /* USCRIPT_COMMON     */    
-};
-
-
-static const UScriptCode scriptNameCodes[]= {
-         USCRIPT_ARABIC     ,
-         USCRIPT_ARMENIAN   ,
-         USCRIPT_BENGALI    ,
-         USCRIPT_BOPOMOFO   ,
-         USCRIPT_UCAS       ,
-         USCRIPT_CHEROKEE   ,
-         USCRIPT_COMMON     ,
-         USCRIPT_CYRILLIC   ,
-         USCRIPT_DESERET    ,
-         USCRIPT_DEVANAGARI ,
-         USCRIPT_ETHIOPIC   ,
-         USCRIPT_GEORGIAN   ,
-         USCRIPT_GOTHIC     ,
-         USCRIPT_GREEK      ,
-         USCRIPT_GUJARATI   ,
-         USCRIPT_GURMUKHI   ,
-         USCRIPT_HAN        ,
-         USCRIPT_HANGUL     ,
-         USCRIPT_HEBREW     ,
-         USCRIPT_HIRAGANA   ,
-         USCRIPT_INHERITED  ,
-         USCRIPT_KANNADA    ,
-         USCRIPT_KATAKANA   ,
-         USCRIPT_KHMER      ,
-         USCRIPT_LATIN      ,
-         USCRIPT_MALAYALAM  ,
-         USCRIPT_MONGOLIAN  ,
-         USCRIPT_MYANMAR    ,
-         USCRIPT_OGHAM      ,
-         USCRIPT_OLD_ITALIC ,
-         USCRIPT_ORIYA      ,
-         USCRIPT_RUNIC      ,
-         USCRIPT_SINHALA    ,
-         USCRIPT_SYRIAC     ,
-         USCRIPT_TAMIL      ,
-         USCRIPT_TELUGU     ,
-         USCRIPT_THAANA     ,
-         USCRIPT_THAI       ,
-         USCRIPT_TIBETAN    ,
-         USCRIPT_UCAS       ,
-         USCRIPT_YI
-};
-
-
-static const UScriptCode scriptAbbrCodes[] = {
-        USCRIPT_ARABIC     ,
-        USCRIPT_ARMENIAN   ,
-        USCRIPT_BENGALI    ,
-        USCRIPT_BOPOMOFO   ,
-        USCRIPT_UCAS       ,
-        USCRIPT_CHEROKEE   ,
-        USCRIPT_CYRILLIC   ,
-       /* USCRIPT_CYRILLIC   , */
-        USCRIPT_DEVANAGARI ,
-        USCRIPT_DESERET    ,
-        USCRIPT_ETHIOPIC   ,
-      /*  USCRIPT_GEORGIAN   , */
-      /*  USCRIPT_GEORGIAN   , */
-        USCRIPT_GEORGIAN   ,
-        USCRIPT_GOTHIC     ,
-        USCRIPT_GREEK      ,
-        USCRIPT_GUJARATI   ,
-        USCRIPT_GURMUKHI   ,
-        USCRIPT_HANGUL     ,
-        USCRIPT_HAN        ,
-        USCRIPT_HEBREW     ,
-        USCRIPT_HIRAGANA   ,
-        USCRIPT_OLD_ITALIC ,
-        USCRIPT_KATAKANA   ,
-        USCRIPT_KHMER      ,
-        USCRIPT_KANNADA    ,
-        USCRIPT_LAO        ,
-      /*  USCRIPT_LAO        , */
-      /*  USCRIPT_LATIN      , */
-      /*  USCRIPT_LATIN      , */
-        USCRIPT_LATIN      ,
-        USCRIPT_MALAYALAM  ,
-        USCRIPT_MONGOLIAN  ,
-        USCRIPT_MYANMAR    ,
-        USCRIPT_OGHAM      ,
-        USCRIPT_ORIYA      ,
-        USCRIPT_COPTIC     ,
-        USCRIPT_INHERITED  ,
-        USCRIPT_RUNIC      ,
-        USCRIPT_SINHALA    ,
-        USCRIPT_SYRIAC     ,
-      /*  USCRIPT_SYRIAC     , */
-      /*  USCRIPT_SYRIAC     , */
-      /*  USCRIPT_SYRIAC     , */
-        USCRIPT_TAMIL      ,
-        USCRIPT_TELUGU     ,
-        USCRIPT_THAANA     ,
-        USCRIPT_THAI       ,
-        USCRIPT_TIBETAN    ,
-        USCRIPT_YI         ,
-        USCRIPT_COMMON
+/* script abbreviations with codes, sorted by abbreviations */
+static const NameCodePair
+scriptAbbr[]= {
+    { "Arab",       USCRIPT_ARABIC      },
+    { "Armn",       USCRIPT_ARMENIAN    },
+    { "Beng",       USCRIPT_BENGALI     },
+    { "Bopo",       USCRIPT_BOPOMOFO    },
+    { "Buhd",       USCRIPT_BUHID       },
+    { "Cans",       USCRIPT_UCAS        },
+    { "Cher",       USCRIPT_CHEROKEE    },
+    { "Cyrl",       USCRIPT_CYRILLIC    },
+ /* { "Cyrs",       USCRIPT_CYRILLIC    }, */
+    { "Deva",       USCRIPT_DEVANAGARI  },
+    { "Dsrt",       USCRIPT_DESERET     },
+    { "Ethi",       USCRIPT_ETHIOPIC    },
+ /* { "Geoa",       USCRIPT_GEORGIAN    }, */
+ /* { "Geon",       USCRIPT_GEORGIAN    }, */
+    { "Geor",       USCRIPT_GEORGIAN    },
+    { "Goth",       USCRIPT_GOTHIC      },
+    { "Grek",       USCRIPT_GREEK       },
+    { "Gujr",       USCRIPT_GUJARATI    },
+    { "Guru",       USCRIPT_GURMUKHI    },
+    { "Hang",       USCRIPT_HANGUL      },
+    { "Hani",       USCRIPT_HAN         },
+    { "Hano",       USCRIPT_HANUNOO     },
+    { "Hebr",       USCRIPT_HEBREW      },
+    { "Hira",       USCRIPT_HIRAGANA    },
+    { "Ital",       USCRIPT_OLD_ITALIC  },
+    { "Kana",       USCRIPT_KATAKANA    },
+    { "Khmr",       USCRIPT_KHMER       },
+    { "Knda",       USCRIPT_KANNADA     },
+    { "Lao",        USCRIPT_LAO         },
+ /* { "Laoo",       USCRIPT_LAO         }, */
+ /* { "Latf",       USCRIPT_LATIN       }, */
+ /* { "Latg",       USCRIPT_LATIN       }, */
+    { "Latn",       USCRIPT_LATIN       },
+    { "Mlym",       USCRIPT_MALAYALAM   },
+    { "Mong",       USCRIPT_MONGOLIAN   },
+    { "Mymr",       USCRIPT_MYANMAR     },
+    { "Ogam",       USCRIPT_OGHAM       },
+    { "Orya",       USCRIPT_ORIYA       },
+    { "Qaac",       USCRIPT_COPTIC      },
+    { "Qaai",       USCRIPT_INHERITED   },
+    { "Runr",       USCRIPT_RUNIC       },
+    { "Sinh",       USCRIPT_SINHALA     },
+    { "Syrc",       USCRIPT_SYRIAC      },
+ /* { "Syre",       USCRIPT_SYRIAC      }, */
+ /* { "Syrj",       USCRIPT_SYRIAC      }, */
+ /* { "Syrn",       USCRIPT_SYRIAC      }, */
+    { "Tagb",       USCRIPT_TAGBANWA    },
+    { "Taml",       USCRIPT_TAMIL       },
+    { "Telu",       USCRIPT_TELUGU      },
+    { "Tglg",       USCRIPT_TAGALOG     },
+    { "Thaa",       USCRIPT_THAANA      },
+    { "Thai",       USCRIPT_THAI        },
+    { "Tibt",       USCRIPT_TIBETAN     },
+    { "Yiii",       USCRIPT_YI          },
+    { "Zyyy",       USCRIPT_COMMON      }
 };

 static const UChar32 pairedChars[] = {
@ -269,14 +192,15 @@ static const int32_t pairedCharExtra = pairedCharCount - pairedCharPower;

 /* binary search the string array */
 U_INLINE static int 
-findStringIndex(const char* const *sortedArr, const char* target, int size){
-    int left, middle, right,rc;
+findStringIndex(const NameCodePair sortedArr[], const char *target, int32_t size) {
+    int32_t left, middle, right, rc;
+
    left =0;
    right= size-1;
    
    while(left <= right){
        middle = (left+right)/2;
-        rc=uprv_stricmp(sortedArr[middle],target);
+        rc=uprv_comparePropertyNames(sortedArr[middle].name, target);
        if(rc<0){
            left = middle+1;
        }else if(rc >0){
@ -288,32 +212,12 @@ findStringIndex(const char* const *sortedArr, const char* target, int size){
    return -1;
 }

-/*
-static int 
-findCodeIndex(const UScriptCode sorted[], const UScriptCode target, int size){
-    int left, middle, right;
-    left =0;
-    right= size-1;
-    while(left <= right){
-        middle = (left+right)/2;
-        if(sorted[middle] < target){
-            left=middle+1;
-        }else if(sorted[middle]>target){
-            right=middle-1;
-        }else{
-            return middle;
-        }
-    }
-    return -1;
-}
-*/
-
 /* linearly search the array and return the index */
 U_INLINE static int
-findCodeIndex(const UScriptCode unsorted[], const UScriptCode target, int size){
+findCodeIndex(const NameCodePair unsorted[], const UScriptCode target, int size){
    int i=0;
    while(i<size){
-        if(target == unsorted[i]){
+        if(target == unsorted[i].code){
            return i;
        }
        i++;
@ -412,17 +316,17 @@ uscript_getCode(const char* nameOrAbbrOrLocale,
        return numFilled;
    }
    /* try the Names array first */
-    strIndex = findStringIndex(scriptNames, nameOrAbbrOrLocale, sizeof(scriptNames)/sizeof(*scriptNames));
+    strIndex = findStringIndex(scriptNames, nameOrAbbrOrLocale, ARRAY_SIZE(scriptNames));
    
    if(strIndex>=0){ 
-        code = (UScriptCode) scriptNameCodes[strIndex];
+        code = (UScriptCode) scriptNames[strIndex].code;
        len = 1;
    }
    /* we did not find in names array so try abbr array*/
    if(code ==USCRIPT_INVALID_CODE){
-        strIndex = findStringIndex(scriptAbbr, nameOrAbbrOrLocale, sizeof(scriptAbbr)/sizeof(*scriptAbbr));
+        strIndex = findStringIndex(scriptAbbr, nameOrAbbrOrLocale, ARRAY_SIZE(scriptAbbr));
        if(strIndex>=0){ 
-            code = (UScriptCode) scriptAbbrCodes[strIndex];
+            code = (UScriptCode) scriptAbbr[strIndex].code;
            len = 1;
        }
    }
@ -440,8 +344,8 @@ uscript_getCode(const char* nameOrAbbrOrLocale,
                    if(U_SUCCESS(*err)){
                        char cName[50] = {'\0'};
                        u_UCharsToChars(name,cName,len);
-                        index = findStringIndex(scriptAbbr, cName, sizeof(scriptAbbr)/sizeof(*scriptAbbr));
-                        code = (UScriptCode) scriptAbbrCodes[index];
+                        index = findStringIndex(scriptAbbr, cName, ARRAY_SIZE(scriptAbbr));
+                        code = (UScriptCode) scriptAbbr[index].code;
                        /* got the script code now fill in the buffer */
                        if(numFilled<=capacity){ 
                            *(fillIn)++=code;
@ -478,9 +382,9 @@ uscript_getName(UScriptCode scriptCode){
    if(scriptCode > USCRIPT_CODE_LIMIT){
        return "";
    }
-    index = findCodeIndex(scriptNameCodes,scriptCode,sizeof(scriptNameCodes)/sizeof(*scriptNameCodes));
+    index = findCodeIndex(scriptNames, scriptCode, ARRAY_SIZE(scriptNames));
    if(index >=0){
-        return scriptNames[index];
+        return scriptNames[index].name;
    }else{
       return "";
    }
@ -492,9 +396,9 @@ uscript_getShortName(UScriptCode scriptCode){
    if(scriptCode > USCRIPT_CODE_LIMIT){
        return "";
    }
-    index = findCodeIndex(scriptAbbrCodes,scriptCode,sizeof(scriptAbbrCodes)/sizeof(*scriptAbbrCodes));
+    index = findCodeIndex(scriptAbbr, scriptCode, ARRAY_SIZE(scriptAbbr));
    if(index >=0){
-        return scriptAbbr[index];
+        return scriptAbbr[index].name;
    }else{
       return "";
    }