source: icGREP/icgrep-devel/UCD-scripts/UCD_properties.py @ 5669

Last change on this file since 5669 was 5669, checked in by cameron, 21 months ago

Full casing properties

File size: 20.2 KB
Line 
1#
2# UCD_properties.py - parsing Unicode Character Database (UCD) files
3# and generating C headers for property data using a compact bitset
4# representation.
5#
6# Robert D. Cameron
7# January 2, 2015
8#
9# Licensed under Open Software License 3.0.
10#
11#
12import re, string, os.path, cformat, UCD_config
13from unicode_set import *
14from UCD_parser import *
15from UCD_property_objects import *
16
17PropertyAliases_template = r"""
18namespace UCD {
19    enum property_t {
20        %s};
21    const static std::vector<std::string> property_enum_name = {
22        %s};
23    const static std::vector<std::string> property_full_name = {
24        %s};
25    static std::unordered_map<std::string, int> alias_map {{
26        %s}};
27}
28"""
29
30EnumeratedProperty_template = r"""
31    namespace %s_ns {
32        enum value_t {
33            %s};
34        const static std::vector<std::string> enum_names = {
35            %s};
36        const static std::vector<std::string> value_names = {
37            %s};
38        static std::unordered_map<std::string, int> aliases_only_map {{
39            %s}};
40    }
41"""
42
43def emit_string_property(f, property_code, null_set, reflexive_set, cp_value_map):
44    s = string.Template(r"""    namespace ${prop_enum_up}_ns {
45        /** Code Point Ranges for ${prop_enum} mapping to <none>
46        ${null_set_ranges}**/
47
48        const UnicodeSet null_codepoint_set
49        ${null_set_value};
50
51        /** Code Point Ranges for ${prop_enum} mapping to <codepoint>
52        ${reflexive_set_ranges}**/
53        const UnicodeSet reflexive_set
54        ${reflexive_set_value};
55
56        const unsigned buffer_length = ${buffer_length};
57        const static char __attribute__ ((aligned (32))) string_buffer[${allocation_length}] = u8R"__(${string_buffer})__";
58
59        const static std::vector<codepoint_t> defined_cps = {
60        ${explicitly_defined_cps}};
61        static StringPropertyObject property_object(${prop_enum},
62                                                    null_codepoint_set,
63                                                    reflexive_set,
64                                                    static_cast<const char *>(string_buffer),
65                                                    buffer_length,
66                                                    defined_cps);
67    }
68""")
69    cps = sorted(cp_value_map.keys())
70    string_buffer = ""
71    for cp in cps: 
72        string_buffer += cp_value_map[cp] + "\n"
73    buffer_length = len(string_buffer.encode("utf-8"))
74    f.write(s.substitute(prop_enum = property_code,
75    prop_enum_up = property_code.upper(),
76    string_buffer = string_buffer,
77    buffer_length = buffer_length,
78    allocation_length = (buffer_length + 255) & -256,
79    null_set_ranges = cformat.multiline_fill(['[%04x, %04x]' % (lo, hi) for (lo, hi) in uset_to_range_list(null_set)], ',', 8),
80    null_set_value = null_set.showC(12),
81    reflexive_set_ranges = cformat.multiline_fill(['[%04x, %04x]' % (lo, hi) for (lo, hi) in uset_to_range_list(reflexive_set)], ',', 8),
82    reflexive_set_value = reflexive_set.showC(12),
83    explicitly_defined_cp_count = len(cps),
84    explicitly_defined_cps = cformat.multiline_fill(['0x%04x' % cp for cp in cps], ',', 8)
85    ))
86
87
88def emit_binary_property(f, property_code, property_set):
89    f.write("    namespace %s_ns {\n" % property_code.upper())
90    f.write("        /** Code Point Ranges for %s\n        " % property_code)
91    f.write(cformat.multiline_fill(['[%04x, %04x]' % (lo, hi) for (lo, hi) in uset_to_range_list(property_set)], ',', 8))
92    f.write("**/\n")
93    f.write("        const UnicodeSet codepoint_set \n")
94    f.write(property_set.showC(12) + ";\n")
95    f.write("        static BinaryPropertyObject property_object{%s, codepoint_set};\n    }\n" % property_code)
96
97def emit_enumerated_property(f, property_code, independent_prop_values, prop_values, value_map):
98    f.write("  namespace %s_ns {\n" % property_code.upper())
99    f.write("    const unsigned independent_prop_values = %s;\n" % independent_prop_values)
100    for v in prop_values:
101        f.write("    /** Code Point Ranges for %s\n    " % v)
102        f.write(cformat.multiline_fill(['[%04x, %04x]' % (lo, hi) for (lo, hi) in uset_to_range_list(value_map[v])], ',', 4))
103        f.write("**/\n")
104        f.write("    const UnicodeSet %s_Set \n" % v.lower())
105        f.write(value_map[v].showC(8) + ";\n")
106    set_list = ['&%s_Set' % v.lower() for v in prop_values]
107    f.write("    static EnumeratedPropertyObject property_object\n")
108    f.write("        {%s,\n" % property_code)
109    f.write("         %s_ns::independent_prop_values,\n" % property_code.upper())
110    f.write("         %s_ns::enum_names,\n" % property_code.upper())
111    f.write("         %s_ns::value_names,\n" % property_code.upper())
112    f.write("         %s_ns::aliases_only_map,\n" % property_code.upper())
113    f.write("         {")
114    f.write(cformat.multiline_fill(set_list, ',', 8))
115    f.write("\n         }};\n    }\n")
116
117def emit_Obsolete_property(f, property_code):
118    s = string.Template(r"""    namespace ${prop_enum_up}_ns {
119        static ObsoletePropertyObject property_object(${prop_enum});
120    }
121""")
122    f.write(s.substitute(prop_enum = property_code, prop_enum_up = property_code.upper()))
123
124
125class UCD_generator():
126    def __init__(self):
127        self.supported_props = []
128        self.property_data_headers = []
129        self.missing_specs = {}
130        self.binary_properties = {}
131
132    def load_property_name_info(self):
133        (self.property_enum_name_list, self.property_object_map) = parse_PropertyAlias_txt()
134        self.property_lookup_map = getPropertyLookupMap(self.property_object_map)
135        self.full_name_map = {}
136        for p in self.property_enum_name_list:
137            self.full_name_map[p] = self.property_object_map[p].getPropertyFullName()
138
139
140    def generate_PropertyAliases_h(self):
141        f = cformat.open_header_file_for_write('PropertyAliases')
142        cformat.write_imports(f, ["<string>", "<unordered_map>", "<vector>"])
143        enum_text = cformat.multiline_fill(self.property_enum_name_list, ',', 8)
144        enum_text2 = cformat.multiline_fill(['"%s"' % e for e in self.property_enum_name_list], ',', 8)
145        full_name_text = cformat.multiline_fill(['"%s"' % self.full_name_map[e] for e in self.property_enum_name_list], ',', 8)
146        map_text = cformat.multiline_fill(['{"%s", %s}' % (k, self.property_lookup_map[k]) for k in sorted(self.property_lookup_map.keys())], ',', 8)
147        f.write(PropertyAliases_template % (enum_text, enum_text2, full_name_text, map_text))
148        cformat.close_header_file(f)
149
150    def load_property_value_info(self):
151        initializePropertyValues(self.property_object_map, self.property_lookup_map)
152
153    def generate_PropertyValueAliases_h(self):
154        f = cformat.open_header_file_for_write('PropertyValueAliases')
155        cformat.write_imports(f, ['"PropertyAliases.h"', "<vector>", "<unordered_map>", "<string>"])
156        f.write("namespace UCD {\n")
157        #  Generate the aliases for all Binary properties.
158        enum_text = cformat.multiline_fill(['N', 'Y'], ',', 12)
159        enum_names = cformat.multiline_fill(['"N"', '"Y"'], ',', 12)
160        full_name_text = cformat.multiline_fill(['"No"', '"Yes"'], ',', 12)
161        binary_properties = ['{"n", N}', '{"y", Y}', '{"no", N}', '{"yes", Y}', '{"f", N}', '{"t", Y}', '{"false", N}', '{"true", Y}']
162        binary_map_text = cformat.multiline_fill(binary_properties, ',', 12)
163        f.write(EnumeratedProperty_template % ('Binary', enum_text, enum_names, full_name_text, binary_map_text))
164        #
165        for p in self.property_enum_name_list:
166            po = self.property_object_map[p]
167            if isinstance(po, EnumeratedPropertyObject):
168                ordered_enum_list = po.property_value_list
169                enum_text = cformat.multiline_fill(ordered_enum_list, ',', 12)
170                enum_names = cformat.multiline_fill(['"%s"' % s for s in ordered_enum_list], ',', 12)
171                if p == 'ccc': # Special case: add numeric value information for ccc.
172                    enum_text += r"""
173        };
174        const uint16_t enum_val[] = {
175        """
176                    enum_text += "      " + cformat.multiline_fill(["%s" % (po.property_value_enum_integer[e]) for e in ordered_enum_list], ',', 12)
177                full_names = [po.property_value_full_name_map[e] for e in ordered_enum_list]
178                full_name_text = cformat.multiline_fill(['"%s"' % name for name in full_names], ',', 12)
179                canon_full_names = [canonicalize(name) for name in full_names]
180                canon_enums = [canonicalize(e) for e in ordered_enum_list]
181                canon_keys = [canonicalize(k) for k in po.property_value_lookup_map.keys()]
182                aliases_only = []
183                for k in canon_keys:
184                    if k in canon_enums: continue
185                    if k in canon_full_names: continue
186                    if k in aliases_only: continue
187                    aliases_only.append(k)
188                map_text = cformat.multiline_fill(['{"%s", %s_ns::%s}' % (k, p.upper(), po.property_value_lookup_map[k]) for k in sorted(aliases_only)], ',', 12)
189                f.write(EnumeratedProperty_template % (p.upper(), enum_text, enum_names, full_name_text, map_text))
190        f.write("}\n")
191        cformat.close_header_file(f)
192
193    def emit_property(self, f, property_code):
194        property_object = self.property_object_map[property_code]
195        if isinstance(property_object, BinaryPropertyObject):
196            emit_binary_property(f, property_code, property_object.value_map['Y'])
197            print("%s: %s bytes" % (property_object.getPropertyFullName(), property_object.value_map['Y'].bytes()))
198        elif isinstance(property_object, EnumeratedPropertyObject):
199            prop_values = property_object.name_list_order
200            independent_prop_values = property_object.independent_prop_values
201            emit_enumerated_property(f, property_code, independent_prop_values, prop_values, property_object.value_map)
202            print("%s: %s bytes" % (property_object.getPropertyFullName(), sum([property_object.value_map[v].bytes() for v in property_object.value_map.keys()])))
203        elif isinstance(property_object, StringPropertyObject):
204            emit_string_property(f, property_code, property_object.null_str_set, property_object.reflexive_set, property_object.cp_value_map)
205        elif isinstance(property_object, ObsoletePropertyObject):
206            emit_Obsolete_property(f, property_code)
207        else: return
208        self.supported_props.append(property_code)
209
210    def generate_property_value_file(self, filename_root, property_code):
211        property_object = self.property_object_map[property_code]
212        parse_property_data(self.property_object_map[property_code], filename_root + '.txt')
213        basename = os.path.basename(filename_root)
214        f = cformat.open_header_file_for_write(basename)
215        cformat.write_imports(f, ['"PropertyAliases.h"', '"PropertyObjects.h"', '"PropertyValueAliases.h"', '"unicode_set.h"'])
216        f.write("\nnamespace UCD {\n")
217        self.emit_property(f, property_code)
218        f.write("}\n")
219        cformat.close_header_file(f)
220        self.property_data_headers.append(basename)
221
222    def generate_multisection_properties_file(self, filename_root):
223        props = parse_multisection_property_data(filename_root + '.txt', self.property_object_map, self.property_lookup_map)
224        #(props, prop_map) = parse_UCD_codepoint_name_map(filename_root + '.txt', self.property_lookup_map)
225        basename = os.path.basename(filename_root)
226        f = cformat.open_header_file_for_write(basename)
227        cformat.write_imports(f, ['"PropertyAliases.h"', '"PropertyObjects.h"', '"PropertyValueAliases.h"', '"unicode_set.h"'])
228        f.write("\nnamespace UCD {\n")
229        for p in sorted(props):
230            self.emit_property(f, p)
231            property_object = self.property_object_map[p]
232        f.write("}\n\n")
233        cformat.close_header_file(f)
234        self.property_data_headers.append(basename)
235
236    def generate_multicolumn_properties_file(self, filename_root, prop_code_list):
237        props = parse_multicolumn_property_data(filename_root + '.txt', self.property_object_map, self.property_lookup_map, prop_code_list)
238        #(props, prop_map) = parse_UCD_codepoint_name_map(filename_root + '.txt', self.property_lookup_map)
239        basename = os.path.basename(filename_root)
240        f = cformat.open_header_file_for_write(basename)
241        cformat.write_imports(f, ['"PropertyAliases.h"', '"PropertyObjects.h"', '"PropertyValueAliases.h"', '"unicode_set.h"'])
242        f.write("\nnamespace UCD {\n")
243        for p in prop_code_list:
244            self.emit_property(f, p)
245            property_object = self.property_object_map[p]
246        f.write("}\n\n")
247        cformat.close_header_file(f)
248        self.property_data_headers.append(basename)
249
250    def generate_UnicodeData_h(self):
251        basename = 'UnicodeData'
252        parse_UnicodeData_txt(self.property_object_map)
253        f = cformat.open_header_file_for_write(basename)
254        cformat.write_imports(f, ['"PropertyAliases.h"', '"PropertyObjects.h"', '"PropertyValueAliases.h"', '"unicode_set.h"'])
255        prop_code_list = ['na', 'dm', 'suc', 'slc', 'stc', 'na1', 'isc']
256        f.write("\nnamespace UCD {\n")
257        for p in prop_code_list:
258            self.emit_property(f, p)
259            property_object = self.property_object_map[p]
260        f.write("}\n\n")
261        cformat.close_header_file(f)
262        self.property_data_headers.append(basename)
263
264    def generate_SpecialCasing_h(self):
265        basename = 'SpecialCasing'
266        parse_SpecialCasing_txt(self.property_object_map)
267        f = cformat.open_header_file_for_write(basename)
268        cformat.write_imports(f, ['"PropertyAliases.h"', '"PropertyObjects.h"', '"PropertyValueAliases.h"', '"unicode_set.h"'])
269        f.write("\nnamespace UCD {\n")
270        for p in ['lc', 'uc', 'tc']:
271            self.emit_property(f, p)
272            property_object = self.property_object_map[p]
273        f.write("}\n\n")
274        cformat.close_header_file(f)
275        self.property_data_headers.append(basename)
276
277    def generate_ScriptExtensions_h(self):
278        filename_root = 'ScriptExtensions'
279        property_code = 'scx'
280        extension_object = self.property_object_map['scx']
281        extension_object.setBaseProperty(self.property_object_map['sc'])
282        parse_property_data(extension_object, filename_root+'.txt')
283        basename = os.path.basename(filename_root)
284        f = cformat.open_header_file_for_write(basename)
285        cformat.write_imports(f, ['"PropertyAliases.h"', '"PropertyObjects.h"', '"PropertyValueAliases.h"', '"unicode_set.h"'])
286        prop_list = self.property_object_map['sc'].name_list_order
287        value_map = extension_object.value_map
288        f.write("\nnamespace UCD {\n")
289        f.write("    namespace SCX_ns {\n")
290        for v in prop_list:
291            f.write("        /** Code Point Ranges for %s\n        " % v)
292            f.write(cformat.multiline_fill(['[%04x, %04x]' % (lo, hi) for (lo, hi) in uset_to_range_list(value_map[v])], ',', 8))
293            f.write("**/\n")
294            f.write("        const UnicodeSet %s_Ext \n" % v.lower())
295            f.write(value_map[v].showC(12) + ";\n")
296        set_list = ['&%s_Ext' % v.lower() for v in prop_list]
297        f.write("        static ExtensionPropertyObject property_object\n")
298        f.write("       {%s,\n" % property_code)
299        f.write("        UCD::sc,\n")
300        f.write("       {")
301        f.write(cformat.multiline_fill(set_list, ',', 8))
302        f.write("\n        }};\n    }\n}\n")
303        cformat.close_header_file(f)
304        print("%s: %s bytes" % (basename, sum([value_map[v].bytes() for v in value_map.keys()])))
305        self.supported_props.append(property_code)
306        self.property_data_headers.append(basename)
307
308    def generate_PropertyObjectTable_h(self):
309        f = cformat.open_header_file_for_write('PropertyObjectTable')
310        cformat.write_imports(f, ['"PropertyObjects.h"', '"PropertyAliases.h"', '<array>'])
311        cformat.write_imports(f, ['"%s.h"' % fname for fname in self.property_data_headers])
312        f.write("\nnamespace UCD {\n")
313        objlist = []
314        for p in self.property_enum_name_list:
315            k = self.property_object_map[p].getPropertyKind()
316            if p in self.supported_props:
317                objlist.append("&%s_ns::property_object" % p.upper())
318            else:
319                objlist.append("new UnsupportedPropertyObject(%s, PropertyObject::ClassTypeId::%sProperty)" % (p, k))
320        f.write("\n  const std::array<PropertyObject *, %i> property_object_table = {{\n    " % len(objlist))
321        f.write(",\n    ".join(objlist) + '  }};\n}\n')
322        cformat.close_header_file(f)
323
324    def generate_UCD_Config_h(self):
325        setVersionfromReadMe_txt()
326        f = cformat.open_header_file_for_write('UCD_Config')
327        f.write("\nnamespace UCD {\n")
328        f.write("   const std::string UnicodeVersion = \"%s\";\n" % UCD_config.version)
329        f.write("}\n")
330        cformat.close_header_file(f)
331
332
333
334def UCD_main():
335    ucd = UCD_generator()
336
337    # First parse all property names and their aliases
338    ucd.load_property_name_info()
339    #
340    # Generate the PropertyAliases.h file to define all the Unicode property_t enum
341    # and the basic property information.
342    ucd.generate_PropertyAliases_h()
343    #
344    # Next parse all property value names and their aliases.  Generate the data.
345    ucd.load_property_value_info()
346
347    ucd.generate_UnicodeData_h()
348   
349    ucd.generate_SpecialCasing_h()
350   
351    #
352    # The Age property
353    ucd.generate_property_value_file('DerivedAge', 'age')
354    #
355    # The Block property
356    ucd.generate_property_value_file('Blocks', 'blk')
357   
358    # Scripts
359    ucd.generate_property_value_file('Scripts', 'sc')
360    #
361    # # Script Extensions
362    ucd.generate_ScriptExtensions_h()
363    # #
364    # General Category
365    ucd.generate_property_value_file('extracted/DerivedGeneralCategory', 'gc')
366   
367    # Binary properties from PropList.txt
368    ucd.generate_multisection_properties_file('PropList')
369   
370    # Binary properties from DerivedCoreProperties.txt
371    ucd.generate_multisection_properties_file('DerivedCoreProperties')
372    #
373    #
374    # LineBreak types
375    #ucd.generate_property_value_file('extracted/DerivedLineBreak', 'lb')
376    ucd.generate_property_value_file('LineBreak', 'lb')
377    #
378    # Grapheme Cluster Break property
379    ucd.generate_property_value_file('auxiliary/GraphemeBreakProperty', 'GCB')
380    #
381    # Sentence Break property
382    ucd.generate_property_value_file('auxiliary/SentenceBreakProperty', 'SB')
383    #
384    # Word Break property
385    ucd.generate_property_value_file('auxiliary/WordBreakProperty', 'WB')
386    #
387    # East Asian Width - can use either source
388    ucd.generate_property_value_file('EastAsianWidth', 'ea')
389    #ucd.generate_property_value_file('extracted/DerivedEastAsianWidth', 'ea')
390    #
391    # Hangul Syllable Type
392    ucd.generate_property_value_file('HangulSyllableType', 'hst')
393    #
394    ucd.generate_multisection_properties_file('extracted/DerivedBinaryProperties')
395    # #
396    # # Canonical_Combining_Class
397    ucd.generate_property_value_file('extracted/DerivedCombiningClass', 'ccc')
398    #
399    # Decomposition Type
400    ucd.generate_property_value_file('extracted/DerivedDecompositionType', 'dt')
401    #
402    # Joining Group and Type
403    ucd.generate_property_value_file('extracted/DerivedJoiningGroup', 'jg')
404    ucd.generate_property_value_file('extracted/DerivedJoiningType', 'jt')
405    #
406    # Numeric Type and Value
407    ucd.generate_property_value_file('extracted/DerivedNumericType', 'nt')
408    #ucd.generate_property_value_file('extracted/DerivedNumericValue', 'nv')
409    #
410    # Normalization properties.
411    ucd.generate_multisection_properties_file('DerivedNormalizationProps')
412    #
413    # Bidirectional properties
414    ucd.generate_property_value_file('extracted/DerivedBidiClass', 'bc')
415    ucd.generate_multicolumn_properties_file('BidiBrackets', ['bpb', 'bpt'])
416    ucd.generate_property_value_file('BidiMirroring', 'bmg')
417
418    # Indic properties
419    ucd.generate_property_value_file('IndicPositionalCategory', 'InPC')
420    ucd.generate_property_value_file('IndicSyllabicCategory', 'InSC')
421
422    ucd.generate_property_value_file('CompositionExclusions', 'CE')
423    #
424    ucd.generate_property_value_file('Jamo', 'JSN')
425    #
426    #
427    #
428    ucd.generate_PropertyValueAliases_h()
429
430    ucd.generate_PropertyObjectTable_h()
431
432    ucd.generate_UCD_Config_h()
433
434if __name__ == "__main__":
435  UCD_main()
Note: See TracBrowser for help on using the repository browser.