source: icGREP/icgrep-devel/UCD-scripts/UCD_properties.py @ 5673

Last change on this file since 5673 was 5673, checked in by cameron, 21 months ago

Case folding property objects

File size: 28.9 KB
Line 
1#
2# UCD_properties.py - parsing Unicode Character Database (UCD) files
3# and generating C headers for property data using a compact bitset
4# representation.
5#
6# Robert D. Cameron
7# January 2, 2015
8#
9# Licensed under Open Software License 3.0.
10#
11#
12import re, string, os.path, cformat, UCD_config
13from unicode_set import *
14from UCD_parser import *
15from UCD_property_objects import *
16
17PropertyAliases_template = r"""
18namespace UCD {
19    enum property_t {
20        %s};
21    const static std::vector<std::string> property_enum_name = {
22        %s};
23    const static std::vector<std::string> property_full_name = {
24        %s};
25    static std::unordered_map<std::string, int> alias_map {{
26        %s}};
27}
28"""
29
30EnumeratedProperty_template = r"""
31    namespace %s_ns {
32        enum value_t {
33            %s};
34        const static std::vector<std::string> enum_names = {
35            %s};
36        const static std::vector<std::string> value_names = {
37            %s};
38        static std::unordered_map<std::string, int> aliases_only_map {{
39            %s}};
40    }
41"""
42
43def emit_string_property(f, property_code, null_set, reflexive_set, cp_value_map):
44    s = string.Template(r"""    namespace ${prop_enum_up}_ns {
45        /** Code Point Ranges for ${prop_enum} mapping to <none>
46        ${null_set_ranges}**/
47
48        const UnicodeSet null_codepoint_set
49        ${null_set_value};
50
51        /** Code Point Ranges for ${prop_enum} mapping to <codepoint>
52        ${reflexive_set_ranges}**/
53        const UnicodeSet reflexive_set
54        ${reflexive_set_value};
55
56        const unsigned buffer_length = ${buffer_length};
57        const static char __attribute__ ((aligned (32))) string_buffer[${allocation_length}] = u8R"__(${string_buffer})__";
58
59        const static std::vector<codepoint_t> defined_cps = {
60        ${explicitly_defined_cps}};
61        static StringPropertyObject property_object(${prop_enum},
62                                                    null_codepoint_set,
63                                                    reflexive_set,
64                                                    static_cast<const char *>(string_buffer),
65                                                    buffer_length,
66                                                    defined_cps);
67    }
68""")
69    cps = sorted(cp_value_map.keys())
70    string_buffer = ""
71    for cp in cps: 
72        string_buffer += cp_value_map[cp] + "\n"
73    buffer_length = len(string_buffer.encode("utf-8"))
74    f.write(s.substitute(prop_enum = property_code,
75    prop_enum_up = property_code.upper(),
76    string_buffer = string_buffer,
77    buffer_length = buffer_length,
78    allocation_length = (buffer_length + 255) & -256,
79    null_set_ranges = cformat.multiline_fill(['[%04x, %04x]' % (lo, hi) for (lo, hi) in uset_to_range_list(null_set)], ',', 8),
80    null_set_value = null_set.showC(12),
81    reflexive_set_ranges = cformat.multiline_fill(['[%04x, %04x]' % (lo, hi) for (lo, hi) in uset_to_range_list(reflexive_set)], ',', 8),
82    reflexive_set_value = reflexive_set.showC(12),
83    explicitly_defined_cp_count = len(cps),
84    explicitly_defined_cps = cformat.multiline_fill(['0x%04x' % cp for cp in cps], ',', 8)
85    ))
86
87def emit_string_override_property(f, property_code, overridden_code, override_set, cp_value_map):
88    s = string.Template(r"""    namespace ${prop_enum_up}_ns {
89        /** Code Point Ranges for ${prop_enum} (possibly overriding values from ${overridden})
90        ${overridden_set_ranges}**/
91
92        const UnicodeSet explicitly_defined_set
93        ${overridden_set_value};
94
95        const unsigned buffer_length = ${buffer_length};
96        const static char __attribute__ ((aligned (32))) string_buffer[${allocation_length}] = u8R"__(${string_buffer})__";
97
98        const static std::vector<codepoint_t> defined_cps = {
99        ${explicitly_defined_cps}};
100        static StringOverridePropertyObject property_object(${prop_enum},
101                                                    ${overridden}_ns::property_object,
102                                                    explicitly_defined_set,
103                                                    static_cast<const char *>(string_buffer),
104                                                    buffer_length,
105                                                    defined_cps);
106    }
107""")
108    cps = sorted(cp_value_map.keys())
109    string_buffer = ""
110    for cp in cps: 
111        string_buffer += cp_value_map[cp] + "\n"
112    buffer_length = len(string_buffer.encode("utf-8"))
113    f.write(s.substitute(prop_enum = property_code,
114    prop_enum_up = property_code.upper(),
115    overridden = overridden_code.upper(),
116    string_buffer = string_buffer,
117    buffer_length = buffer_length,
118    allocation_length = (buffer_length + 255) & -256,
119    overridden_set_ranges = cformat.multiline_fill(['[%04x, %04x]' % (lo, hi) for (lo, hi) in uset_to_range_list(override_set)], ',', 8),
120    overridden_set_value = override_set.showC(12),
121    explicitly_defined_cp_count = len(cps),
122    explicitly_defined_cps = cformat.multiline_fill(['0x%04x' % cp for cp in cps], ',', 8)
123    ))
124
125def emit_numeric_property(f, property_code, NaN_set, cp_value_map):
126    s = string.Template(r"""    namespace ${prop_enum_up}_ns {
127        /** Code Point Ranges for ${prop_enum} mapping to NaN
128        ${NaN_set_ranges}**/
129
130        const UnicodeSet NaN_set
131        ${NaN_set_value};
132
133       const unsigned buffer_length = ${buffer_length};
134        const static char __attribute__ ((aligned (32))) string_buffer[${allocation_length}] = u8R"__(${string_buffer})__";
135
136        const static std::vector<codepoint_t> defined_cps = {
137        ${explicitly_defined_cps}};
138        static NumericPropertyObject property_object(${prop_enum},
139                                                    NaN_set,
140                                                    static_cast<const char *>(string_buffer),
141                                                    buffer_length,
142                                                    defined_cps);
143    }
144""")
145    cps = sorted(cp_value_map.keys())
146    string_buffer = ""
147    for cp in cps: 
148        string_buffer += cp_value_map[cp] + "\n"
149    buffer_length = len(string_buffer.encode("utf-8"))
150    f.write(s.substitute(prop_enum = property_code,
151    prop_enum_up = property_code.upper(),
152    string_buffer = string_buffer,
153    buffer_length = buffer_length,
154    allocation_length = (buffer_length + 255) & -256,
155    NaN_set_ranges = cformat.multiline_fill(['[%04x, %04x]' % (lo, hi) for (lo, hi) in uset_to_range_list(NaN_set)], ',', 8),
156    NaN_set_value = NaN_set.showC(12),
157    explicitly_defined_cp_count = len(cps),
158    explicitly_defined_cps = cformat.multiline_fill(['0x%04x' % cp for cp in cps], ',', 8)
159    ))
160
161
162def emit_binary_property(f, property_code, property_set):
163    f.write("    namespace %s_ns {\n" % property_code.upper())
164    f.write("        /** Code Point Ranges for %s\n        " % property_code)
165    f.write(cformat.multiline_fill(['[%04x, %04x]' % (lo, hi) for (lo, hi) in uset_to_range_list(property_set)], ',', 8))
166    f.write("**/\n")
167    f.write("        const UnicodeSet codepoint_set \n")
168    f.write(property_set.showC(12) + ";\n")
169    f.write("        static BinaryPropertyObject property_object{%s, codepoint_set};\n    }\n" % property_code)
170
171def emit_enumerated_property(f, property_code, independent_prop_values, prop_values, value_map):
172    f.write("  namespace %s_ns {\n" % property_code.upper())
173    f.write("    const unsigned independent_prop_values = %s;\n" % independent_prop_values)
174    for v in prop_values:
175        f.write("    /** Code Point Ranges for %s\n    " % v)
176        f.write(cformat.multiline_fill(['[%04x, %04x]' % (lo, hi) for (lo, hi) in uset_to_range_list(value_map[v])], ',', 4))
177        f.write("**/\n")
178        f.write("    const UnicodeSet %s_Set \n" % v.lower())
179        f.write(value_map[v].showC(8) + ";\n")
180    set_list = ['&%s_Set' % v.lower() for v in prop_values]
181    f.write("    static EnumeratedPropertyObject property_object\n")
182    f.write("        {%s,\n" % property_code)
183    f.write("         %s_ns::independent_prop_values,\n" % property_code.upper())
184    f.write("         %s_ns::enum_names,\n" % property_code.upper())
185    f.write("         %s_ns::value_names,\n" % property_code.upper())
186    f.write("         %s_ns::aliases_only_map,\n" % property_code.upper())
187    f.write("         {")
188    f.write(cformat.multiline_fill(set_list, ',', 8))
189    f.write("\n         }};\n    }\n")
190
191def emit_Obsolete_property(f, property_code):
192    s = string.Template(r"""    namespace ${prop_enum_up}_ns {
193        static ObsoletePropertyObject property_object(${prop_enum});
194    }
195""")
196    f.write(s.substitute(prop_enum = property_code, prop_enum_up = property_code.upper()))
197
198
199def simple_CaseClosure_map(fold_data):
200   simpleFoldMap = {}
201   for k in fold_data['S'].keys(): simpleFoldMap[k] = int(fold_data['S'][k], 16)
202   for k in fold_data['C'].keys(): simpleFoldMap[k] = int(fold_data['C'][k], 16)
203   cl_map = {}
204   for k in simpleFoldMap.keys():
205      v = simpleFoldMap[k]
206      if not v in cl_map: cl_map[v] = [k]
207      else: cl_map[v].append(k)
208      if not k in cl_map: cl_map[k] = [v]
209      else: cl_map[k].append(v)
210   newEntries = True
211   while newEntries:
212      newEntries = False
213      for k in cl_map.keys():
214         vlist = cl_map[k]
215         for v in vlist:
216            for w in cl_map[v]:
217               if k != w and not k in cl_map[w]:
218                  cl_map[w].append(k)
219                  newEntries = True
220   return cl_map
221
222#
223# Simple case fold map.     
224# The simple case fold map is an ordered list of fold entries each of
225# the form (lo_codepoint, hicodepoint, offset).  Each entry describes
226# the case fold that applies for the consecutive entries in the given
227# codepoint range, according to the following equations. 
228# casefold(x) = x + offset, if ((x - low_codepoint) div offset) mod 2 = 0
229#             = x - offset, if ((x - low_codepoint) div offset) mod 2 = 1
230#
231#
232def caseFoldRangeMap(casemap):
233   foldable = sorted(casemap.keys())
234   entries = []
235   cp = foldable[0]
236   open_entries = [(cp, f - cp) for f in casemap[cp]]
237   last_cp = cp
238   for cp in foldable[1:]:
239      if cp != last_cp + 1:
240         # Close the pending range entries
241         for (cp0, offset) in open_entries:
242            entries.append((cp0, last_cp, offset))
243         open_entries = [(cp, f - cp) for f in casemap[cp]]
244      else:
245         new_open = []
246         projected = []
247         for (cp0, offset) in open_entries:
248            even_odd_offset_group = int(abs(cp - cp0)/ abs(offset)) & 1
249            if even_odd_offset_group == 0: 
250               projected_foldcp = cp + offset
251            else: projected_foldcp = cp - offset
252            if not projected_foldcp in casemap[cp]:
253               entries.append((cp0, last_cp, offset))
254            else:
255               new_open.append((cp0, offset))
256               projected.append(projected_foldcp)
257         open_entries = new_open
258         for f in casemap[cp]:
259            if not f in projected:
260               open_entries.append((cp, f-cp))
261      last_cp = cp
262   # Close the final entries.
263   for (cp0, offset) in open_entries:
264      entries.append((cp0, last_cp, offset))
265   return entries
266
267
268
269def genFoldEntryData(casemap):
270   rMap = caseFoldRangeMap(casemap)
271   individuals = [(m[0],m[0]+m[2]) for m in rMap if m[0] == m[1]]
272   ranges = [m for m in rMap if m[0] != m[1]]
273   last_hi = -1
274   generated = "const FoldEntry foldTable[foldTableSize] = {\n"
275   foldTableSize = 0
276   for (lo, hi, offset) in ranges:
277      if lo != last_hi + 1:
278         pairs = ["{0x%x, 0x%x}" % (m[0], m[1]) for m in individuals if m[0]>last_hi and m[0]< lo]
279         generated += "  {0x%x, 0, {" % (last_hi + 1) + cformat.multiline_fill(pairs) + "}},\n"
280         foldTableSize += 1
281      last_hi = hi
282      pairs = ["{0x%x, 0x%x}" % (m[0], m[1]) for m in individuals if m[0]>=lo and m[0]<= hi]
283      generated += "  {0x%x, %i, {" % (lo, offset) + cformat.multiline_fill(pairs) + "}},\n"
284      foldTableSize += 1
285   if last_hi != 0x10FFFF:
286      pairs = ["{0x%x, 0x%x}" % (m[0], m[1]) for m in individuals if m[0]>last_hi]
287      generated += "  {0x%x, 0, {" % (last_hi + 1) + cformat.multiline_fill(pairs) + "}},\n"
288      foldTableSize += 1
289   generated += "  {0x110000, 0, {}}};"
290   foldTableSize += 1
291   generated = "\nconst int foldTableSize = %s;\n\n" % foldTableSize  + generated
292   return generated
293
294foldDeclarations = r"""
295typedef unsigned codepoint_t;
296
297struct FoldEntry {
298    re::codepoint_t range_lo;
299    int fold_offset;
300    std::vector<re::interval_t> fold_pairs;
301};
302
303
304void caseInsensitiveInsertRange(re::CC * cc, const re::codepoint_t lo, const re::codepoint_t hi);
305
306inline void caseInsensitiveInsert(re::CC * cc, const re::codepoint_t cp) {
307    caseInsensitiveInsertRange(cc, cp, cp);
308}
309"""
310
311
312class UCD_generator():
313    def __init__(self):
314        self.supported_props = []
315        self.property_data_headers = []
316        self.missing_specs = {}
317        self.binary_properties = {}
318
319    def load_property_name_info(self):
320        (self.property_enum_name_list, self.property_object_map) = parse_PropertyAlias_txt()
321        self.property_lookup_map = getPropertyLookupMap(self.property_object_map)
322        self.full_name_map = {}
323        for p in self.property_enum_name_list:
324            self.full_name_map[p] = self.property_object_map[p].getPropertyFullName()
325
326
327    def generate_PropertyAliases_h(self):
328        f = cformat.open_header_file_for_write('PropertyAliases')
329        cformat.write_imports(f, ["<string>", "<unordered_map>", "<vector>"])
330        enum_text = cformat.multiline_fill(self.property_enum_name_list, ',', 8)
331        enum_text2 = cformat.multiline_fill(['"%s"' % e for e in self.property_enum_name_list], ',', 8)
332        full_name_text = cformat.multiline_fill(['"%s"' % self.full_name_map[e] for e in self.property_enum_name_list], ',', 8)
333        map_text = cformat.multiline_fill(['{"%s", %s}' % (k, self.property_lookup_map[k]) for k in sorted(self.property_lookup_map.keys())], ',', 8)
334        f.write(PropertyAliases_template % (enum_text, enum_text2, full_name_text, map_text))
335        cformat.close_header_file(f)
336
337    def load_property_value_info(self):
338        initializePropertyValues(self.property_object_map, self.property_lookup_map)
339
340    def generate_PropertyValueAliases_h(self):
341        f = cformat.open_header_file_for_write('PropertyValueAliases')
342        cformat.write_imports(f, ['"PropertyAliases.h"', "<vector>", "<unordered_map>", "<string>"])
343        f.write("namespace UCD {\n")
344        #  Generate the aliases for all Binary properties.
345        enum_text = cformat.multiline_fill(['N', 'Y'], ',', 12)
346        enum_names = cformat.multiline_fill(['"N"', '"Y"'], ',', 12)
347        full_name_text = cformat.multiline_fill(['"No"', '"Yes"'], ',', 12)
348        binary_properties = ['{"n", N}', '{"y", Y}', '{"no", N}', '{"yes", Y}', '{"f", N}', '{"t", Y}', '{"false", N}', '{"true", Y}']
349        binary_map_text = cformat.multiline_fill(binary_properties, ',', 12)
350        f.write(EnumeratedProperty_template % ('Binary', enum_text, enum_names, full_name_text, binary_map_text))
351        #
352        for p in self.property_enum_name_list:
353            po = self.property_object_map[p]
354            if isinstance(po, EnumeratedPropertyObject):
355                ordered_enum_list = po.property_value_list
356                enum_text = cformat.multiline_fill(ordered_enum_list, ',', 12)
357                enum_names = cformat.multiline_fill(['"%s"' % s for s in ordered_enum_list], ',', 12)
358                if p == 'ccc': # Special case: add numeric value information for ccc.
359                    enum_text += r"""
360        };
361        const uint16_t enum_val[] = {
362        """
363                    enum_text += "      " + cformat.multiline_fill(["%s" % (po.property_value_enum_integer[e]) for e in ordered_enum_list], ',', 12)
364                full_names = [po.property_value_full_name_map[e] for e in ordered_enum_list]
365                full_name_text = cformat.multiline_fill(['"%s"' % name for name in full_names], ',', 12)
366                canon_full_names = [canonicalize(name) for name in full_names]
367                canon_enums = [canonicalize(e) for e in ordered_enum_list]
368                canon_keys = [canonicalize(k) for k in po.property_value_lookup_map.keys()]
369                aliases_only = []
370                for k in canon_keys:
371                    if k in canon_enums: continue
372                    if k in canon_full_names: continue
373                    if k in aliases_only: continue
374                    aliases_only.append(k)
375                map_text = cformat.multiline_fill(['{"%s", %s_ns::%s}' % (k, p.upper(), po.property_value_lookup_map[k]) for k in sorted(aliases_only)], ',', 12)
376                f.write(EnumeratedProperty_template % (p.upper(), enum_text, enum_names, full_name_text, map_text))
377        f.write("}\n")
378        cformat.close_header_file(f)
379
380    def emit_property(self, f, property_code):
381        property_object = self.property_object_map[property_code]
382        if isinstance(property_object, BinaryPropertyObject):
383            emit_binary_property(f, property_code, property_object.value_map['Y'])
384            print("%s: %s bytes" % (property_object.getPropertyFullName(), property_object.value_map['Y'].bytes()))
385        elif isinstance(property_object, EnumeratedPropertyObject):
386            prop_values = property_object.name_list_order
387            independent_prop_values = property_object.independent_prop_values
388            emit_enumerated_property(f, property_code, independent_prop_values, prop_values, property_object.value_map)
389            print("%s: %s bytes" % (property_object.getPropertyFullName(), sum([property_object.value_map[v].bytes() for v in property_object.value_map.keys()])))
390        elif isinstance(property_object, StringPropertyObject):
391            emit_string_property(f, property_code, property_object.null_str_set, property_object.reflexive_set, property_object.cp_value_map)
392        elif isinstance(property_object, StringOverridePropertyObject):
393            emit_string_override_property(f, property_code, property_object.overridden_code, property_object.overridden_set, property_object.cp_value_map)
394        elif isinstance(property_object, NumericPropertyObject):
395            emit_numeric_property(f, property_code, property_object.NaN_set, property_object.cp_value_map)
396        elif isinstance(property_object, ObsoletePropertyObject):
397            emit_Obsolete_property(f, property_code)
398        else: 
399            print("%s: unsupported property.")
400            return
401        self.supported_props.append(property_code)
402
403    def generate_property_value_file(self, filename_root, property_code):
404        property_object = self.property_object_map[property_code]
405        parse_property_data(self.property_object_map[property_code], filename_root + '.txt')
406        basename = os.path.basename(filename_root)
407        f = cformat.open_header_file_for_write(basename)
408        cformat.write_imports(f, ['"PropertyAliases.h"', '"PropertyObjects.h"', '"PropertyValueAliases.h"', '"unicode_set.h"'])
409        f.write("\nnamespace UCD {\n")
410        self.emit_property(f, property_code)
411        f.write("}\n")
412        cformat.close_header_file(f)
413        self.property_data_headers.append(basename)
414
415    def generate_multisection_properties_file(self, filename_root):
416        props = parse_multisection_property_data(filename_root + '.txt', self.property_object_map, self.property_lookup_map)
417        #(props, prop_map) = parse_UCD_codepoint_name_map(filename_root + '.txt', self.property_lookup_map)
418        basename = os.path.basename(filename_root)
419        f = cformat.open_header_file_for_write(basename)
420        cformat.write_imports(f, ['"PropertyAliases.h"', '"PropertyObjects.h"', '"PropertyValueAliases.h"', '"unicode_set.h"'])
421        f.write("\nnamespace UCD {\n")
422        for p in sorted(props):
423            self.emit_property(f, p)
424            property_object = self.property_object_map[p]
425        f.write("}\n\n")
426        cformat.close_header_file(f)
427        self.property_data_headers.append(basename)
428
429    def generate_multicolumn_properties_file(self, filename_root, prop_code_list):
430        props = parse_multicolumn_property_data(filename_root + '.txt', self.property_object_map, self.property_lookup_map, prop_code_list)
431        #(props, prop_map) = parse_UCD_codepoint_name_map(filename_root + '.txt', self.property_lookup_map)
432        basename = os.path.basename(filename_root)
433        f = cformat.open_header_file_for_write(basename)
434        cformat.write_imports(f, ['"PropertyAliases.h"', '"PropertyObjects.h"', '"PropertyValueAliases.h"', '"unicode_set.h"'])
435        f.write("\nnamespace UCD {\n")
436        for p in prop_code_list:
437            if p in self.property_object_map: self.emit_property(f, p)
438        f.write("}\n\n")
439        cformat.close_header_file(f)
440        self.property_data_headers.append(basename)
441
442    def generate_UnicodeData_h(self):
443        basename = 'UnicodeData'
444        parse_UnicodeData_txt(self.property_object_map)
445        f = cformat.open_header_file_for_write(basename)
446        cformat.write_imports(f, ['"PropertyAliases.h"', '"PropertyObjects.h"', '"PropertyValueAliases.h"', '"unicode_set.h"'])
447        prop_code_list = ['na', 'dm', 'suc', 'slc', 'stc', 'na1', 'isc', 'nv']
448        f.write("\nnamespace UCD {\n")
449        for p in prop_code_list:
450            self.emit_property(f, p)
451            property_object = self.property_object_map[p]
452        f.write("}\n\n")
453        cformat.close_header_file(f)
454        self.property_data_headers.append(basename)
455
456    def generate_SpecialCasing_h(self):
457        basename = 'SpecialCasing'
458        parse_SpecialCasing_txt(self.property_object_map)
459        f = cformat.open_header_file_for_write(basename)
460        cformat.write_imports(f, ['"PropertyAliases.h"', '"PropertyObjects.h"', '"PropertyValueAliases.h"', '"UnicodeData.h"', '"unicode_set.h"'])
461        f.write("\nnamespace UCD {\n")
462        for p in ['lc', 'uc', 'tc']:
463            self.emit_property(f, p)
464            property_object = self.property_object_map[p]
465        f.write("}\n\n")
466        cformat.close_header_file(f)
467        self.property_data_headers.append(basename)
468
469    def generate_ScriptExtensions_h(self):
470        filename_root = 'ScriptExtensions'
471        property_code = 'scx'
472        extension_object = self.property_object_map['scx']
473        extension_object.setBaseProperty(self.property_object_map['sc'])
474        parse_property_data(extension_object, filename_root+'.txt')
475        basename = os.path.basename(filename_root)
476        f = cformat.open_header_file_for_write(basename)
477        cformat.write_imports(f, ['"PropertyAliases.h"', '"PropertyObjects.h"', '"PropertyValueAliases.h"', '"unicode_set.h"'])
478        prop_list = self.property_object_map['sc'].name_list_order
479        value_map = extension_object.value_map
480        f.write("\nnamespace UCD {\n")
481        f.write("    namespace SCX_ns {\n")
482        for v in prop_list:
483            f.write("        /** Code Point Ranges for %s\n        " % v)
484            f.write(cformat.multiline_fill(['[%04x, %04x]' % (lo, hi) for (lo, hi) in uset_to_range_list(value_map[v])], ',', 8))
485            f.write("**/\n")
486            f.write("        const UnicodeSet %s_Ext \n" % v.lower())
487            f.write(value_map[v].showC(12) + ";\n")
488        set_list = ['&%s_Ext' % v.lower() for v in prop_list]
489        f.write("        static ExtensionPropertyObject property_object\n")
490        f.write("       {%s,\n" % property_code)
491        f.write("        UCD::sc,\n")
492        f.write("       {")
493        f.write(cformat.multiline_fill(set_list, ',', 8))
494        f.write("\n        }};\n    }\n}\n")
495        cformat.close_header_file(f)
496        print("%s: %s bytes" % (basename, sum([value_map[v].bytes() for v in value_map.keys()])))
497        self.supported_props.append(property_code)
498        self.property_data_headers.append(basename)
499
500    def generate_PropertyObjectTable_h(self):
501        f = cformat.open_header_file_for_write('PropertyObjectTable')
502        cformat.write_imports(f, ['"PropertyObjects.h"', '"PropertyAliases.h"', '<array>'])
503        cformat.write_imports(f, ['"%s.h"' % fname for fname in self.property_data_headers])
504        f.write("\nnamespace UCD {\n")
505        objlist = []
506        for p in self.property_enum_name_list:
507            k = self.property_object_map[p].getPropertyKind()
508            if p in self.supported_props:
509                objlist.append("&%s_ns::property_object" % p.upper())
510            else:
511                objlist.append("new UnsupportedPropertyObject(%s, PropertyObject::ClassTypeId::%sProperty)" % (p, k))
512        f.write("\n  const std::array<PropertyObject *, %i> property_object_table = {{\n    " % len(objlist))
513        f.write(",\n    ".join(objlist) + '  }};\n}\n')
514        cformat.close_header_file(f)
515
516    def generate_UCD_Config_h(self):
517        setVersionfromReadMe_txt()
518        f = cformat.open_header_file_for_write('UCD_Config')
519        f.write("\nnamespace UCD {\n")
520        f.write("   const std::string UnicodeVersion = \"%s\";\n" % UCD_config.version)
521        f.write("}\n")
522        cformat.close_header_file(f)
523
524
525    def genCaseFolding_h(self):
526        basename = 'CaseFolding'
527        fold_data = parse_CaseFolding_txt(self.property_object_map)
528        cm = simple_CaseClosure_map(fold_data)
529        f = cformat.open_header_file_for_write(basename, 'casefold.py')
530        cformat.write_imports(f, ['"PropertyAliases.h"', '"PropertyObjects.h"', '"PropertyValueAliases.h"', '"unicode_set.h"', "<vector>", '"re/re_cc.h"'])
531        f.write(foldDeclarations)
532        f.write(genFoldEntryData(cm))
533        f.write("\nnamespace UCD {\n")
534        self.emit_property(f, 'scf')
535        self.emit_property(f, 'cf')
536        f.write("}\n")
537        cformat.close_header_file(f)
538        self.supported_props.append(['scf', 'cf'])
539        self.property_data_headers.append(basename)
540
541
542
543def UCD_main():
544    ucd = UCD_generator()
545
546    # First parse all property names and their aliases
547    ucd.load_property_name_info()
548    #
549    # Generate the PropertyAliases.h file to define all the Unicode property_t enum
550    # and the basic property information.
551    ucd.generate_PropertyAliases_h()
552    #
553    # Next parse all property value names and their aliases.  Generate the data.
554    ucd.load_property_value_info()
555
556    ucd.generate_UnicodeData_h()
557   
558    ucd.generate_SpecialCasing_h()
559   
560    ucd.genCaseFolding_h()
561   
562    ucd.generate_multicolumn_properties_file('NameAliases', ['Name_Alias', 'Alias_Kind'])
563
564    #
565    # The Age property
566    ucd.generate_property_value_file('DerivedAge', 'age')
567    #
568    # The Block property
569    ucd.generate_property_value_file('Blocks', 'blk')
570   
571    # Scripts
572    ucd.generate_property_value_file('Scripts', 'sc')
573    #
574    # # Script Extensions
575    ucd.generate_ScriptExtensions_h()
576    # #
577    # General Category
578    ucd.generate_property_value_file('extracted/DerivedGeneralCategory', 'gc')
579   
580    # Binary properties from PropList.txt
581    ucd.generate_multisection_properties_file('PropList')
582   
583    # Binary properties from DerivedCoreProperties.txt
584    ucd.generate_multisection_properties_file('DerivedCoreProperties')
585    #
586    #
587    # LineBreak types
588    #ucd.generate_property_value_file('extracted/DerivedLineBreak', 'lb')
589    ucd.generate_property_value_file('LineBreak', 'lb')
590    #
591    # Grapheme Cluster Break property
592    ucd.generate_property_value_file('auxiliary/GraphemeBreakProperty', 'GCB')
593    #
594    # Sentence Break property
595    ucd.generate_property_value_file('auxiliary/SentenceBreakProperty', 'SB')
596    #
597    # Word Break property
598    ucd.generate_property_value_file('auxiliary/WordBreakProperty', 'WB')
599    #
600    # East Asian Width - can use either source
601    ucd.generate_property_value_file('EastAsianWidth', 'ea')
602    #ucd.generate_property_value_file('extracted/DerivedEastAsianWidth', 'ea')
603    #
604    # Hangul Syllable Type
605    ucd.generate_property_value_file('HangulSyllableType', 'hst')
606    #
607    ucd.generate_multisection_properties_file('extracted/DerivedBinaryProperties')
608    # #
609    # # Canonical_Combining_Class
610    ucd.generate_property_value_file('extracted/DerivedCombiningClass', 'ccc')
611    #
612    # Decomposition Type
613    ucd.generate_property_value_file('extracted/DerivedDecompositionType', 'dt')
614    #
615    # Joining Group and Type
616    ucd.generate_property_value_file('extracted/DerivedJoiningGroup', 'jg')
617    ucd.generate_property_value_file('extracted/DerivedJoiningType', 'jt')
618    #
619    # Numeric Type and Value
620    ucd.generate_property_value_file('extracted/DerivedNumericType', 'nt')
621    #ucd.generate_property_value_file('extracted/DerivedNumericValue', 'nv')
622    #
623    # Normalization properties.
624    ucd.generate_multisection_properties_file('DerivedNormalizationProps')
625    #
626    # Bidirectional properties
627    ucd.generate_property_value_file('extracted/DerivedBidiClass', 'bc')
628    ucd.generate_multicolumn_properties_file('BidiBrackets', ['bpb', 'bpt'])
629    ucd.generate_property_value_file('BidiMirroring', 'bmg')
630
631    # Indic properties
632    ucd.generate_property_value_file('IndicPositionalCategory', 'InPC')
633    ucd.generate_property_value_file('IndicSyllabicCategory', 'InSC')
634
635    ucd.generate_property_value_file('CompositionExclusions', 'CE')
636    #
637    ucd.generate_property_value_file('Jamo', 'JSN')
638    #
639    #
640    #
641    ucd.generate_PropertyValueAliases_h()
642
643    ucd.generate_PropertyObjectTable_h()
644
645    ucd.generate_UCD_Config_h()
646
647if __name__ == "__main__":
648  UCD_main()
Note: See TracBrowser for help on using the repository browser.