source: trunk/symbol_table/src/symbol_table.hpp @ 2062

Last change on this file since 2062 was 2062, checked in by ksherdy, 7 years ago

Renamed class Symbol as class gid . Templated class gid on SEGMENT_SIZE.

File size: 13.3 KB
Line 
1/*
2 * id_symbol_table.hpp
3 * Created on: 18-December-2011
4 * Author: Ken Herdy
5 *
6 * BitBlock type arguments must adhere to the 'full-block invariant'
7 * and mask partial block with null bytes.
8 *
9 * Number of length groups must coincide with the
10 * number compiler generated length groups.
11 *
12 */
13#ifndef ID_SYMBOL_TABLE_TEMPLATE_HPP
14#define ID_SYMBOL_TABLE_TEMPLATE_HPP
15
16#include "buffer.hpp"
17#include "gid.hpp"
18#include "hash_table.hpp"
19#include "../lib/carryQ.hpp"
20#include "../lib/bitblock_iterator.hpp"
21#include "../lib/bitblock_scan.hpp"
22#include <cstdlib>
23#include <vector>
24using namespace std;
25
26#ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
27static void print_symbol_debug(gid_type gid, const uint8_t buffer [], const int32_t spos, const uint32_t epos, const uint32_t lgth) {
28        cout << "{Symbol:{";
29        cout << "GID:" << gid;
30        cout << ",Length:" << lgth;
31        cout << ",Value:'" << string((char *)&(buffer[spos]), lgth) << "'";
32        cout << ",Start:" << spos;
33        cout << ",End:" << epos;
34        cout << "}}" << endl;
35}
36#endif
37
38///////////////////////////////////////////////////////////////////////////
39// Symbol Type - do_block()
40///////////////////////////////////////////////////////////////////////////
41template<class SYMBOL, class HASH_TABLE>
42void do_block(uint32_t blk_offset,
43              HASH_TABLE & h_table,
44              BitBlock ends,
45              uint8_t buffer [], const uint32_t lgth,
46              uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
47              SYMBOL & gids, GIDFactory & gid_factory, GIDData & gid_data);
48
49template<class SYMBOL, class HASH_TABLE>
50void do_block(uint32_t blk_offset,
51              HASH_TABLE & h_table,
52              BitBlock starts [], BitBlock ends [],
53              uint8_t buffer [],
54              uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
55              SYMBOL & gids, GIDFactory & gid_factory, GIDData & gid_data);
56
57///////////////////////////////////////////////////////////////////////////
58// Symbol Type - Array gids.
59///////////////////////////////////////////////////////////////////////////
60
61template<uint32_t SIZE>
62class gid {
63public:
64    gid_type at[SIZE];
65    //vector<BitBlock> gids_idx;   // gids index
66};
67
68// TODO - Refactor as a single mixed symbol table class composed of Id, Div2, Log2 hash tables.
69template<class GIDS, class ALLOCATOR>
70class symbol_table {
71public:
72        symbol_table()/*:hash_table_1(256)*/{}
73        ~symbol_table() {
74//      hash_table_1.print_table();
75//      hash_table_2.print_table();
76//      hash_table_3.print_table();
77//      hash_table_4.print_table();
78//      hash_table_5.print_table();
79//      hash_table_6.print_table();
80//      hash_table_7.print_table();
81//      hash_table_8.print_table();
82//      hash_table_9.print_table();
83//      hash_table_10.print_table();
84//      hash_table_11.print_table();
85//      hash_table_12.print_table();
86//      hash_table_13.print_table();
87//      hash_table_14.print_table();
88//      hash_table_15.print_table();
89//      hash_table_16.print_table();
90//      hash_table_gte_17.print_table();
91#ifdef HASH_TABLE_HPP_DEBUG
92//      hash_table_1.print_diagnostics();
93//      hash_table_2.print_diagnostics();
94//      hash_table_3.print_diagnostics();
95//      hash_table_4.print_diagnostics();
96//      hash_table_5.print_diagnostics();
97//      hash_table_6.print_diagnostics();
98//      hash_table_7.print_diagnostics();
99//      hash_table_8.print_diagnostics();
100//      hash_table_9.print_diagnostics();
101//      hash_table_10.print_diagnostics();
102//      hash_table_11.print_diagnostics();
103//      hash_table_12.print_diagnostics();
104//      hash_table_13.print_diagnostics();
105//      hash_table_14.print_diagnostics();
106//      hash_table_15.print_diagnostics();
107//      hash_table_16.print_diagnostics();
108//      hash_table_gte_17.print_diagnostics();
109#endif
110        }
111
112        // Groups & groups
113        void resolve(uint8_t buffer [], Groups groups [],  BitBlock starts [], BitBlock ends_gte_17 [],
114                                 BitBlock h0 [], BitBlock h1 [], uint32_t segment_blocks, GIDS & gids) {
115
116                        for(uint32_t blk = 0; blk < segment_blocks; blk++) {
117                                const uint32_t blk_offset = blk * BLOCKSIZE;
118                                resolve(blk_offset, &buffer[blk_offset], groups[blk], &starts[blk], &h0[blk], &h1[blk], gids);
119                        }
120        }
121
122        // Groups & groups
123        IDISA_ALWAYS_INLINE
124        void resolve(uint32_t blk_offset, uint8_t buffer [], Groups & groups,  BitBlock starts[],
125                                 BitBlock * h0, BitBlock * h1, GIDS & gids) {
126
127                        ///////////////////////////////////////////////////////////////////////////////
128                        // Byte Space Hash
129                        ///////////////////////////////////////////////////////////////////////////////
130                        #define BYTE_HASH(GROUP, LGTH) \
131                                if(bitblock::any(groups.ends_##LGTH)) { \
132                                        do_block<GIDS, GROUP##_hash_table <LGTH, ALLOCATOR> > \
133                                                (blk_offset, \
134                                                 hash_table_##LGTH, \
135                                                 groups.ends_##LGTH, \
136                                                 buffer, LGTH, /* buffer, symbol length */ \
137                                                 buffer, buffer, BLOCK_SIZE, /* h0, h1, hash block size (bits) */ \
138                                                 gids, this->gid_factory, this->gid_data); \
139                                }
140
141                                //BYTE_HASH(id,1);
142                                BYTE_HASH(div2,2);
143//                              //BYTE_HASH(id,3);
144                                BYTE_HASH(div2,4);
145                                //BYTE_HASH(id,5);
146                                BYTE_HASH(div2,6);
147                                //BYTE_HASH(id,7);
148
149                        #undef BYTE_HASH
150
151                        ///////////////////////////////////////////////////////////////////////////////
152                        // Bit Space Hash
153                        ///////////////////////////////////////////////////////////////////////////////
154                        #define BIT_HASH(GROUP, LGTH) \
155                                if(bitblock::any(groups.ends_##LGTH)) { \
156                                        do_block<GIDS, GROUP##_hash_table <LGTH, ALLOCATOR> > \
157                                                (blk_offset, \
158                                                 hash_table_##LGTH, \
159                                                 groups.ends_##LGTH, \
160                                                 buffer, LGTH, \
161                                                 (uint8_t *)h0, (uint8_t *)h1, (BLOCK_SIZE / 8), \
162                                                 gids, this->gid_factory, this->gid_data); \
163                                }
164
165                                BIT_HASH(div2,8);
166//                              //BIT_HASH(9);
167                                BIT_HASH(div2,10);
168//                              //BIT_HASH(11);
169                                BIT_HASH(div2,12);
170//                              //BIT_HASH(13);
171                                BIT_HASH(div2,14);
172//                              //BIT_HASH(15);
173                                BIT_HASH(div2,16);
174
175                        #undef BIT_HASH
176
177                        if(bitblock::any(groups.ends_gte_17)) {
178
179                                //print_register("17", groups.ends_gte_17);
180
181                                do_block<GIDS, id_hash_table<0, ALLOCATOR> >
182                                                (blk_offset,
183                                                 hash_table_gte_17,
184                                                 starts, &groups.ends_gte_17,
185                                                 buffer,
186                                                 (uint8_t *)h0, (uint8_t *)h1, BLOCK_SIZE/8,
187                                                 gids, this->gid_factory, this->gid_data);
188                        }
189        }
190
191        IDISA_ALWAYS_INLINE uint8_t * get_raw_data(uint32_t idx) const { return gid_data.get_raw_bytes(idx); }
192        IDISA_ALWAYS_INLINE uint32_t get_lgth(uint32_t idx) const { return gid_data.get_bytes_lgth(idx); }
193
194private:
195
196        GIDFactory gid_factory;
197        GIDData gid_data;
198
199        ///////////////////////////////////////////////////////////////////////////////
200        // Byte Space Hash
201        ///////////////////////////////////////////////////////////////////////////////
202//      div2_hash_table<2, ALLOCATOR> hash_table_1_2;
203
204//      id_hash_table<1, ALLOCATOR> hash_table_1;
205//      id_hash_table<2, ALLOCATOR> hash_table_2;
206//      id_hash_table<3, ALLOCATOR> hash_table_3;
207//      id_hash_table<4, ALLOCATOR> hash_table_4;
208//      id_hash_table<5, ALLOCATOR> hash_table_5;
209//      id_hash_table<6, ALLOCATOR> hash_table_6;
210//      id_hash_table<7, ALLOCATOR> hash_table_7;
211
212        div2_hash_table<2, ALLOCATOR> hash_table_2;
213        div2_hash_table<4, ALLOCATOR> hash_table_4;
214        div2_hash_table<6, ALLOCATOR> hash_table_6;
215
216        ///////////////////////////////////////////////////////////////////////////////
217        // Bit Space Hash
218        ///////////////////////////////////////////////////////////////////////////////
219//      id_hash_table<8, ALLOCATOR> hash_table_8;
220//      id_hash_table<9, ALLOCATOR> hash_table_9;
221//      id_hash_table<10, ALLOCATOR> hash_table_10;
222//      id_hash_table<11, ALLOCATOR> hash_table_11;
223//      id_hash_table<12, ALLOCATOR> hash_table_12;
224//      id_hash_table<13, ALLOCATOR> hash_table_13;
225//      id_hash_table<14, ALLOCATOR> hash_table_14;
226//      id_hash_table<15, ALLOCATOR> hash_table_15;
227//      id_hash_table<16, ALLOCATOR> hash_table_16;
228//      id_hash_table<0, ALLOCATOR> hash_table_gte_17;
229
230        div2_hash_table<8, ALLOCATOR> hash_table_8;
231//      id_hash_table<9, ALLOCATOR> hash_table_9;
232        div2_hash_table<10, ALLOCATOR> hash_table_10;
233//      id_hash_table<11, ALLOCATOR> hash_table_11;
234        div2_hash_table<12, ALLOCATOR> hash_table_12;
235//      id_hash_table<13, ALLOCATOR> hash_table_13;
236        div2_hash_table<14, ALLOCATOR> hash_table_14;
237//      id_hash_table<15, ALLOCATOR> hash_table_15;
238        div2_hash_table<16, ALLOCATOR> hash_table_16;
239        id_hash_table<0, ALLOCATOR> hash_table_gte_17;
240};
241
242/* NOTE: C++ template code and Pablo generated length groups must coincide. */
243
244// Fixed Lengths - REVERSE SCAN LOGIC - Scan each BLOCK MSB to LSB
245template<class GIDS, class HASH_TABLE>
246void do_block(uint32_t blk_offset,
247                  HASH_TABLE & h_table,
248                  BitBlock ends,
249                  uint8_t buffer [], const uint32_t lgth,
250                  uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
251                  GIDS & gids, GIDFactory & gid_factory, GIDData & gid_data) {
252
253                uint8_t * buffer_base = buffer;
254                uint8_t * h0_base = h0;
255                uint8_t * h1_base = h1;
256
257                gid_type gid;
258                int32_t epos;
259                int32_t spos;
260                uint32_t blk_count;
261
262        ReverseScanner<BitBlock, scanword_t> rscanner(&ends);
263
264        rscanner.scan_to_next();
265        epos = rscanner.get_pos();
266
267                while(!rscanner.is_done()) {
268
269                spos = epos - lgth;
270
271                        if(spos < 0) { // boundary case
272                                        spos = (BLOCK_SIZE - (-1 * spos)) & (BLOCK_SIZE - 1);
273                                        blk_count = (lgth/BLOCK_SIZE)+1;
274                                        buffer_base -= (BLOCK_SIZE * blk_count);
275                                        h0_base -= (h_block_size * blk_count);
276                                        h1_base -= (h_block_size * blk_count);
277                        }
278
279                        assert (spos >= 0);
280
281                        gid = h_table.lookup_or_insert(buffer_base, spos, lgth, h0_base, h1_base, gid_factory, gid_data); // WARNING: spos must be >= 0
282
283                        #ifdef ID_SYMBOL_STORE_SYMBOL_GIDS_AT_END_POSITION
284                        gids.at[blk_offset + epos] = gid;
285                        #else
286                        gids.at[blk_offset + epos - lgth] = gid;
287                        #endif
288
289                        #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
290                                print_symbol_debug(gid, buffer_base, spos, epos, gid_data.get_bytes_lgth(gid));
291                        #endif
292
293                        rscanner.scan_to_next();
294                        epos = rscanner.get_pos();
295                }
296        }
297
298
299// Variable Lengths, reverse scanner logic
300// Precondition: A symbol end is marked iff a symbol start is marked within a buffer segment.
301template<class SYMBOL, class HASH_TABLE>
302void do_block(uint32_t blk_offset,
303                          HASH_TABLE & h_table,
304                          BitBlock starts [], BitBlock ends [],
305                          uint8_t buffer [],
306                          uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
307                          SYMBOL & gids, GIDFactory & gid_factory, GIDData & gid_data) {
308
309        BitBlock * starts_base = starts;
310        uint8_t * buffer_base = buffer;
311        uint8_t * h0_base = h0;
312        uint8_t * h1_base = h1;
313
314        gid_type gid;
315        int32_t epos;
316        int32_t spos;
317        uint32_t lgth;
318        uint32_t blk_count = 0;
319
320        ReverseScanner<BitBlock, scanword_t> ends_rscanner(ends);
321        ReverseScanner<BitBlock, scanword_t> starts_rscanner(starts);
322
323        ends_rscanner.scan_to_next();
324        epos = ends_rscanner.get_pos();
325
326        while(!ends_rscanner.is_done()) {
327
328                starts_rscanner.move_to(epos);
329                starts_rscanner.scan_to_next();
330                spos = starts_rscanner.get_pos();
331                lgth = epos - spos;
332
333                while(starts_rscanner.is_done()) { // boundary case
334                          starts_base--;
335
336                        blk_count++;
337
338                        starts_rscanner.init(starts_base);
339                        starts_rscanner.scan_to_next();
340
341                        if(!starts_rscanner.is_done()) { // found start
342                                        lgth = epos + (BLOCK_SIZE - starts_rscanner.get_pos()) + (BLOCK_SIZE * (blk_count-1));
343                                        spos = starts_rscanner.get_pos();
344                                        buffer_base -= (BLOCK_SIZE * blk_count);
345                                        h0_base -= (h_block_size * blk_count);
346                                        h1_base -= (h_block_size * blk_count);
347                                        break;
348                        }
349
350                }
351
352                gid = h_table.lookup_or_insert(buffer_base, spos, lgth, h0_base, h1_base, gid_factory, gid_data); // WARNING: spos must be >= 0
353
354                #ifdef ID_SYMBOL_STORE_SYMBOL_GIDS_AT_END_POSITION
355                gids.at[blk_offset + epos] = gid;
356                #else
357                gids.at[blk_offset + epos - lgth] = gid;
358                #endif
359
360                #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
361                        //print_symbol_debug(gid, buffer, spos, epos, lgth);
362                        print_symbol_debug(gid, buffer_base, spos, epos, lgth);
363                #endif
364
365                ends_rscanner.scan_to_next();
366                epos = ends_rscanner.get_pos();
367        }
368}
369
370#endif // ID_SYMBOL_TABLE_TEMPLATE_HPP
371
372
373/* // Forward Scan
374void do_block(uint32_t blk_offset,
375                  HASH_TABLE & h_table,
376                  BitBlock ends,
377                  uint8_t buffer [], const uint32_t lgth,
378                  uint8_t h0 [], uint8_t h1 [], const uint32_t h_lgth, const uint32_t h_block_size,
379                  SYMBOL & symbols, GIDFactory & gid_factory, GIDData & gid_data) {
380
381        gid_type gid;
382        int32_t spos;
383        int32_t epos;
384        ForwardScanner<BitBlock, scanword_t> fscanner(&ends);
385
386        fscanner.scan_to_next();
387        epos = fscanner.get_pos();
388        spos = (epos - lgth);
389
390        if(!fscanner.is_done() && (spos < 0) ) { // block boundary case
391
392        ////////////////////////////////////////////////////////////////////
393        // Start - Review boundary logic
394        ////////////////////////////////////////////////////////////////////
395        uint8_t * lb_buffer = buffer - ((lgth / BLOCK_SIZE) + 1)*BLOCK_SIZE;
396        int32_t lb_spos = (BLOCK_SIZE - (-1*spos)) & (BLOCK_SIZE-1);
397
398        uint8_t * lb_h0 = h0 - ((lgth / BLOCK_SIZE) + 1)*h_block_size;
399        uint8_t * lb_h1 = h1 - ((lgth / BLOCK_SIZE) + 1)*h_block_size;
400
401        gid = h_table.lookup_or_insert(lb_buffer, lb_spos, lgth, lb_h0, lb_h1, h_lgth, gid_factory, gid_data);
402
403        symbols.gids[blk_offset + spos] = gid;
404        ////////////////////////////////////////////////////////////////////
405        // End
406        ////////////////////////////////////////////////////////////////////
407
408        #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
409                        print_symbol_debug(gid, lb_buffer, lb_spos, epos, lgth);
410        #endif
411
412        fscanner.scan_to_next();
413        epos = fscanner.get_pos();
414        spos = (epos - lgth);
415
416        }
417
418        while(!fscanner.is_done()) {
419
420                gid = h_table.lookup_or_insert(buffer, spos, lgth, h0, h1, h_lgth, gid_factory, gid_data);
421                symbols.gids[blk_offset + spos] = gid;
422
423        #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
424                print_symbol_debug(gid, buffer, spos, epos, lgth);
425        #endif
426
427                fscanner.scan_to_next();
428                epos = fscanner.get_pos();
429                spos = (epos - lgth);
430        }
431
432}
433*/
434
Note: See TracBrowser for help on using the repository browser.