source: trunk/symbol_table/src/symbol_table.hpp @ 2106

Last change on this file since 2106 was 2106, checked in by ksherdy, 7 years ago

Added bit / byte strategy. Added length test to hash table.

File size: 16.5 KB
Line 
1/*
2 * id_symbol_table.hpp
3 * Created on: 18-December-2011
4 * Author: Ken Herdy
5 *
6 * BitBlock type arguments must adhere to the 'full-block invariant'
7 * and mask partial block with null bytes.
8 *
9 * Number of length groups must coincide with the
10 * number compiler generated length groups.
11 *
12 */
13#ifndef ID_SYMBOL_TABLE_TEMPLATE_HPP
14#define ID_SYMBOL_TABLE_TEMPLATE_HPP
15
16
17#include "strategy_types.hpp"
18#include "buffer.hpp"
19#include "gid.hpp"
20#include "hash_table.hpp"
21#include "../lib/carryQ.hpp"
22#include "../lib/bitblock_iterator.hpp"
23#include "../lib/bitblock_scan.hpp"
24#include <cstdlib>
25#include <vector>
26using namespace std;
27
28#ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
29static void print_symbol_debug(gid_type gid, const uint8_t buffer [], const int32_t spos, const uint32_t epos, const uint32_t lgth) {
30        cout << "{Symbol:{";
31        cout << "GID:" << gid;
32        cout << ",Length:" << lgth;
33        cout << ",Value:'" << string((char *)&(buffer[spos]), lgth) << "'";
34        cout << ",Start:" << spos;
35        cout << ",Follows:" << epos;
36        cout << "}}" << endl;
37}
38#endif
39
40///////////////////////////////////////////////////////////////////////////
41// Symbol Type - do_block()
42///////////////////////////////////////////////////////////////////////////
43template<class GIDS, class HASH_TABLE>
44void do_block(uint32_t blk_offset,
45              HASH_TABLE & h_table,
46              BitBlock follows,
47              uint8_t buffer [], const uint32_t lgth,
48              uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
49              GIDS & gids, GIDFactory & gid_factory, GIDData & gid_data);
50
51template<class GIDS, class HASH_TABLE>
52void do_block(uint32_t blk_offset,
53              HASH_TABLE & h_table,
54              BitBlock starts [], BitBlock follows [],
55              uint8_t buffer [],
56              uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
57              GIDS & gids, GIDFactory & gid_factory, GIDData & gid_data);
58
59///////////////////////////////////////////////////////////////////////////
60// Symbol Type - Array gids.
61///////////////////////////////////////////////////////////////////////////
62
63template<uint32_t SIZE>
64class gid {
65public:
66    gid_type at[SIZE];
67    //vector<BitBlock> gids_idx;   // gids index
68};
69
70
71template<class GIDS, class ALLOCATOR>
72class symbol_table {
73public:
74        symbol_table()/*:hash_table_1(256)*/{}
75        ~symbol_table() {
76//      hash_table_x.print_table();
77#ifdef HASH_TABLE_HPP_DEBUG
78//      hash_table_x.print_diagnostics();
79#endif
80        }
81
82        // Groups & groups
83        void resolve(uint8_t buffer [], Groups groups [],  BitBlock starts [], BitBlock follows_0 [],
84                                 BitBlock h0 [], BitBlock h1 [], uint32_t segment_blocks, GIDS & gids) {
85
86                        for(uint32_t blk = 0; blk < segment_blocks; blk++) {
87                                const uint32_t blk_offset = blk * BLOCKSIZE;
88                                resolve(blk_offset, &buffer[blk_offset], groups[blk], &starts[blk], &h0[blk], &h1[blk], gids);
89                        }
90        }
91
92        // Groups & groups
93        IDISA_ALWAYS_INLINE void resolve(uint32_t blk_offset, uint8_t buffer [], Groups & groups,  BitBlock starts[],
94                                 BitBlock * h0, BitBlock * h1, GIDS & gids) {
95
96                        ///////////////////////////////////////////////////////////////////////////////
97                        // Byte Space Hash (Fixed Length)
98                        ///////////////////////////////////////////////////////////////////////////////
99                        #define BYTE_HASH_FIXED(GROUP_STRATEGY, HASH_STRATEGY, LGTH) \
100                                if(bitblock::any(groups.follows_##LGTH)) { \
101                                        do_block<GIDS, GROUP_STRATEGY##_hash_table <LGTH, GROUP_STRATEGY, HASH_STRATEGY, ALLOCATOR> > \
102                                                (blk_offset, \
103                                                 hash_table_##LGTH, \
104                                                 groups.follows_##LGTH, \
105                                                 buffer, LGTH, /* buffer, symbol length */ \
106                                                 buffer, buffer, BLOCK_SIZE, /* h0, h1, hash block size (bits) */ \
107                                                 gids, this->gid_factory, this->gid_data); \
108                                }
109
110                        /////////////////////////////////////////////////////////////////////////////
111                        // Byte Space Variable Lengths (groups contain variable lengths)
112                        ///////////////////////////////////////////////////////////////////////////////
113                        #define BYTE_HASH_VARIABLE(GROUP_STRATEGY, HASH_STRATEGY, LGTH) \
114                                if(bitblock::any(groups.follows_##LGTH)) { \
115                                        do_block<GIDS, GROUP_STRATEGY##_hash_table <LGTH, GROUP_STRATEGY, HASH_STRATEGY, ALLOCATOR> > \
116                                                (blk_offset, \
117                                                 hash_table_##LGTH, \
118                                                 starts, \
119                                                 &groups.follows_##LGTH, \
120                                                 buffer, \
121                                                 buffer, buffer, BLOCK_SIZE, /* h0, h1, hash block size (bits) */ \
122                                                 gids, this->gid_factory, this->gid_data); \
123                                }
124
125
126                        ///////////////////////////////////////////////////////////////////////////////
127                        // Bit Space Hash (Fixed Length)
128                        ///////////////////////////////////////////////////////////////////////////////
129                        #define BIT_HASH_FIXED(GROUP_STRATEGY, HASH_STRATEGY, LGTH) \
130                                if(bitblock::any(groups.follows_##LGTH)) { \
131                                        do_block<GIDS, GROUP_STRATEGY##_hash_table <LGTH, GROUP_STRATEGY, HASH_STRATEGY, ALLOCATOR> > \
132                                                (blk_offset, \
133                                                 hash_table_##LGTH, \
134                                                 groups.follows_##LGTH, \
135                                                 buffer, LGTH, \
136                                                 (uint8_t *)h0, (uint8_t *)h1, (BLOCK_SIZE / 8), \
137                                                 gids, this->gid_factory, this->gid_data); \
138                                }
139
140                        /////////////////////////////////////////////////////////////////////////////
141                        // Byte Space Variable Lengths (groups contain variable lengths)
142                        ///////////////////////////////////////////////////////////////////////////////
143                        #define BIT_HASH_VARIABLE(GROUP_STRATEGY, HASH_STRATEGY, LGTH) \
144                                if(bitblock::any(groups.follows_##LGTH)) { \
145                                        do_block<GIDS, GROUP_STRATEGY##_hash_table <LGTH, GROUP_STRATEGY, HASH_STRATEGY, ALLOCATOR> > \
146                                                (blk_offset, \
147                                                 hash_table_##LGTH, \
148                                                 starts, \
149                                                 &groups.follows_##LGTH, \
150                                                 buffer, \
151                                                 (uint8_t *)h0, (uint8_t *)h1, (BLOCK_SIZE / 8), /* h0, h1, hash block size (bits) */ \
152                                                 gids, this->gid_factory, this->gid_data); \
153                                }
154
155                        ///////////////////////////////////////////////////////////////////////////////
156                        // WARNING: BYTE_HASH max 8 bytes under the shift XOR hash approach of hash.hpp
157                        //     ---> (id,7),(div2,6),(logbase2,4)
158                        ///////////////////////////////////////////////////////////////////////////////
159                        #ifdef ID_STRATEGY
160                            BYTE_HASH_FIXED(id,byte,1);
161                            BYTE_HASH_FIXED(id,byte,2);
162                            BYTE_HASH_FIXED(id,byte,3);
163                            BYTE_HASH_FIXED(id,byte,4);
164                            BYTE_HASH_FIXED(id,byte,5);
165                            BYTE_HASH_FIXED(id,byte,6);
166                            BYTE_HASH_FIXED(id,byte,7);
167                            BIT_HASH_FIXED(id,bit,8);
168                            BIT_HASH_FIXED(id,bit,9);
169                            BIT_HASH_FIXED(id,bit,10);
170                            BIT_HASH_FIXED(id,bit,11);
171                            BIT_HASH_FIXED(id,bit,12);
172                            BIT_HASH_FIXED(id,bit,13);
173                            BIT_HASH_FIXED(id,bit,14);
174                            BIT_HASH_FIXED(id,bit,15);
175                            BIT_HASH_FIXED(id,bit,16);
176                            BIT_HASH_VARIABLE(id,bit,0);
177                        #elif DIV2_STRATEGY
178                            BYTE_HASH_FIXED(div2,byte,2);
179                            BYTE_HASH_FIXED(div2,byte,4);
180                            BYTE_HASH_FIXED(div2,byte,6);
181                            BIT_HASH_FIXED(div2,bit,8);
182                            BIT_HASH_FIXED(div2,bit,10);
183                            BIT_HASH_FIXED(div2,bit,12);
184                            BIT_HASH_FIXED(div2,bit,14);
185                            BIT_HASH_FIXED(div2,bit,16);
186                            BIT_HASH_VARIABLE(id,bit,0);
187                        #elif LOGBASE2_STRATEGY
188                            BYTE_HASH_VARIABLE(logbase2,byte,1);
189                            BYTE_HASH_VARIABLE(logbase2,byte,2);
190                            BYTE_HASH_VARIABLE(logbase2,byte,4);
191                            BIT_HASH_VARIABLE(logbase2,bit,8);
192                            BIT_HASH_VARIABLE(logbase2,bit,16);
193                            BIT_HASH_VARIABLE(id,bit,0);
194                        #elif DIV2_LOGBASE2_STRATEGY
195                            BYTE_HASH_FIXED(div2,byte,2);
196                            BYTE_HASH_FIXED(div2,byte,4);
197                            BYTE_HASH_FIXED(div2,byte,6);
198                            BIT_HASH_FIXED(div2,bit,8);
199                            BIT_HASH_VARIABLE(logbase2,bit,16);
200                            BIT_HASH_VARIABLE(id,bit,0);
201                        #elif BIT_BYTE_STRATEGY
202                            BYTE_HASH_VARIABLE(bit_byte,byte,7);
203                            BIT_HASH_VARIABLE(bit_byte,bit,0);
204                        #endif
205
206                        #undef BYTE_HASH_FIXED
207                        #undef BYTE_HASH_VARIABLE
208                        #undef BIT_HASH_FIXED
209                        #undef BIT_HASH_VARIABLE
210
211        }
212
213        IDISA_ALWAYS_INLINE uint8_t * get_raw_data(uint32_t idx) const { return gid_data.get_raw_bytes(idx); }
214        IDISA_ALWAYS_INLINE uint32_t get_lgth(uint32_t idx) const { return gid_data.get_bytes_lgth(idx); }
215        IDISA_ALWAYS_INLINE gid_type get_max_gid() const { return gid_data.max(); }
216
217private:
218        GIDFactory gid_factory;
219        GIDData gid_data;
220
221        ///////////////////////////////////////////////////////////////////////////////
222        // Byte Space Hash
223        ///////////////////////////////////////////////////////////////////////////////
224        #ifdef ID_STRATEGY
225            id_hash_table<1, id, byte, ALLOCATOR> hash_table_1;
226            id_hash_table<2, id, byte, ALLOCATOR> hash_table_2;
227            id_hash_table<3, id, byte, ALLOCATOR> hash_table_3;
228            id_hash_table<4, id, byte, ALLOCATOR> hash_table_4;
229            id_hash_table<5, id, byte, ALLOCATOR> hash_table_5;
230            id_hash_table<6, id, byte, ALLOCATOR> hash_table_6;
231            id_hash_table<7, id, byte, ALLOCATOR> hash_table_7;
232            id_hash_table<8, id, bit, ALLOCATOR> hash_table_8;
233            id_hash_table<9, id, bit, ALLOCATOR> hash_table_9;
234            id_hash_table<10, id, bit, ALLOCATOR> hash_table_10;
235            id_hash_table<11, id, bit, ALLOCATOR> hash_table_11;
236            id_hash_table<12, id, bit, ALLOCATOR> hash_table_12;
237            id_hash_table<13, id, bit, ALLOCATOR> hash_table_13;
238            id_hash_table<14, id, bit, ALLOCATOR> hash_table_14;
239            id_hash_table<15, id, bit, ALLOCATOR> hash_table_15;
240            id_hash_table<16, id, bit, ALLOCATOR> hash_table_16;
241            id_hash_table<0, id, bit, ALLOCATOR> hash_table_0;
242        #elif DIV2_STRATEGY
243            div2_hash_table<2, div2, byte, ALLOCATOR> hash_table_2;
244            div2_hash_table<4, div2, byte, ALLOCATOR> hash_table_4;
245            div2_hash_table<6, div2, byte, ALLOCATOR> hash_table_6;
246            div2_hash_table<8, div2, bit, ALLOCATOR> hash_table_8;
247            div2_hash_table<10, div2, bit, ALLOCATOR> hash_table_10;
248            div2_hash_table<12, div2, bit, ALLOCATOR> hash_table_12;
249            div2_hash_table<14, div2, bit, ALLOCATOR> hash_table_14;
250            div2_hash_table<16, div2, bit, ALLOCATOR> hash_table_16;
251            id_hash_table<0, id, bit, ALLOCATOR> hash_table_0;
252        #elif LOGBASE2_STRATEGY
253            logbase2_hash_table<1, logbase2, byte, ALLOCATOR> hash_table_1;
254            logbase2_hash_table<2, logbase2, byte, ALLOCATOR> hash_table_2;
255            logbase2_hash_table<4, logbase2, byte, ALLOCATOR> hash_table_4;
256            logbase2_hash_table<8, logbase2, bit, ALLOCATOR> hash_table_8;
257            logbase2_hash_table<16, logbase2, bit, ALLOCATOR> hash_table_16;
258            id_hash_table<0, id, bit, ALLOCATOR> hash_table_0;
259        #elif DIV2_LOGBASE2_STRATEGY
260            div2_hash_table<2, div2, byte, ALLOCATOR> hash_table_2;
261            div2_hash_table<4, div2, byte, ALLOCATOR> hash_table_4;
262            div2_hash_table<6, div2, byte, ALLOCATOR> hash_table_6;
263            div2_hash_table<8, div2, bit, ALLOCATOR> hash_table_8;
264//      id_hash_table<1, id, byte, ALLOCATOR> hash_table_1;
265//      id_hash_table<2, id, byte, ALLOCATOR> hash_table_2;
266//      id_hash_table<3, id, byte, ALLOCATOR> hash_table_3;
267//      id_hash_table<4, id, byte, ALLOCATOR> hash_table_4;
268//      id_hash_table<5, id, byte, ALLOCATOR> hash_table_5;
269//      id_hash_table<6, id, byte, ALLOCATOR> hash_table_6;
270//      id_hash_table<7, id, byte, ALLOCATOR> hash_table_7;
271//      id_hash_table<8, id, bit, ALLOCATOR> hash_table_8;
272            logbase2_hash_table<16, logbase2, bit, ALLOCATOR> hash_table_16;
273            id_hash_table<0, id, bit, ALLOCATOR> hash_table_0;
274        #elif BIT_BYTE_STRATEGY
275            bit_byte_hash_table<7, bit_byte, byte, ALLOCATOR> hash_table_7;
276            bit_byte_hash_table<0, bit_byte, bit, ALLOCATOR> hash_table_0;
277        #else
278            #error "Length group strategy not specified. #define {ID_STRATEGY,DIV2_STRATEGY,LOGBASE2_STRATEGY,DIV2_LOGBASE2_STRATEGY,BIT_BYTE}."
279        #endif
280
281
282};
283
284/* NOTE: C++ template code and Pablo generated length groups must coincide. */
285
286// Fixed Lengths - REVERSE SCAN LOGIC - Scan each BLOCK MSB to LSB
287template<class GIDS, class HASH_TABLE>
288void do_block(uint32_t blk_offset,
289                  HASH_TABLE & h_table,
290                  BitBlock follows,
291                  uint8_t buffer [], const uint32_t lgth,
292                  uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
293                  GIDS & gids, GIDFactory & gid_factory, GIDData & gid_data) {
294
295                uint8_t * buffer_base = buffer;
296                uint8_t * h0_base = h0;
297                uint8_t * h1_base = h1;
298
299                gid_type gid;
300                int32_t fpos;
301                int32_t spos;
302                uint32_t blk_count;
303
304        ReverseScanner<BitBlock, scanword_t> rscanner(&follows);
305
306        rscanner.scan_to_next();
307        fpos = rscanner.get_pos();
308
309                while(!rscanner.is_done()) {
310
311                spos = fpos - lgth;
312
313                        if(spos < 0) { // boundary case
314                                        spos = (BLOCK_SIZE - (-1 * spos)) & (BLOCK_SIZE - 1);
315                                        blk_count = (lgth/BLOCK_SIZE)+1;
316                                        buffer_base -= (BLOCK_SIZE * blk_count);
317                                        h0_base -= (h_block_size * blk_count);
318                                        h1_base -= (h_block_size * blk_count);
319                        }
320
321                        gid = h_table.lookup_or_insert(buffer_base, spos, lgth, h0_base, h1_base, gid_factory, gid_data); // WARNING: spos must be >= 0
322
323                        #ifdef ID_SYMBOL_STORE_SYMBOL_GIDS_AT_FOLLOW_POSITION
324                        gids.at[blk_offset + epos] = gid;
325                        #else
326                        gids.at[blk_offset + fpos - gid_data.get_bytes_lgth(gid)] = gid;
327                        #endif
328
329                        #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
330                                print_symbol_debug(gid, buffer_base, spos, fpos, gid_data.get_bytes_lgth(gid));
331                        #endif
332
333                        rscanner.scan_to_next();
334                        fpos = rscanner.get_pos();
335                }
336        }
337
338
339// Variable Lengths, reverse scanner logic
340// Precondition: A symbol end is marked iff a symbol start is marked within a buffer segment.
341template<class SYMBOL, class HASH_TABLE>
342void do_block(uint32_t blk_offset,
343                          HASH_TABLE & h_table,
344                          BitBlock starts [], BitBlock follows [],
345                          uint8_t buffer [],
346                          uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
347                          SYMBOL & gids, GIDFactory & gid_factory, GIDData & gid_data) {
348
349        BitBlock * starts_base = starts;
350        uint8_t * buffer_base = buffer;
351        uint8_t * h0_base = h0;
352        uint8_t * h1_base = h1;
353
354        gid_type gid;
355        int32_t fpos;
356        int32_t spos;
357        uint32_t lgth;
358        uint32_t blk_count = 0;
359
360        ReverseScanner<BitBlock, scanword_t> follows_rscanner(follows);
361        ReverseScanner<BitBlock, scanword_t> starts_rscanner(starts);
362
363        follows_rscanner.scan_to_next();
364        fpos = follows_rscanner.get_pos();
365
366        while(!follows_rscanner.is_done()) {
367
368                starts_rscanner.move_to(fpos);
369                starts_rscanner.scan_to_next();
370                spos = starts_rscanner.get_pos();
371                lgth = fpos - spos;
372
373                while(starts_rscanner.is_done()) { // boundary case
374                          starts_base--;
375
376                        blk_count++;
377
378                        starts_rscanner.init(starts_base);
379                        starts_rscanner.scan_to_next();
380
381                        if(!starts_rscanner.is_done()) { // found start
382                                        lgth = fpos + (BLOCK_SIZE - starts_rscanner.get_pos()) + (BLOCK_SIZE * (blk_count-1));
383                                        spos = starts_rscanner.get_pos();
384                                        buffer_base -= (BLOCK_SIZE * blk_count);
385                                        h0_base -= (h_block_size * blk_count);
386                                        h1_base -= (h_block_size * blk_count);
387                                        break;
388                        }
389
390                }
391
392                gid = h_table.lookup_or_insert(buffer_base, spos, lgth, h0_base, h1_base, gid_factory, gid_data); // WARNING: spos must be >= 0
393
394                #ifdef ID_SYMBOL_STORE_SYMBOL_GIDS_AT_END_POSITION
395                gids.at[blk_offset + epos] = gid;
396                #else
397                gids.at[blk_offset + fpos - lgth] = gid;
398                #endif
399
400                #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
401                        //print_symbol_debug(gid, buffer, spos, fpos, lgth);
402                        print_symbol_debug(gid, buffer_base, spos, fpos, gid_data.get_bytes_lgth(gid));
403                #endif
404
405                follows_rscanner.scan_to_next();
406                fpos = follows_rscanner.get_pos();
407        }
408}
409
410#endif // ID_SYMBOL_TABLE_TEMPLATE_HPP
411
412
413/* // Forward Scan
414void do_block(uint32_t blk_offset,
415                  HASH_TABLE & h_table,
416                  BitBlock follows,
417                  uint8_t buffer [], const uint32_t lgth,
418                  uint8_t h0 [], uint8_t h1 [], const uint32_t h_lgth, const uint32_t h_block_size,
419                  SYMBOL & symbols, GIDFactory & gid_factory, GIDData & gid_data) {
420
421        gid_type gid;
422        int32_t spos;
423        int32_t epos;
424        ForwardScanner<BitBlock, scanword_t> fscanner(&follows);
425
426        fscanner.scan_to_next();
427        epos = fscanner.get_pos();
428        spos = (epos - lgth);
429
430        if(!fscanner.is_done() && (spos < 0) ) { // block boundary case
431
432        ////////////////////////////////////////////////////////////////////
433        // Start - Review boundary logic
434        ////////////////////////////////////////////////////////////////////
435        uint8_t * lb_buffer = buffer - ((lgth / BLOCK_SIZE) + 1)*BLOCK_SIZE;
436        int32_t lb_spos = (BLOCK_SIZE - (-1*spos)) & (BLOCK_SIZE-1);
437
438        uint8_t * lb_h0 = h0 - ((lgth / BLOCK_SIZE) + 1)*h_block_size;
439        uint8_t * lb_h1 = h1 - ((lgth / BLOCK_SIZE) + 1)*h_block_size;
440
441        gid = h_table.lookup_or_insert(lb_buffer, lb_spos, lgth, lb_h0, lb_h1, h_lgth, gid_factory, gid_data);
442
443        symbols.gids[blk_offset + spos] = gid;
444        ////////////////////////////////////////////////////////////////////
445        // End
446        ////////////////////////////////////////////////////////////////////
447
448        #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
449                        print_symbol_debug(gid, lb_buffer, lb_spos, epos, lgth);
450        #endif
451
452        fscanner.scan_to_next();
453        epos = fscanner.get_pos();
454        spos = (epos - lgth);
455
456        }
457
458        while(!fscanner.is_done()) {
459
460                gid = h_table.lookup_or_insert(buffer, spos, lgth, h0, h1, h_lgth, gid_factory, gid_data);
461                symbols.gids[blk_offset + spos] = gid;
462
463        #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
464                print_symbol_debug(gid, buffer, spos, epos, lgth);
465        #endif
466
467                fscanner.scan_to_next();
468                epos = fscanner.get_pos();
469                spos = (epos - lgth);
470        }
471
472}
473*/
474
Note: See TracBrowser for help on using the repository browser.