source: trunk/symbol_table/src/symbol_table.hpp @ 2053

Last change on this file since 2053 was 2053, checked in by ksherdy, 7 years ago

Specialized on LGTH.

File size: 12.7 KB
Line 
1/*
2 * id_symbol_table.hpp
3 * Created on: 18-December-2011
4 * Author: Ken Herdy
5 *
6 * BitBlock type arguments must adhere to the 'full-block invariant'
7 * and mask partial block with null bytes.
8 *
9 * Number of length groups must coincide with the
10 * number compiler generated length groups.
11 *
12 */
13#ifndef ID_SYMBOL_TABLE_TEMPLATE_HPP
14#define ID_SYMBOL_TABLE_TEMPLATE_HPP
15
16#include "buffer.hpp"
17#include "gid.hpp"
18#include "hash_table.hpp"
19#include "../lib/carryQ.hpp"
20#include "../lib/bitblock_iterator.hpp"
21#include "../lib/bitblock_scan.hpp"
22#include <cstdlib>
23#include <vector>
24using namespace std;
25
26#ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
27static void print_symbol_debug(gid_type gid, const uint8_t buffer [], const int32_t spos, const uint32_t epos, const uint32_t lgth) {
28        cout << "{Symbol:{";
29        cout << "GID:" << gid;
30        cout << ",Length:" << lgth;
31        cout << ",Value:'" << string((char *)&(buffer[spos]), lgth) << "'";
32        cout << ",Start:" << spos;
33        cout << ",End:" << epos;
34        cout << "}}" << endl;
35}
36#endif
37
38///////////////////////////////////////////////////////////////////////////
39// Symbol Type - do_block()
40///////////////////////////////////////////////////////////////////////////
41template<class SYMBOL, class HASH_TABLE>
42void do_block(uint32_t blk_offset,
43              HASH_TABLE & h_table,
44              BitBlock ends,
45              uint8_t buffer [], const uint32_t lgth,
46              uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
47              SYMBOL & symbols, GIDFactory & gid_factory, GIDData & gid_data);
48
49template<class SYMBOL, class HASH_TABLE>
50void do_block(uint32_t blk_offset,
51              HASH_TABLE & h_table,
52              BitBlock starts [], BitBlock ends [],
53              uint8_t buffer [],
54              uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
55              SYMBOL & symbols, GIDFactory & gid_factory, GIDData & gid_data);
56
57///////////////////////////////////////////////////////////////////////////
58// Symbol Type - Array gids.
59///////////////////////////////////////////////////////////////////////////
60
61class Symbol {
62public:
63    Symbol (uint32_t n) {
64                        init(n);
65    }
66
67    void init(uint32_t n) {
68                        gids.reserve(n);
69                        //gids_idx.reserve((n/BLOCK_SIZE) + 1);
70    }
71
72    vector<gid_type> gids;
73    //vector<BitBlock> gids_idx;   // gids index
74};
75
76
77// TODO - Refactor as a single mixed symbol table class composed of Id, Div2, Log2 hash tables.
78template<class SYMBOL, class ALLOCATOR>
79class symbol_table {
80public:
81        symbol_table()/*:hash_table_1(256)*/{}
82        ~symbol_table() {
83//      hash_table_1.print_table();
84//      hash_table_2.print_table();
85//      hash_table_3.print_table();
86//      hash_table_4.print_table();
87//      hash_table_5.print_table();
88//      hash_table_6.print_table();
89//      hash_table_7.print_table();
90//      hash_table_8.print_table();
91//      hash_table_9.print_table();
92//      hash_table_10.print_table();
93//      hash_table_11.print_table();
94//      hash_table_12.print_table();
95//      hash_table_13.print_table();
96//      hash_table_14.print_table();
97//      hash_table_15.print_table();
98//      hash_table_16.print_table();
99//      hash_table_gte_17.print_table();
100#ifdef HASH_TABLE_HPP_DEBUG
101        hash_table_1.print_diagnostics();
102        hash_table_2.print_diagnostics();
103        hash_table_3.print_diagnostics();
104        hash_table_4.print_diagnostics();
105        hash_table_5.print_diagnostics();
106        hash_table_6.print_diagnostics();
107        hash_table_7.print_diagnostics();
108        hash_table_8.print_diagnostics();
109        hash_table_9.print_diagnostics();
110        hash_table_10.print_diagnostics();
111        hash_table_11.print_diagnostics();
112        hash_table_12.print_diagnostics();
113        hash_table_13.print_diagnostics();
114        hash_table_14.print_diagnostics();
115        hash_table_15.print_diagnostics();
116        hash_table_16.print_diagnostics();
117        hash_table_gte_17.print_diagnostics();
118#endif
119        }
120
121        // Groups & groups
122        void resolve(uint8_t buffer [], Groups groups [],  BitBlock starts [], BitBlock ends_gte_17 [],
123                                 BitBlock h0 [], BitBlock h1 [], uint32_t blocks, SYMBOL & symbols) {
124
125                        for(uint32_t blk = 0; blk < blocks; blk++) {
126                                const uint32_t blk_offset = blk * BLOCKSIZE;
127                                resolve(blk_offset, &buffer[blk_offset], groups[blk], &starts[blk], &h0[blk], &h1[blk], symbols);
128                        }
129        }
130
131        // Groups & groups
132        IDISA_ALWAYS_INLINE
133        void resolve(uint32_t blk_offset, uint8_t buffer [], Groups & groups,  BitBlock starts[],
134                                 BitBlock * h0, BitBlock * h1, SYMBOL & symbols) {
135
136                        ///////////////////////////////////////////////////////////////////////////////
137                        // Byte Space Hash
138                        ///////////////////////////////////////////////////////////////////////////////
139                        #define BYTE_HASH(LGTH) \
140                                if(bitblock::any(groups.ends_##LGTH)) { \
141                                        do_block<SYMBOL, id_hash_table <LGTH, ALLOCATOR> > \
142                                                (blk_offset, \
143                                                 hash_table_##LGTH, \
144                                                 groups.ends_##LGTH, \
145                                                 buffer, LGTH, /* buffer, symbol length */ \
146                                                 buffer, buffer, BLOCK_SIZE, /* h0, h1, hash block size (bits) */ \
147                                                 symbols, this->gid_factory, this->gid_data); \
148                                }
149
150                                                BYTE_HASH(1);
151                                                BYTE_HASH(2);
152                                                BYTE_HASH(3);
153                                                BYTE_HASH(4);
154                                                BYTE_HASH(5);
155                                                BYTE_HASH(6);
156                                                BYTE_HASH(7);
157                        #undef BYTE_HASH
158
159                        ///////////////////////////////////////////////////////////////////////////////
160                        // Bit Space Hash
161                        ///////////////////////////////////////////////////////////////////////////////
162                        #define BIT_HASH(LGTH) \
163                                if(bitblock::any(groups.ends_##LGTH)) { \
164                                        do_block<SYMBOL, id_hash_table <LGTH, ALLOCATOR> > \
165                                                (blk_offset, \
166                                                 hash_table_##LGTH, \
167                                                 groups.ends_##LGTH, \
168                                                 buffer, LGTH, \
169                                                 (uint8_t *)h0, (uint8_t *)h1, (BLOCK_SIZE / 8), \
170                                                 symbols, this->gid_factory, this->gid_data); \
171                                }
172
173                        BIT_HASH(8);
174                        BIT_HASH(9);
175                        BIT_HASH(10);
176                        BIT_HASH(11);
177                        BIT_HASH(12);
178                        BIT_HASH(13);
179                        BIT_HASH(14);
180                        BIT_HASH(15);
181                        BIT_HASH(16);
182
183                        #undef BIT_HASH
184
185                        if(bitblock::any(groups.ends_gte_17)) {
186                                do_block<SYMBOL, id_hash_table<0, ALLOCATOR> >
187                                                (blk_offset,
188                                                 hash_table_gte_17,
189                                                 starts, &groups.ends_gte_17,
190                                                 buffer,
191                                                 (uint8_t *)h0, (uint8_t *)h1, BLOCK_SIZE/8,
192                                                 symbols, this->gid_factory, this->gid_data);
193                        }
194        }
195
196        IDISA_ALWAYS_INLINE uint8_t * get_raw_data(uint32_t idx) const { return gid_data.get_raw_bytes(idx); }
197        IDISA_ALWAYS_INLINE uint32_t get_lgth(uint32_t idx) const { return gid_data.get_bytes_lgth(idx); }
198
199private:
200
201        GIDFactory gid_factory;
202        GIDData gid_data;
203
204        ///////////////////////////////////////////////////////////////////////////////
205        // Byte Space Hash
206        ///////////////////////////////////////////////////////////////////////////////
207        id_hash_table<1, ALLOCATOR> hash_table_1;
208        id_hash_table<2, ALLOCATOR> hash_table_2;
209        id_hash_table<3, ALLOCATOR> hash_table_3;
210        id_hash_table<4, ALLOCATOR> hash_table_4;
211        id_hash_table<5, ALLOCATOR> hash_table_5;
212        id_hash_table<6, ALLOCATOR> hash_table_6;
213        id_hash_table<7, ALLOCATOR> hash_table_7;
214//      ///////////////////////////////////////////////////////////////////////////////
215//      // Bit Space Hash
216//      ///////////////////////////////////////////////////////////////////////////////
217        id_hash_table<8, ALLOCATOR> hash_table_8;
218        id_hash_table<9, ALLOCATOR> hash_table_9;
219        id_hash_table<10, ALLOCATOR> hash_table_10;
220        id_hash_table<11, ALLOCATOR> hash_table_11;
221        id_hash_table<12, ALLOCATOR> hash_table_12;
222        id_hash_table<13, ALLOCATOR> hash_table_13;
223        id_hash_table<14, ALLOCATOR> hash_table_14;
224        id_hash_table<15, ALLOCATOR> hash_table_15;
225        id_hash_table<16, ALLOCATOR> hash_table_16;
226        id_hash_table<0, ALLOCATOR> hash_table_gte_17;
227};
228
229/* NOTE: C++ template code and Pablo generated length groups must coincide. */
230
231// Fixed Lengths - REVERSE SCAN LOGIC - Scan each BLOCK MSB to LSB
232template<class SYMBOL, class HASH_TABLE>
233void do_block(uint32_t blk_offset,
234                  HASH_TABLE & h_table,
235                  BitBlock ends,
236                  uint8_t buffer [], const uint32_t lgth,
237                  uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
238                  SYMBOL & symbols, GIDFactory & gid_factory, GIDData & gid_data) {
239
240                uint8_t * buffer_base = buffer;
241                uint8_t * h0_base = h0;
242                uint8_t * h1_base = h1;
243
244                gid_type gid;
245                int32_t epos;
246                int32_t spos;
247                uint32_t blk_count;
248
249        ReverseScanner<BitBlock, scanword_t> rscanner(&ends);
250
251        rscanner.scan_to_next();
252        epos = rscanner.get_pos();
253
254                while(!rscanner.is_done()) {
255
256                spos = epos - lgth;
257
258                        if(spos < 0) { // boundary case
259                                        spos = (BLOCK_SIZE - (-1 * spos)) & (BLOCK_SIZE - 1);
260                                        blk_count = (lgth/BLOCK_SIZE)+1;
261                                        buffer_base -= (BLOCK_SIZE * blk_count);
262                                        h0_base -= (h_block_size * blk_count);
263                                        h1_base -= (h_block_size * blk_count);
264                        }
265
266                        assert (spos >= 0);
267
268                        gid = h_table.lookup_or_insert(buffer_base, spos, lgth, h0_base, h1_base, gid_factory, gid_data); // WARNING: spos must be >= 0
269
270                        #ifdef ID_SYMBOL_STORE_SYMBOL_GIDS_AT_END_POSITION
271                        symbols.gids[blk_offset + epos] = gid;
272                        #else
273                        symbols.gids[blk_offset + epos - lgth] = gid;
274                        #endif
275
276                        #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
277                                print_symbol_debug(gid, buffer_base, spos, epos, lgth);
278                        #endif
279
280                        rscanner.scan_to_next();
281                epos = rscanner.get_pos();
282                }
283        }
284
285
286// Variable Lengths, reverse scanner logic
287// Precondition: A symbol end is marked iff a symbol start is marked within a buffer segment.
288template<class SYMBOL, class HASH_TABLE>
289void do_block(uint32_t blk_offset,
290                          HASH_TABLE & h_table,
291                          BitBlock starts [], BitBlock ends [],
292                          uint8_t buffer [],
293                          uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
294                          SYMBOL & symbols, GIDFactory & gid_factory, GIDData & gid_data) {
295
296        BitBlock * starts_base = starts;
297        uint8_t * buffer_base = buffer;
298        uint8_t * h0_base = h0;
299        uint8_t * h1_base = h1;
300
301        gid_type gid;
302        int32_t epos;
303        int32_t spos;
304        uint32_t lgth;
305        uint32_t blk_count = 0;
306
307        ReverseScanner<BitBlock, scanword_t> ends_rscanner(ends);
308        ReverseScanner<BitBlock, scanword_t> starts_rscanner(starts);
309
310        ends_rscanner.scan_to_next();
311        epos = ends_rscanner.get_pos();
312
313        while(!ends_rscanner.is_done()) {
314
315                starts_rscanner.move_to(epos);
316                starts_rscanner.scan_to_next();
317                spos = starts_rscanner.get_pos();
318                lgth = epos - spos;
319
320                while(starts_rscanner.is_done()) { // boundary case
321                          starts_base--;
322
323                        blk_count++;
324
325                        starts_rscanner.init(starts_base);
326                        starts_rscanner.scan_to_next();
327
328                        if(!starts_rscanner.is_done()) { // found start
329                                        lgth = epos + (BLOCK_SIZE - starts_rscanner.get_pos()) + (BLOCK_SIZE * (blk_count-1));
330                                        // spos = (BLOCK_SIZE - (-1 * spos)) & (BLOCK_SIZE - 1);
331
332                                        // buffer_base -= (BLOCK_SIZE * blk_count);
333                                        //spos = epos - lgth;
334                                        spos = starts_rscanner.get_pos();
335
336                                        buffer_base -= (BLOCK_SIZE * blk_count);
337                                        h0_base -= (h_block_size * blk_count);
338                                        h1_base -= (h_block_size * blk_count);
339                                        break;
340                        }
341
342                }
343
344                gid = h_table.lookup_or_insert(buffer_base, spos, lgth, h0_base, h1_base, gid_factory, gid_data); // WARNING: spos must be >= 0
345
346                #ifdef ID_SYMBOL_STORE_SYMBOL_GIDS_AT_END_POSITION
347                symbols.gids[blk_offset + epos] = gid;
348                #else
349                symbols.gids[blk_offset + epos - lgth] = gid;
350                #endif
351
352                #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
353                        //print_symbol_debug(gid, buffer, spos, epos, lgth);
354                        print_symbol_debug(gid, buffer_base, spos, epos, lgth);
355                #endif
356
357                ends_rscanner.scan_to_next();
358                epos = ends_rscanner.get_pos();
359        }
360}
361
362#endif // ID_SYMBOL_TABLE_TEMPLATE_HPP
363
364
365/* // Forward Scan
366void do_block(uint32_t blk_offset,
367                  HASH_TABLE & h_table,
368                  BitBlock ends,
369                  uint8_t buffer [], const uint32_t lgth,
370                  uint8_t h0 [], uint8_t h1 [], const uint32_t h_lgth, const uint32_t h_block_size,
371                  SYMBOL & symbols, GIDFactory & gid_factory, GIDData & gid_data) {
372
373        gid_type gid;
374        int32_t spos;
375        int32_t epos;
376        ForwardScanner<BitBlock, scanword_t> fscanner(&ends);
377
378        fscanner.scan_to_next();
379        epos = fscanner.get_pos();
380        spos = (epos - lgth);
381
382        if(!fscanner.is_done() && (spos < 0) ) { // block boundary case
383
384        ////////////////////////////////////////////////////////////////////
385        // Start - Review boundary logic
386        ////////////////////////////////////////////////////////////////////
387        uint8_t * lb_buffer = buffer - ((lgth / BLOCK_SIZE) + 1)*BLOCK_SIZE;
388        int32_t lb_spos = (BLOCK_SIZE - (-1*spos)) & (BLOCK_SIZE-1);
389
390        uint8_t * lb_h0 = h0 - ((lgth / BLOCK_SIZE) + 1)*h_block_size;
391        uint8_t * lb_h1 = h1 - ((lgth / BLOCK_SIZE) + 1)*h_block_size;
392
393        gid = h_table.lookup_or_insert(lb_buffer, lb_spos, lgth, lb_h0, lb_h1, h_lgth, gid_factory, gid_data);
394
395        symbols.gids[blk_offset + spos] = gid;
396        ////////////////////////////////////////////////////////////////////
397        // End
398        ////////////////////////////////////////////////////////////////////
399
400        #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
401                        print_symbol_debug(gid, lb_buffer, lb_spos, epos, lgth);
402        #endif
403
404        fscanner.scan_to_next();
405        epos = fscanner.get_pos();
406        spos = (epos - lgth);
407
408        }
409
410        while(!fscanner.is_done()) {
411
412                gid = h_table.lookup_or_insert(buffer, spos, lgth, h0, h1, h_lgth, gid_factory, gid_data);
413                symbols.gids[blk_offset + spos] = gid;
414
415        #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
416                print_symbol_debug(gid, buffer, spos, epos, lgth);
417        #endif
418
419                fscanner.scan_to_next();
420                epos = fscanner.get_pos();
421                spos = (epos - lgth);
422        }
423
424}
425*/
426
Note: See TracBrowser for help on using the repository browser.