source: trunk/symbol_table/src/symbol_table.hpp @ 2059

Last change on this file since 2059 was 2059, checked in by ksherdy, 7 years ago

Updated div2 pablo logic to mark both length i and i+1 at common marker
positions to allow symbol distinction on precense/absence of a
delimeter.

File size: 13.5 KB
Line 
1/*
2 * id_symbol_table.hpp
3 * Created on: 18-December-2011
4 * Author: Ken Herdy
5 *
6 * BitBlock type arguments must adhere to the 'full-block invariant'
7 * and mask partial block with null bytes.
8 *
9 * Number of length groups must coincide with the
10 * number compiler generated length groups.
11 *
12 */
13#ifndef ID_SYMBOL_TABLE_TEMPLATE_HPP
14#define ID_SYMBOL_TABLE_TEMPLATE_HPP
15
16#include "buffer.hpp"
17#include "gid.hpp"
18#include "hash_table.hpp"
19#include "../lib/carryQ.hpp"
20#include "../lib/bitblock_iterator.hpp"
21#include "../lib/bitblock_scan.hpp"
22#include <cstdlib>
23#include <vector>
24using namespace std;
25
26#ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
27static void print_symbol_debug(gid_type gid, const uint8_t buffer [], const int32_t spos, const uint32_t epos, const uint32_t lgth) {
28        cout << "{Symbol:{";
29        cout << "GID:" << gid;
30        cout << ",Length:" << lgth;
31        cout << ",Value:'" << string((char *)&(buffer[spos]), lgth) << "'";
32        cout << ",Start:" << spos;
33        cout << ",End:" << epos;
34        cout << "}}" << endl;
35}
36#endif
37
38///////////////////////////////////////////////////////////////////////////
39// Symbol Type - do_block()
40///////////////////////////////////////////////////////////////////////////
41template<class SYMBOL, class HASH_TABLE>
42void do_block(uint32_t blk_offset,
43              HASH_TABLE & h_table,
44              BitBlock ends,
45              uint8_t buffer [], const uint32_t lgth,
46              uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
47              SYMBOL & symbols, GIDFactory & gid_factory, GIDData & gid_data);
48
49template<class SYMBOL, class HASH_TABLE>
50void do_block(uint32_t blk_offset,
51              HASH_TABLE & h_table,
52              BitBlock starts [], BitBlock ends [],
53              uint8_t buffer [],
54              uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
55              SYMBOL & symbols, GIDFactory & gid_factory, GIDData & gid_data);
56
57///////////////////////////////////////////////////////////////////////////
58// Symbol Type - Array gids.
59///////////////////////////////////////////////////////////////////////////
60
61class Symbol {
62public:
63    Symbol (uint32_t n) {
64                        init(n);
65    }
66
67    void init(uint32_t n) {
68                        gids.reserve(n);
69                        //gids_idx.reserve((n/BLOCK_SIZE) + 1);
70    }
71
72    vector<gid_type> gids;
73    //vector<BitBlock> gids_idx;   // gids index
74};
75
76
77// TODO - Refactor as a single mixed symbol table class composed of Id, Div2, Log2 hash tables.
78template<class SYMBOL, class ALLOCATOR>
79class symbol_table {
80public:
81        symbol_table()/*:hash_table_1(256)*/{}
82        ~symbol_table() {
83//      hash_table_1.print_table();
84//      hash_table_2.print_table();
85//      hash_table_3.print_table();
86//      hash_table_4.print_table();
87//      hash_table_5.print_table();
88//      hash_table_6.print_table();
89//      hash_table_7.print_table();
90//      hash_table_8.print_table();
91//      hash_table_9.print_table();
92//      hash_table_10.print_table();
93//      hash_table_11.print_table();
94//      hash_table_12.print_table();
95//      hash_table_13.print_table();
96//      hash_table_14.print_table();
97//      hash_table_15.print_table();
98//      hash_table_16.print_table();
99//      hash_table_gte_17.print_table();
100#ifdef HASH_TABLE_HPP_DEBUG
101//      hash_table_1.print_diagnostics();
102//      hash_table_2.print_diagnostics();
103//      hash_table_3.print_diagnostics();
104//      hash_table_4.print_diagnostics();
105//      hash_table_5.print_diagnostics();
106//      hash_table_6.print_diagnostics();
107//      hash_table_7.print_diagnostics();
108//      hash_table_8.print_diagnostics();
109//      hash_table_9.print_diagnostics();
110//      hash_table_10.print_diagnostics();
111//      hash_table_11.print_diagnostics();
112//      hash_table_12.print_diagnostics();
113//      hash_table_13.print_diagnostics();
114//      hash_table_14.print_diagnostics();
115//      hash_table_15.print_diagnostics();
116//      hash_table_16.print_diagnostics();
117//      hash_table_gte_17.print_diagnostics();
118#endif
119        }
120
121        // Groups & groups
122        void resolve(uint8_t buffer [], Groups groups [],  BitBlock starts [], BitBlock ends_gte_17 [],
123                                 BitBlock h0 [], BitBlock h1 [], uint32_t blocks, SYMBOL & symbols) {
124
125                        for(uint32_t blk = 0; blk < blocks; blk++) {
126                                const uint32_t blk_offset = blk * BLOCKSIZE;
127                                resolve(blk_offset, &buffer[blk_offset], groups[blk], &starts[blk], &h0[blk], &h1[blk], symbols);
128                        }
129        }
130
131        // Groups & groups
132        IDISA_ALWAYS_INLINE
133        void resolve(uint32_t blk_offset, uint8_t buffer [], Groups & groups,  BitBlock starts[],
134                                 BitBlock * h0, BitBlock * h1, SYMBOL & symbols) {
135
136                        ///////////////////////////////////////////////////////////////////////////////
137                        // Byte Space Hash
138                        ///////////////////////////////////////////////////////////////////////////////
139                        #define BYTE_HASH(GROUP, LGTH) \
140                                if(bitblock::any(groups.ends_##LGTH)) { \
141                                        do_block<SYMBOL, GROUP##_hash_table <LGTH, ALLOCATOR> > \
142                                                (blk_offset, \
143                                                 hash_table_##LGTH, \
144                                                 groups.ends_##LGTH, \
145                                                 buffer, LGTH, /* buffer, symbol length */ \
146                                                 buffer, buffer, BLOCK_SIZE, /* h0, h1, hash block size (bits) */ \
147                                                 symbols, this->gid_factory, this->gid_data); \
148                                }
149
150                                //BYTE_HASH(id,1);
151                                BYTE_HASH(div2,2);
152//                              //BYTE_HASH(id,3);
153                                BYTE_HASH(div2,4);
154                                //BYTE_HASH(id,5);
155                                BYTE_HASH(div2,6);
156                                //BYTE_HASH(id,7);
157
158                        #undef BYTE_HASH
159
160                        ///////////////////////////////////////////////////////////////////////////////
161                        // Bit Space Hash
162                        ///////////////////////////////////////////////////////////////////////////////
163                        #define BIT_HASH(GROUP, LGTH) \
164                                if(bitblock::any(groups.ends_##LGTH)) { \
165                                        do_block<SYMBOL, GROUP##_hash_table <LGTH, ALLOCATOR> > \
166                                                (blk_offset, \
167                                                 hash_table_##LGTH, \
168                                                 groups.ends_##LGTH, \
169                                                 buffer, LGTH, \
170                                                 (uint8_t *)h0, (uint8_t *)h1, (BLOCK_SIZE / 8), \
171                                                 symbols, this->gid_factory, this->gid_data); \
172                                }
173
174                                BIT_HASH(div2,8);
175//                              //BIT_HASH(9);
176                                BIT_HASH(div2,10);
177//                              //BIT_HASH(11);
178                                BIT_HASH(div2,12);
179//                              //BIT_HASH(13);
180                                BIT_HASH(div2,14);
181//                              //BIT_HASH(15);
182                                BIT_HASH(div2,16);
183
184                        #undef BIT_HASH
185
186                        if(bitblock::any(groups.ends_gte_17)) {
187
188                                //print_register("17", groups.ends_gte_17);
189
190                                do_block<SYMBOL, id_hash_table<0, ALLOCATOR> >
191                                                (blk_offset,
192                                                 hash_table_gte_17,
193                                                 starts, &groups.ends_gte_17,
194                                                 buffer,
195                                                 (uint8_t *)h0, (uint8_t *)h1, BLOCK_SIZE/8,
196                                                 symbols, this->gid_factory, this->gid_data);
197                        }
198        }
199
200        IDISA_ALWAYS_INLINE uint8_t * get_raw_data(uint32_t idx) const { return gid_data.get_raw_bytes(idx); }
201        IDISA_ALWAYS_INLINE uint32_t get_lgth(uint32_t idx) const { return gid_data.get_bytes_lgth(idx); }
202
203private:
204
205        GIDFactory gid_factory;
206        GIDData gid_data;
207
208        ///////////////////////////////////////////////////////////////////////////////
209        // Byte Space Hash
210        ///////////////////////////////////////////////////////////////////////////////
211//      div2_hash_table<2, ALLOCATOR> hash_table_1_2;
212
213//      id_hash_table<1, ALLOCATOR> hash_table_1;
214//      id_hash_table<2, ALLOCATOR> hash_table_2;
215//      id_hash_table<3, ALLOCATOR> hash_table_3;
216//      id_hash_table<4, ALLOCATOR> hash_table_4;
217//      id_hash_table<5, ALLOCATOR> hash_table_5;
218//      id_hash_table<6, ALLOCATOR> hash_table_6;
219//      id_hash_table<7, ALLOCATOR> hash_table_7;
220
221        div2_hash_table<2, ALLOCATOR> hash_table_2;
222        div2_hash_table<4, ALLOCATOR> hash_table_4;
223        div2_hash_table<6, ALLOCATOR> hash_table_6;
224
225        ///////////////////////////////////////////////////////////////////////////////
226        // Bit Space Hash
227        ///////////////////////////////////////////////////////////////////////////////
228//      id_hash_table<8, ALLOCATOR> hash_table_8;
229//      id_hash_table<9, ALLOCATOR> hash_table_9;
230//      id_hash_table<10, ALLOCATOR> hash_table_10;
231//      id_hash_table<11, ALLOCATOR> hash_table_11;
232//      id_hash_table<12, ALLOCATOR> hash_table_12;
233//      id_hash_table<13, ALLOCATOR> hash_table_13;
234//      id_hash_table<14, ALLOCATOR> hash_table_14;
235//      id_hash_table<15, ALLOCATOR> hash_table_15;
236//      id_hash_table<16, ALLOCATOR> hash_table_16;
237//      id_hash_table<0, ALLOCATOR> hash_table_gte_17;
238
239        div2_hash_table<8, ALLOCATOR> hash_table_8;
240//      id_hash_table<9, ALLOCATOR> hash_table_9;
241        div2_hash_table<10, ALLOCATOR> hash_table_10;
242//      id_hash_table<11, ALLOCATOR> hash_table_11;
243        div2_hash_table<12, ALLOCATOR> hash_table_12;
244//      id_hash_table<13, ALLOCATOR> hash_table_13;
245        div2_hash_table<14, ALLOCATOR> hash_table_14;
246//      id_hash_table<15, ALLOCATOR> hash_table_15;
247        div2_hash_table<16, ALLOCATOR> hash_table_16;
248        id_hash_table<0, ALLOCATOR> hash_table_gte_17;
249};
250
251/* NOTE: C++ template code and Pablo generated length groups must coincide. */
252
253// Fixed Lengths - REVERSE SCAN LOGIC - Scan each BLOCK MSB to LSB
254template<class SYMBOL, class HASH_TABLE>
255void do_block(uint32_t blk_offset,
256                  HASH_TABLE & h_table,
257                  BitBlock ends,
258                  uint8_t buffer [], const uint32_t lgth,
259                  uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
260                  SYMBOL & symbols, GIDFactory & gid_factory, GIDData & gid_data) {
261
262                uint8_t * buffer_base = buffer;
263                uint8_t * h0_base = h0;
264                uint8_t * h1_base = h1;
265
266                gid_type gid;
267                int32_t epos;
268                int32_t spos;
269                uint32_t blk_count;
270
271        ReverseScanner<BitBlock, scanword_t> rscanner(&ends);
272
273        rscanner.scan_to_next();
274        epos = rscanner.get_pos();
275
276                while(!rscanner.is_done()) {
277
278                spos = epos - lgth;
279
280                        if(spos < 0) { // boundary case
281                                        spos = (BLOCK_SIZE - (-1 * spos)) & (BLOCK_SIZE - 1);
282                                        blk_count = (lgth/BLOCK_SIZE)+1;
283                                        buffer_base -= (BLOCK_SIZE * blk_count);
284                                        h0_base -= (h_block_size * blk_count);
285                                        h1_base -= (h_block_size * blk_count);
286                        }
287
288                        assert (spos >= 0);
289
290                        gid = h_table.lookup_or_insert(buffer_base, spos, lgth, h0_base, h1_base, gid_factory, gid_data); // WARNING: spos must be >= 0
291
292                        #ifdef ID_SYMBOL_STORE_SYMBOL_GIDS_AT_END_POSITION
293                        symbols.gids[blk_offset + epos] = gid;
294                        #else
295                        symbols.gids[blk_offset + epos - lgth] = gid;
296                        #endif
297
298                        #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
299                                print_symbol_debug(gid, buffer_base, spos, epos, gid_data.get_bytes_lgth(gid));
300                        #endif
301
302                        rscanner.scan_to_next();
303                        epos = rscanner.get_pos();
304                }
305        }
306
307
308// Variable Lengths, reverse scanner logic
309// Precondition: A symbol end is marked iff a symbol start is marked within a buffer segment.
310template<class SYMBOL, class HASH_TABLE>
311void do_block(uint32_t blk_offset,
312                          HASH_TABLE & h_table,
313                          BitBlock starts [], BitBlock ends [],
314                          uint8_t buffer [],
315                          uint8_t h0 [], uint8_t h1 [], const uint32_t h_block_size,
316                          SYMBOL & symbols, GIDFactory & gid_factory, GIDData & gid_data) {
317
318        BitBlock * starts_base = starts;
319        uint8_t * buffer_base = buffer;
320        uint8_t * h0_base = h0;
321        uint8_t * h1_base = h1;
322
323        gid_type gid;
324        int32_t epos;
325        int32_t spos;
326        uint32_t lgth;
327        uint32_t blk_count = 0;
328
329        ReverseScanner<BitBlock, scanword_t> ends_rscanner(ends);
330        ReverseScanner<BitBlock, scanword_t> starts_rscanner(starts);
331
332        ends_rscanner.scan_to_next();
333        epos = ends_rscanner.get_pos();
334
335        while(!ends_rscanner.is_done()) {
336
337                starts_rscanner.move_to(epos);
338                starts_rscanner.scan_to_next();
339                spos = starts_rscanner.get_pos();
340                lgth = epos - spos;
341
342                while(starts_rscanner.is_done()) { // boundary case
343                          starts_base--;
344
345                        blk_count++;
346
347                        starts_rscanner.init(starts_base);
348                        starts_rscanner.scan_to_next();
349
350                        if(!starts_rscanner.is_done()) { // found start
351                                        lgth = epos + (BLOCK_SIZE - starts_rscanner.get_pos()) + (BLOCK_SIZE * (blk_count-1));
352                                        spos = starts_rscanner.get_pos();
353                                        buffer_base -= (BLOCK_SIZE * blk_count);
354                                        h0_base -= (h_block_size * blk_count);
355                                        h1_base -= (h_block_size * blk_count);
356                                        break;
357                        }
358
359                }
360
361                gid = h_table.lookup_or_insert(buffer_base, spos, lgth, h0_base, h1_base, gid_factory, gid_data); // WARNING: spos must be >= 0
362
363                #ifdef ID_SYMBOL_STORE_SYMBOL_GIDS_AT_END_POSITION
364                symbols.gids[blk_offset + epos] = gid;
365                #else
366                symbols.gids[blk_offset + epos - lgth] = gid;
367                #endif
368
369                #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
370                        //print_symbol_debug(gid, buffer, spos, epos, lgth);
371                        print_symbol_debug(gid, buffer_base, spos, epos, lgth);
372                #endif
373
374                ends_rscanner.scan_to_next();
375                epos = ends_rscanner.get_pos();
376        }
377}
378
379#endif // ID_SYMBOL_TABLE_TEMPLATE_HPP
380
381
382/* // Forward Scan
383void do_block(uint32_t blk_offset,
384                  HASH_TABLE & h_table,
385                  BitBlock ends,
386                  uint8_t buffer [], const uint32_t lgth,
387                  uint8_t h0 [], uint8_t h1 [], const uint32_t h_lgth, const uint32_t h_block_size,
388                  SYMBOL & symbols, GIDFactory & gid_factory, GIDData & gid_data) {
389
390        gid_type gid;
391        int32_t spos;
392        int32_t epos;
393        ForwardScanner<BitBlock, scanword_t> fscanner(&ends);
394
395        fscanner.scan_to_next();
396        epos = fscanner.get_pos();
397        spos = (epos - lgth);
398
399        if(!fscanner.is_done() && (spos < 0) ) { // block boundary case
400
401        ////////////////////////////////////////////////////////////////////
402        // Start - Review boundary logic
403        ////////////////////////////////////////////////////////////////////
404        uint8_t * lb_buffer = buffer - ((lgth / BLOCK_SIZE) + 1)*BLOCK_SIZE;
405        int32_t lb_spos = (BLOCK_SIZE - (-1*spos)) & (BLOCK_SIZE-1);
406
407        uint8_t * lb_h0 = h0 - ((lgth / BLOCK_SIZE) + 1)*h_block_size;
408        uint8_t * lb_h1 = h1 - ((lgth / BLOCK_SIZE) + 1)*h_block_size;
409
410        gid = h_table.lookup_or_insert(lb_buffer, lb_spos, lgth, lb_h0, lb_h1, h_lgth, gid_factory, gid_data);
411
412        symbols.gids[blk_offset + spos] = gid;
413        ////////////////////////////////////////////////////////////////////
414        // End
415        ////////////////////////////////////////////////////////////////////
416
417        #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
418                        print_symbol_debug(gid, lb_buffer, lb_spos, epos, lgth);
419        #endif
420
421        fscanner.scan_to_next();
422        epos = fscanner.get_pos();
423        spos = (epos - lgth);
424
425        }
426
427        while(!fscanner.is_done()) {
428
429                gid = h_table.lookup_or_insert(buffer, spos, lgth, h0, h1, h_lgth, gid_factory, gid_data);
430                symbols.gids[blk_offset + spos] = gid;
431
432        #ifdef ID_SYMBOL_TABLE_TEMPLATE_HPP_DEBUG
433                print_symbol_debug(gid, buffer, spos, epos, lgth);
434        #endif
435
436                fscanner.scan_to_next();
437                epos = fscanner.get_pos();
438                spos = (epos - lgth);
439        }
440
441}
442*/
443
Note: See TracBrowser for help on using the repository browser.