source: icGREP/icgrep-devel/icgrep/grep_engine.cpp @ 5491

Last change on this file since 5491 was 5491, checked in by cameron, 2 years ago

Update popcount kernel to new Pablo interface

File size: 26.7 KB
Line 
1/*
2 *  Copyright (c) 2017 International Characters.
3 *  This software is licensed to the public under the Open Software License 3.0.
4 *  icgrep is a trademark of International Characters.
5 */
6
7#include "grep_engine.h"
8#include "grep_interface.h"
9#include <llvm/IR/Module.h>
10#include <boost/filesystem.hpp>
11#include <UCD/UnicodeNameData.h>
12#include <UCD/resolve_properties.h>
13#include <kernels/cc_kernel.h>
14#include <kernels/grep_kernel.h>
15#include <kernels/linebreak_kernel.h>
16#include <kernels/streams_merge.h>
17#include <kernels/source_kernel.h>
18#include <kernels/s2p_kernel.h>
19#include <kernels/scanmatchgen.h>
20#include <kernels/streamset.h>
21#include <kernels/until_n.h>
22#include <kernels/kernel_builder.h>
23#include <pablo/pablo_kernel.h>
24#include <re/re_cc.h>
25#include <re/re_toolchain.h>
26#include <toolchain/toolchain.h>
27#include <toolchain/cpudriver.h>
28#include <toolchain/NVPTXDriver.h>
29#include <iostream>
30#include <sstream>
31#include <cc/multiplex_CCs.h>
32#include <llvm/Support/raw_ostream.h>
33#include <util/aligned_allocator.h>
34#include <sys/stat.h>
35#include <fcntl.h>
36#include <errno.h>
37#include <mutex>
38
39#ifdef CUDA_ENABLED
40#include <preprocess.cpp>
41#include <IR_Gen/CudaDriver.h>
42#endif
43
44using namespace parabix;
45using namespace llvm;
46
47namespace grep {
48
49static std::stringstream * resultStrs = nullptr;
50static std::vector<std::string> inputFiles;
51static std::vector<std::string> linePrefix;
52static bool grepMatchFound;
53
54size_t * startPoints = nullptr;
55size_t * accumBytes = nullptr;
56
57
58std::mutex count_mutex;
59size_t fileCount;
60
61// DoGrep thread function.
62void *DoGrepThreadFunction(void *args)
63{
64    size_t fileIdx;
65    grep::GrepEngine * grepEngine = (grep::GrepEngine *)args;
66
67    count_mutex.lock();
68    fileIdx = fileCount;
69    fileCount++;
70    count_mutex.unlock();
71
72    while (fileIdx < inputFiles.size()) {
73        size_t grepResult = grepEngine->doGrep(inputFiles[fileIdx], fileIdx);
74       
75        count_mutex.lock();
76        if (grepResult > 0) grepMatchFound = true;
77        fileIdx = fileCount;
78        fileCount++;
79        count_mutex.unlock();
80        if (QuietMode && grepMatchFound) pthread_exit(nullptr);
81    }
82
83    pthread_exit(nullptr);
84}
85
86
87
88void GrepEngine::doGrep(const std::string & fileName) const{
89#ifdef CUDA_ENABLED
90    const bool CountOnly = true;
91    boost::filesystem::path file(fileName);
92    if (exists(file)) {
93        if (is_directory(file)) {
94            return;
95        }
96    } else {
97        if (!NoMessagesFlag) {
98            std::cerr << "Error: cannot open " << fileName << " for processing. Skipped.\n";
99            return;
100        }
101    }
102
103    const auto fileSize = file_size(file);
104   
105    if (fileSize > 0) {
106        try {
107            boost::iostreams::mapped_file_source source(fileName, fileSize, 0);
108            char * fileBuffer = const_cast<char *>(source.data());
109           
110            codegen::BlockSize = 128;
111            std::vector<size_t> LFPositions = preprocess(fileBuffer, fileSize);
112           
113            const unsigned numOfGroups = codegen::GroupNum;
114            if (posix_memalign((void**)&startPoints, 8, (numOfGroups+1)*sizeof(size_t)) ||
115                posix_memalign((void**)&accumBytes, 8, (numOfGroups+1)*sizeof(size_t))) {
116                std::cerr << "Cannot allocate memory for startPoints or accumBytes.\n";
117                exit(-1);
118            }
119            const auto PTXFilename = mGrepDriver->getBuilder()->getModule()->getModuleIdentifier() + ".ptx";
120            RunPTX(PTXFilename, fileBuffer, fileSize, CountOnly, LFPositions, startPoints, accumBytes);
121            source.close();
122        } catch (std::exception & e) {
123            if (!NoMessagesFlag) {
124                std::cerr << "Boost mmap error: " + fileName + ": " + e.what() + " Skipped.\n";
125                return;
126            }
127        }
128    } else {
129        std::cout << 0 << std::endl;
130    }
131#endif
132}
133
134uint64_t GrepEngine::doGrep(const std::string & fileName, const uint32_t fileIdx) const {
135    struct stat sb;
136    const int32_t fd = open(fileName.c_str(), O_RDONLY);
137    if (LLVM_UNLIKELY(fd == -1)) {
138        if (!NoMessagesFlag  && !(Mode == QuietMode)) {
139            if (errno == EACCES) {
140                resultStrs[fileIdx] << "icgrep: " << fileName << ": Permission denied.\n";
141            }
142            else if (errno == ENOENT) {
143                resultStrs[fileIdx] << "icgrep: " << fileName << ": No such file.\n";
144            }
145            else {
146                resultStrs[fileIdx] << "icgrep: " << fileName << ": Failed.\n";
147            }
148        }
149        return 0;
150    }
151    if (stat(fileName.c_str(), &sb) == 0 && S_ISDIR(sb.st_mode)) {
152        if (!NoMessagesFlag  && !(Mode == QuietMode)) {
153            resultStrs[fileIdx] << "icgrep: " << fileName << ": Is a directory.\n";
154        }
155        close(fd);
156        return 0;
157    }
158    const auto result = doGrep(fd, fileIdx);
159    close(fd);
160    return result;
161}
162
163uint64_t GrepEngine::doGrep(const int32_t fileDescriptor, const uint32_t fileIdx) const {
164    assert (mGrepDriver);
165    typedef uint64_t (*GrepFunctionType)(int32_t fileDescriptor, const uint32_t fileIdx);
166    auto f = reinterpret_cast<GrepFunctionType>(mGrepDriver->getMain());
167   
168    uint64_t grepResult = f(fileDescriptor, fileIdx);
169    if (grepResult > 0) grepMatchFound = true;
170    else if ((Mode == NormalMode) && !resultStrs[fileIdx].str().empty()) grepMatchFound = true;
171   
172    if (Mode == CountOnly) {
173        resultStrs[fileIdx] << linePrefix[fileIdx] << grepResult << "\n";
174    }
175    else if (Mode == FilesWithMatch || Mode == FilesWithoutMatch ) {
176        size_t requiredCount = Mode == FilesWithMatch ? 1 : 0;
177        if (grepResult == requiredCount) {
178            resultStrs[fileIdx] << linePrefix[fileIdx];
179        }
180    }
181    else if (Mode == QuietMode) {
182        if (grepMatchFound) exit(MatchFoundExitCode);
183    }
184    return grepResult;
185}
186
187void initFileResult(std::vector<std::string> filenames){
188    grepMatchFound = false;
189    const int n = filenames.size();
190    linePrefix.resize(n);
191    if ((n > 1) && !NoFilenameFlag) {
192        WithFilenameFlag = true;
193    }
194    std::string fileSuffix = "";
195    bool setLinePrefix = WithFilenameFlag || (Mode == FilesWithMatch) || (Mode == FilesWithoutMatch);
196    if (setLinePrefix) {
197        if (NullFlag) {
198            fileSuffix = std::string("\0", 1);
199        }
200        else if ((Mode == NormalMode) && InitialTabFlag && !(LineNumberFlag || ByteOffsetFlag)) {
201            fileSuffix = "\t:";
202        }
203        else if ((Mode == NormalMode) || (Mode == CountOnly)) {
204            fileSuffix = ":";
205        }
206        else if ((Mode == FilesWithMatch) || (Mode == FilesWithoutMatch)) {
207            fileSuffix = "\n";
208        }
209    }
210    inputFiles = filenames;
211    resultStrs = new std::stringstream[n];
212    for (unsigned i = 0; i < inputFiles.size(); ++i) {
213        if (setLinePrefix) {
214            if (inputFiles[i] == "-") {
215                linePrefix[i] = LabelFlag + fileSuffix;
216            }
217            else {
218                linePrefix[i] = inputFiles[i] + fileSuffix;
219            }
220        }
221    }
222}
223
224template<typename CodeUnit>
225void wrapped_report_match(const size_t lineNum, size_t line_start, size_t line_end, const CodeUnit * const buffer, const size_t filesize, const size_t fileIdx) {
226
227//    errs().write_hex((size_t)buffer) << " : " << lineNum << " (" << line_start << ", " << line_end << ", " << filesize << ")\n";
228
229    assert (buffer);
230    assert (line_start <= line_end);
231    assert (line_end <= filesize);
232
233    if (WithFilenameFlag) {
234        resultStrs[fileIdx] << linePrefix[fileIdx];
235    }
236    if (LineNumberFlag) {
237        // Internally line numbers are counted from 0.  For display, adjust
238        // the line number so that lines are numbered from 1.
239        if (InitialTabFlag) {
240            resultStrs[fileIdx] << lineNum+1 << "\t:";
241        }
242        else {
243            resultStrs[fileIdx] << lineNum+1 << ":";
244        }
245    }
246
247    // If the line "starts" on the LF of a CRLF, it is actually the end of the last line.
248    if ((buffer[line_start] == 0xA) && (line_start != line_end)) {
249        ++line_start;
250    }
251
252    if (LLVM_UNLIKELY(line_end == filesize)) {
253        // The match position is at end-of-file.   We have a final unterminated line.
254        resultStrs[fileIdx].write((char *)&buffer[line_start], (line_end - line_start) * sizeof(CodeUnit));
255        if (NormalizeLineBreaksFlag) {
256            resultStrs[fileIdx] << '\n';  // terminate it
257        }
258    } else {
259        const auto end_byte = buffer[line_end];
260        if (grep::NormalizeLineBreaksFlag) {
261            if (LLVM_UNLIKELY(end_byte == 0x85)) {
262                // Line terminated with NEL, on the second byte.  Back up 1.
263                line_end -= 1;
264            } else if (LLVM_UNLIKELY(end_byte > 0xD)) {
265                // Line terminated with PS or LS, on the third byte.  Back up 2.
266                line_end -= 2;
267            }
268            resultStrs[fileIdx].write((char *)&buffer[line_start], (line_end - line_start) * sizeof(CodeUnit));
269            resultStrs[fileIdx] << '\n';
270        } else {
271            if (end_byte == 0x0D) {
272                // Check for line_end on first byte of CRLF; we don't want to access past the end of buffer.
273                if ((line_end + 1) < filesize) {
274                    if (buffer[line_end + 1] == 0x0A) {
275                        // Found CRLF; preserve both bytes.
276                        ++line_end;
277                    }
278                }
279            }
280            resultStrs[fileIdx].write((char *)&buffer[line_start], (line_end - line_start + 1) * sizeof(CodeUnit));
281        }
282    }
283}
284
285void PrintResults(){
286   
287    for (unsigned i = 0; i < inputFiles.size(); ++i){
288        std::cout << resultStrs[i].str();
289    }
290    exit(grepMatchFound ? MatchFoundExitCode : MatchNotFoundExitCode);
291}
292
293void GrepEngine::grepCodeGen_nvptx(std::vector<re::RE *> REs, const GrepModeType grepMode, const bool UTF_16) {
294
295    assert (mGrepDriver == nullptr);
296
297    mGrepDriver = new NVPTXDriver("engine");
298    auto & idb = mGrepDriver->getBuilder();
299    Module * M = idb->getModule();
300
301    const unsigned segmentSize = codegen::SegmentSize;
302    const unsigned bufferSegments = codegen::BufferSegments * codegen::ThreadNum;
303    const unsigned encodingBits = UTF_16 ? 16 : 8;
304
305    Type * const int64Ty = idb->getInt64Ty();
306    Type * const int32Ty = idb->getInt32Ty();
307    Type * const size_ty = idb->getSizeTy();
308    Type * const sizeTyPtr = PointerType::get(size_ty, 1);
309    Type * const int64tyPtr = PointerType::get(int64Ty, 1);
310    Type * const voidTy = idb->getVoidTy();
311
312    Function * mainFunc = cast<Function>(M->getOrInsertFunction("Main", voidTy, int64tyPtr, sizeTyPtr, sizeTyPtr, int64tyPtr, nullptr));
313    mainFunc->setCallingConv(CallingConv::C);
314    idb->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFunc, 0));
315    auto args = mainFunc->arg_begin();
316
317    Value * const inputPtr = &*(args++);
318    inputPtr->setName("inputPtr");
319    Value * const startPointsPtr = &*(args++);
320    startPointsPtr->setName("startPointsPtr");
321    Value * const bufferSizesPtr = &*(args++);
322    bufferSizesPtr->setName("bufferSizesPtr");
323    Value * const outputPtr = &*(args++);
324    outputPtr->setName("outputPtr");
325
326    Function * tidFunc = M->getFunction("llvm.nvvm.read.ptx.sreg.tid.x");
327    Value * tid = idb->CreateCall(tidFunc);
328    Function * bidFunc = cast<Function>(M->getOrInsertFunction("llvm.nvvm.read.ptx.sreg.ctaid.x", int32Ty, nullptr));
329    Value * bid = idb->CreateCall(bidFunc);
330
331    Value * startPoint = idb->CreateLoad(idb->CreateGEP(startPointsPtr, bid));
332    Value * startBlock = idb->CreateUDiv(startPoint, ConstantInt::get(int64Ty, idb->getBitBlockWidth()));
333    Type * const inputStreamType = PointerType::get(ArrayType::get(ArrayType::get(idb->getBitBlockType(), 8), 1), 1);   
334    Value * inputStreamPtr = idb->CreateGEP(idb->CreateBitCast(inputPtr, inputStreamType), startBlock);
335    Value * inputStream = idb->CreateGEP(inputStreamPtr, tid);
336    Value * bufferSize = idb->CreateLoad(idb->CreateGEP(bufferSizesPtr, bid));
337
338    StreamSetBuffer * ByteStream = mGrepDriver->addBuffer(make_unique<SourceBuffer>(idb, idb->getStreamSetTy(1, 8), 1));
339    kernel::Kernel * sourceK = mGrepDriver->addKernelInstance(make_unique<kernel::MemorySourceKernel>(idb, inputStreamType, segmentSize));
340    sourceK->setInitialArguments({inputStream, bufferSize});
341    mGrepDriver->makeKernelCall(sourceK, {}, {ByteStream});
342
343    StreamSetBuffer * BasisBits = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(8, 1), segmentSize * bufferSegments));
344    kernel::Kernel * s2pk = mGrepDriver->addKernelInstance(make_unique<kernel::S2PKernel>(idb));
345    mGrepDriver->makeKernelCall(s2pk, {ByteStream}, {BasisBits});
346 
347    StreamSetBuffer * LineBreakStream = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
348    kernel::Kernel * linebreakK = mGrepDriver->addKernelInstance(make_unique<kernel::LineBreakKernelBuilder>(idb, encodingBits));
349    mGrepDriver->makeKernelCall(linebreakK, {BasisBits}, {LineBreakStream});
350   
351    const auto n = REs.size();
352
353    std::vector<StreamSetBuffer *> MatchResultsBufs(n);
354
355    for(unsigned i = 0; i < n; ++i){
356        StreamSetBuffer * MatchResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
357        kernel::Kernel * icgrepK = mGrepDriver->addKernelInstance(make_unique<kernel::ICGrepKernel>(idb, REs[i]));
358        mGrepDriver->makeKernelCall(icgrepK, {BasisBits, LineBreakStream}, {MatchResults});
359        MatchResultsBufs[i] = MatchResults;
360    }
361    StreamSetBuffer * MergedResults = MatchResultsBufs[0];
362    if (REs.size() > 1) {
363        MergedResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
364        kernel::Kernel * streamsMergeK = mGrepDriver->addKernelInstance(make_unique<kernel::StreamsMerge>(idb, 1, REs.size()));
365        mGrepDriver->makeKernelCall(streamsMergeK, MatchResultsBufs, {MergedResults});
366    }
367
368    kernel::Kernel * matchCountK = mGrepDriver->addKernelInstance(make_unique<kernel::PopcountKernel>(idb));
369    mGrepDriver->makeKernelCall(matchCountK, {MergedResults}, {});
370    mGrepDriver->generatePipelineIR();
371    idb->setKernel(matchCountK);
372    Value * matchedLineCount = idb->getAccumulator("countResult");
373    matchedLineCount = idb->CreateZExt(matchedLineCount, int64Ty);
374   
375    Value * strideBlocks = ConstantInt::get(int32Ty, idb->getStride() / idb->getBitBlockWidth());
376    Value * outputThreadPtr = idb->CreateGEP(outputPtr, idb->CreateAdd(idb->CreateMul(bid, strideBlocks), tid));
377    idb->CreateStore(matchedLineCount, outputThreadPtr);
378    idb->CreateRetVoid();
379
380    mGrepDriver->finalizeObject();
381}
382
383void GrepEngine::grepCodeGen(std::vector<re::RE *> REs, const GrepModeType grepMode, const bool UTF_16, GrepSource grepSource) {
384
385    assert (mGrepDriver == nullptr);
386    mGrepDriver = new ParabixDriver("engine");
387    auto & idb = mGrepDriver->getBuilder();
388    Module * M = idb->getModule();
389
390    const unsigned segmentSize = codegen::SegmentSize;
391    const unsigned bufferSegments = codegen::BufferSegments * codegen::ThreadNum;
392    const unsigned encodingBits = UTF_16 ? 16 : 8;
393
394    Type * const int64Ty = idb->getInt64Ty();
395    Type * const int32Ty = idb->getInt32Ty();
396
397    kernel::Kernel * sourceK = nullptr;
398   
399    size_t MatchLimit = ((grepMode == QuietMode) | (grepMode == FilesWithMatch) | (grepMode == FilesWithoutMatch)) ? 1 : MaxCountFlag;
400
401    Function * mainFunc = cast<Function>(M->getOrInsertFunction("Main", int64Ty, idb->getInt32Ty(), int32Ty, nullptr));
402    mainFunc->setCallingConv(CallingConv::C);
403    idb->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFunc, 0));
404    auto args = mainFunc->arg_begin();
405
406    Value * const fileDescriptor = &*(args++);
407    fileDescriptor->setName("fileDescriptor");
408    Value * fileIdx = &*(args++);
409    fileIdx->setName("fileIdx");
410
411    StreamSetBuffer * ByteStream = mGrepDriver->addBuffer(make_unique<SourceBuffer>(idb, idb->getStreamSetTy(1, 8)));
412
413    if (grepSource == GrepSource::File) {
414        sourceK = mGrepDriver->addKernelInstance(make_unique<kernel::MMapSourceKernel>(idb, segmentSize));
415    } else {
416        sourceK = mGrepDriver->addKernelInstance(make_unique<kernel::ReadSourceKernel>(idb, segmentSize));
417    }
418    sourceK->setInitialArguments({fileDescriptor});
419
420    mGrepDriver->makeKernelCall(sourceK, {}, {ByteStream});
421    StreamSetBuffer * BasisBits = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(8, 1), segmentSize * bufferSegments));
422   
423    kernel::Kernel * s2pk = mGrepDriver->addKernelInstance(make_unique<kernel::S2PKernel>(idb));
424    mGrepDriver->makeKernelCall(s2pk, {ByteStream}, {BasisBits});
425   
426    kernel::Kernel * linebreakK = mGrepDriver->addKernelInstance(make_unique<kernel::LineBreakKernelBuilder>(idb, encodingBits));
427    StreamSetBuffer * LineBreakStream = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
428    mGrepDriver->makeKernelCall(linebreakK, {BasisBits}, {LineBreakStream});
429   
430    const auto n = REs.size();
431
432    std::vector<StreamSetBuffer *> MatchResultsBufs(n);
433
434    for(unsigned i = 0; i < n; ++i){
435        StreamSetBuffer * MatchResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
436        kernel::Kernel * icgrepK = mGrepDriver->addKernelInstance(make_unique<kernel::ICGrepKernel>(idb, REs[i]));
437        mGrepDriver->makeKernelCall(icgrepK, {BasisBits, LineBreakStream}, {MatchResults});
438        MatchResultsBufs[i] = MatchResults;
439    }
440    StreamSetBuffer * MergedResults = MatchResultsBufs[0];
441    if (REs.size() > 1) {
442        MergedResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
443        kernel::Kernel * streamsMergeK = mGrepDriver->addKernelInstance(make_unique<kernel::StreamsMerge>(idb, 1, REs.size()));
444        mGrepDriver->makeKernelCall(streamsMergeK, MatchResultsBufs, {MergedResults});
445    }
446   
447    if (InvertMatchFlag) {
448        kernel::Kernel * invertK = mGrepDriver->addKernelInstance(make_unique<kernel::InvertMatchesKernel>(idb));
449        StreamSetBuffer * OriginalMatches = MergedResults;
450        MergedResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
451        mGrepDriver->makeKernelCall(invertK, {OriginalMatches, LineBreakStream}, {MergedResults});
452    }
453    if (MatchLimit > 0) {
454        kernel::Kernel * untilK = mGrepDriver->addKernelInstance(make_unique<kernel::UntilNkernel>(idb));
455        untilK->setInitialArguments({idb->getSize(MatchLimit)});
456        StreamSetBuffer * AllMatches = MergedResults;
457        MergedResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
458        mGrepDriver->makeKernelCall(untilK, {AllMatches}, {MergedResults});
459    }
460    if (grepMode == NormalMode) {
461        kernel::Kernel * scanMatchK = mGrepDriver->addKernelInstance(make_unique<kernel::ScanMatchKernel>(idb, GrepType::Normal, encodingBits));
462        scanMatchK->setInitialArguments({fileIdx});
463        mGrepDriver->makeKernelCall(scanMatchK, {MergedResults, LineBreakStream, ByteStream}, {});
464        if (UTF_16) {
465            mGrepDriver->LinkFunction(*scanMatchK, "matcher", &wrapped_report_match<uint16_t>);
466        } else {
467            mGrepDriver->LinkFunction(*scanMatchK, "matcher", &wrapped_report_match<uint8_t>);
468        }
469        mGrepDriver->generatePipelineIR();
470        idb->CreateRet(idb->getInt64(0));
471    } else {
472        kernel::Kernel * matchCountK = mGrepDriver->addKernelInstance(make_unique<kernel::PopcountKernel>(idb));
473        mGrepDriver->makeKernelCall(matchCountK, {MergedResults}, {});
474        mGrepDriver->generatePipelineIR();
475        idb->setKernel(matchCountK);
476        Value * matchedLineCount = idb->getAccumulator("countResult");
477        matchedLineCount = idb->CreateZExt(matchedLineCount, int64Ty);
478        idb->CreateRet(matchedLineCount);
479    }
480    mGrepDriver->finalizeObject();
481}
482
483GrepEngine::GrepEngine()
484: mGrepDriver(nullptr) {
485
486}
487
488GrepEngine::~GrepEngine() {
489    delete mGrepDriver;
490}
491
492
493   
494static re::CC * parsedCodePointSet = nullptr;
495
496void insert_codepoints(const size_t lineNum, const size_t line_start, const size_t line_end, const char * const buffer) {
497    assert (buffer);
498    assert (line_start <= line_end);
499    re::codepoint_t c = 0;
500    size_t line_pos = line_start;
501    while (isxdigit(buffer[line_pos])) {
502        assert (line_pos < line_end);
503        if (isdigit(buffer[line_pos])) {
504            c = (c << 4) | (buffer[line_pos] - '0');
505        }
506        else {
507            c = (c << 4) | (tolower(buffer[line_pos]) - 'a' + 10);
508        }
509        line_pos++;
510    }
511    assert(((line_pos - line_start) >= 4) && ((line_pos - line_start) <= 6)); // UCD format 4 to 6 hex digits.
512    parsedCodePointSet->insert(c);
513}
514
515re::CC * grepCodepoints(re::RE * pattern, char * UnicodeDataBuffer, size_t bufferLength) {
516    parsedCodePointSet = re::makeCC();       
517    const unsigned segmentSize = 8;
518
519    ParabixDriver pxDriver("codepointEngine");
520    auto & idb = pxDriver.getBuilder();
521    Module * M = idb->getModule();
522   
523    Function * mainFunc = cast<Function>(M->getOrInsertFunction("Main", idb->getVoidTy(), idb->getInt8PtrTy(), idb->getSizeTy(), nullptr));
524    mainFunc->setCallingConv(CallingConv::C);
525    auto args = mainFunc->arg_begin();
526    Value * const buffer = &*(args++);
527    buffer->setName("buffer");
528    Value * length = &*(args++);
529    length->setName("length");
530   
531    idb->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFunc, 0));
532   
533    StreamSetBuffer * ByteStream = pxDriver.addBuffer(make_unique<SourceBuffer>(idb, idb->getStreamSetTy(1, 8)));
534    kernel::Kernel * sourceK = pxDriver.addKernelInstance(make_unique<kernel::MemorySourceKernel>(idb, idb->getInt8PtrTy(), segmentSize));
535    sourceK->setInitialArguments({buffer, length});
536    pxDriver.makeKernelCall(sourceK, {}, {ByteStream});
537   
538    StreamSetBuffer * BasisBits = pxDriver.addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(8, 1), segmentSize));
539   
540    kernel::Kernel * s2pk = pxDriver.addKernelInstance(make_unique<kernel::S2PKernel>(idb));
541    pxDriver.makeKernelCall(s2pk, {ByteStream}, {BasisBits});
542   
543    kernel::Kernel * linebreakK = pxDriver.addKernelInstance(make_unique<kernel::LineBreakKernelBuilder>(idb, 8));
544    StreamSetBuffer * LineBreakStream = pxDriver.addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize));
545    pxDriver.makeKernelCall(linebreakK, {BasisBits}, {LineBreakStream});
546   
547    StreamSetBuffer * MatchResults = pxDriver.addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize));
548    kernel::Kernel * icgrepK = pxDriver.addKernelInstance(make_unique<kernel::ICGrepKernel>(idb, pattern));
549    pxDriver.makeKernelCall(icgrepK, {BasisBits, LineBreakStream}, {MatchResults});
550   
551    kernel::Kernel * scanMatchK = pxDriver.addKernelInstance(make_unique<kernel::ScanMatchKernel>(idb, GrepType::NameExpression, 8));
552    scanMatchK->setInitialArguments({idb->getInt32(0)});
553    pxDriver.makeKernelCall(scanMatchK, {MatchResults, LineBreakStream, ByteStream}, {});
554    pxDriver.LinkFunction(*scanMatchK, "matcher", &insert_codepoints);
555    pxDriver.generatePipelineIR();
556    idb->CreateRetVoid();
557    pxDriver.finalizeObject();
558   
559    typedef void (*GrepFunctionType)(const char * buffer, const size_t length);
560    auto f = reinterpret_cast<GrepFunctionType>(pxDriver.getMain());
561    f(UnicodeDataBuffer, bufferLength);
562   
563    return parsedCodePointSet;   
564}
565
566   
567static std::vector<std::string> parsedPropertyValues;
568
569void insert_property_values(size_t lineNum, size_t line_start, size_t line_end, const char * buffer) {
570    assert (line_start <= line_end);
571    parsedPropertyValues.emplace_back(buffer + line_start, buffer + line_end);
572}
573
574
575const std::vector<std::string> & grepPropertyValues(const std::string& propertyName, re::RE * propertyValuePattern) {
576    ParabixDriver pxDriver("propertyValueEngine");
577    AlignedAllocator<char, 32> alloc;
578
579    parsedPropertyValues.clear();
580
581    const std::string & str = UCD::getPropertyValueGrepString(propertyName);
582
583    auto & idb = pxDriver.getBuilder();
584
585    const unsigned segmentSize = 8;
586    const auto n = str.length();
587    const auto w = idb->getBitBlockWidth() * segmentSize;
588    const auto m = w - (n % w);
589
590    char * aligned = alloc.allocate(n + m, 0);
591    std::memcpy(aligned, str.data(), n);
592    std::memset(aligned + n, 0, m);
593
594    Module * M = idb->getModule();
595   
596    Function * mainFunc = cast<Function>(M->getOrInsertFunction("Main", idb->getVoidTy(), idb->getInt8PtrTy(), idb->getSizeTy(), nullptr));
597    mainFunc->setCallingConv(CallingConv::C);
598    auto args = mainFunc->arg_begin();
599    Value * const buffer = &*(args++);
600    buffer->setName("buffer");
601    Value * length = &*(args++);
602    length->setName("length");
603   
604    idb->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFunc, 0));
605   
606    StreamSetBuffer * ByteStream = pxDriver.addBuffer(make_unique<SourceBuffer>(idb, idb->getStreamSetTy(1, 8)));
607    kernel::Kernel * sourceK = pxDriver.addKernelInstance(make_unique<kernel::MemorySourceKernel>(idb, idb->getInt8PtrTy(), segmentSize));
608    sourceK->setInitialArguments({buffer, length});
609    pxDriver.makeKernelCall(sourceK, {}, {ByteStream});
610   
611    StreamSetBuffer * BasisBits = pxDriver.addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(8, 1), segmentSize));
612   
613    kernel::Kernel * s2pk = pxDriver.addKernelInstance(make_unique<kernel::S2PKernel>(idb));
614    pxDriver.makeKernelCall(s2pk, {ByteStream}, {BasisBits});
615   
616    kernel::Kernel * linebreakK = pxDriver.addKernelInstance(make_unique<kernel::LineBreakKernelBuilder>(idb, 8));
617    StreamSetBuffer * LineBreakStream = pxDriver.addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize));
618    pxDriver.makeKernelCall(linebreakK, {BasisBits}, {LineBreakStream});
619   
620    StreamSetBuffer * MatchResults = pxDriver.addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize));
621    kernel::Kernel * icgrepK = pxDriver.addKernelInstance(make_unique<kernel::ICGrepKernel>(idb, propertyValuePattern));
622    pxDriver.makeKernelCall(icgrepK, {BasisBits, LineBreakStream}, {MatchResults});
623   
624    kernel::Kernel * scanMatchK = pxDriver.addKernelInstance(make_unique<kernel::ScanMatchKernel>(idb, GrepType::PropertyValue, 8));
625    scanMatchK->setInitialArguments({idb->getInt32(0)});
626    pxDriver.makeKernelCall(scanMatchK, {MatchResults, LineBreakStream, ByteStream}, {});
627    pxDriver.LinkFunction(*scanMatchK, "matcher", &insert_property_values);
628    pxDriver.generatePipelineIR();
629    idb->CreateRetVoid();
630    pxDriver.finalizeObject();
631
632    typedef void (*GrepFunctionType)(const char * buffer, const size_t length);
633    auto f = reinterpret_cast<GrepFunctionType>(pxDriver.getMain());
634    f(aligned, n);
635   
636    alloc.deallocate(aligned, 0);
637    return parsedPropertyValues;
638}
639
640   
641}
Note: See TracBrowser for help on using the repository browser.