source: icGREP/icgrep-devel/icgrep/grep_engine.cpp @ 5547

Last change on this file since 5547 was 5493, checked in by cameron, 2 years ago

Restore check-ins from the last several days

File size: 26.7 KB
Line 
1/*
2 *  Copyright (c) 2017 International Characters.
3 *  This software is licensed to the public under the Open Software License 3.0.
4 *  icgrep is a trademark of International Characters.
5 */
6
7#include "grep_engine.h"
8#include "grep_interface.h"
9#include <llvm/IR/Module.h>
10#include <boost/filesystem.hpp>
11#include <UCD/UnicodeNameData.h>
12#include <UCD/resolve_properties.h>
13#include <kernels/cc_kernel.h>
14#include <kernels/grep_kernel.h>
15#include <kernels/linebreak_kernel.h>
16#include <kernels/streams_merge.h>
17#include <kernels/source_kernel.h>
18#include <kernels/s2p_kernel.h>
19#include <kernels/scanmatchgen.h>
20#include <kernels/streamset.h>
21#include <kernels/until_n.h>
22#include <kernels/kernel_builder.h>
23#include <pablo/pablo_kernel.h>
24#include <re/re_cc.h>
25#include <re/re_toolchain.h>
26#include <toolchain/toolchain.h>
27#include <toolchain/cpudriver.h>
28#include <toolchain/NVPTXDriver.h>
29#include <iostream>
30#include <sstream>
31#include <cc/multiplex_CCs.h>
32#include <llvm/Support/raw_ostream.h>
33#include <util/aligned_allocator.h>
34#include <sys/stat.h>
35#include <fcntl.h>
36#include <errno.h>
37#include <mutex>
38#ifdef CUDA_ENABLED
39#include <preprocess.cpp>
40#include <IR_Gen/CudaDriver.h>
41#endif
42
43using namespace parabix;
44using namespace llvm;
45
46namespace grep {
47
48static std::stringstream * resultStrs = nullptr;
49static std::vector<std::string> inputFiles;
50static std::vector<std::string> linePrefix;
51static bool grepMatchFound;
52
53size_t * startPoints = nullptr;
54size_t * accumBytes = nullptr;
55
56
57std::mutex count_mutex;
58size_t fileCount;
59
60// DoGrep thread function.
61void *DoGrepThreadFunction(void *args)
62{
63    size_t fileIdx;
64    grep::GrepEngine * grepEngine = (grep::GrepEngine *)args;
65
66    count_mutex.lock();
67    fileIdx = fileCount;
68    fileCount++;
69    count_mutex.unlock();
70
71    while (fileIdx < inputFiles.size()) {
72        size_t grepResult = grepEngine->doGrep(inputFiles[fileIdx], fileIdx);
73       
74        count_mutex.lock();
75        if (grepResult > 0) grepMatchFound = true;
76        fileIdx = fileCount;
77        fileCount++;
78        count_mutex.unlock();
79        if (QuietMode && grepMatchFound) pthread_exit(nullptr);
80    }
81
82    pthread_exit(nullptr);
83}
84
85void GrepEngine::doGrep(const std::string & fileName) const{
86#ifdef CUDA_ENABLED
87    const bool CountOnly = true;
88    boost::filesystem::path file(fileName);
89    if (exists(file)) {
90        if (is_directory(file)) {
91            return;
92        }
93    } else {
94        if (!NoMessagesFlag) {
95            std::cerr << "Error: cannot open " << fileName << " for processing. Skipped.\n";
96            return;
97        }
98    }
99
100    const auto fileSize = file_size(file);
101   
102    if (fileSize > 0) {
103        try {
104            boost::iostreams::mapped_file_source source(fileName, fileSize, 0);
105            char * fileBuffer = const_cast<char *>(source.data());
106           
107            codegen::BlockSize = 128;
108            std::vector<size_t> LFPositions = preprocess(fileBuffer, fileSize);
109           
110            const unsigned numOfGroups = codegen::GroupNum;
111            if (posix_memalign((void**)&startPoints, 8, (numOfGroups+1)*sizeof(size_t)) ||
112                posix_memalign((void**)&accumBytes, 8, (numOfGroups+1)*sizeof(size_t))) {
113                std::cerr << "Cannot allocate memory for startPoints or accumBytes.\n";
114                exit(-1);
115            }
116            const auto PTXFilename = mGrepDriver->getBuilder()->getModule()->getModuleIdentifier() + ".ptx";
117            RunPTX(PTXFilename, fileBuffer, fileSize, CountOnly, LFPositions, startPoints, accumBytes);
118            source.close();
119        } catch (std::exception & e) {
120            if (!NoMessagesFlag) {
121                std::cerr << "Boost mmap error: " + fileName + ": " + e.what() + " Skipped.\n";
122                return;
123            }
124        }
125    } else {
126        std::cout << 0 << std::endl;
127    }
128#endif
129}
130
131uint64_t GrepEngine::doGrep(const std::string & fileName, const uint32_t fileIdx) const {
132    struct stat sb;
133    const int32_t fd = open(fileName.c_str(), O_RDONLY);
134    if (LLVM_UNLIKELY(fd == -1)) {
135        if (!NoMessagesFlag  && !(Mode == QuietMode)) {
136            if (errno == EACCES) {
137                resultStrs[fileIdx] << "icgrep: " << fileName << ": Permission denied.\n";
138            }
139            else if (errno == ENOENT) {
140                resultStrs[fileIdx] << "icgrep: " << fileName << ": No such file.\n";
141            }
142            else {
143                resultStrs[fileIdx] << "icgrep: " << fileName << ": Failed.\n";
144            }
145        }
146        return 0;
147    }
148    if (stat(fileName.c_str(), &sb) == 0 && S_ISDIR(sb.st_mode)) {
149        if (!NoMessagesFlag  && !(Mode == QuietMode)) {
150            resultStrs[fileIdx] << "icgrep: " << fileName << ": Is a directory.\n";
151        }
152        close(fd);
153        return 0;
154    }
155    const auto result = doGrep(fd, fileIdx);
156    close(fd);
157    return result;
158}
159
160uint64_t GrepEngine::doGrep(const int32_t fileDescriptor, const uint32_t fileIdx) const {
161    assert (mGrepDriver);
162    typedef uint64_t (*GrepFunctionType)(int32_t fileDescriptor, const uint32_t fileIdx);
163    auto f = reinterpret_cast<GrepFunctionType>(mGrepDriver->getMain());
164   
165    uint64_t grepResult = f(fileDescriptor, fileIdx);
166    if (grepResult > 0) grepMatchFound = true;
167    else if ((Mode == NormalMode) && !resultStrs[fileIdx].str().empty()) grepMatchFound = true;
168   
169    if (Mode == CountOnly) {
170        resultStrs[fileIdx] << linePrefix[fileIdx] << grepResult << "\n";
171    }
172    else if (Mode == FilesWithMatch || Mode == FilesWithoutMatch ) {
173        size_t requiredCount = Mode == FilesWithMatch ? 1 : 0;
174        if (grepResult == requiredCount) {
175            resultStrs[fileIdx] << linePrefix[fileIdx];
176        }
177    }
178    else if (Mode == QuietMode) {
179        if (grepMatchFound) exit(MatchFoundExitCode);
180    }
181    return grepResult;
182}
183
184void initFileResult(std::vector<std::string> filenames){
185    grepMatchFound = false;
186    const int n = filenames.size();
187    linePrefix.resize(n);
188    if ((n > 1) && !NoFilenameFlag) {
189        WithFilenameFlag = true;
190    }
191    std::string fileSuffix = "";
192    bool setLinePrefix = WithFilenameFlag || (Mode == FilesWithMatch) || (Mode == FilesWithoutMatch);
193    if (setLinePrefix) {
194        if (NullFlag) {
195            fileSuffix = std::string("\0", 1);
196        }
197        else if ((Mode == NormalMode) && InitialTabFlag && !(LineNumberFlag || ByteOffsetFlag)) {
198            fileSuffix = "\t:";
199        }
200        else if ((Mode == NormalMode) || (Mode == CountOnly)) {
201            fileSuffix = ":";
202        }
203        else if ((Mode == FilesWithMatch) || (Mode == FilesWithoutMatch)) {
204            fileSuffix = "\n";
205        }
206    }
207    inputFiles = filenames;
208    resultStrs = new std::stringstream[n];
209    for (unsigned i = 0; i < inputFiles.size(); ++i) {
210        if (setLinePrefix) {
211            if (inputFiles[i] == "-") {
212                linePrefix[i] = LabelFlag + fileSuffix;
213            }
214            else {
215                linePrefix[i] = inputFiles[i] + fileSuffix;
216            }
217        }
218    }
219}
220
221template<typename CodeUnit>
222void wrapped_report_match(const size_t lineNum, size_t line_start, size_t line_end, const CodeUnit * const buffer, const size_t filesize, const size_t fileIdx) {
223
224//    errs().write_hex((size_t)buffer) << " : " << lineNum << " (" << line_start << ", " << line_end << ", " << filesize << ")\n";
225
226    assert (buffer);
227    assert (line_start <= line_end);
228    assert (line_end <= filesize);
229
230    if (WithFilenameFlag) {
231        resultStrs[fileIdx] << linePrefix[fileIdx];
232    }
233    if (LineNumberFlag) {
234        // Internally line numbers are counted from 0.  For display, adjust
235        // the line number so that lines are numbered from 1.
236        if (InitialTabFlag) {
237            resultStrs[fileIdx] << lineNum+1 << "\t:";
238        }
239        else {
240            resultStrs[fileIdx] << lineNum+1 << ":";
241        }
242    }
243
244    // If the line "starts" on the LF of a CRLF, it is actually the end of the last line.
245    if ((buffer[line_start] == 0xA) && (line_start != line_end)) {
246        ++line_start;
247    }
248
249    if (LLVM_UNLIKELY(line_end == filesize)) {
250        // The match position is at end-of-file.   We have a final unterminated line.
251        resultStrs[fileIdx].write((char *)&buffer[line_start], (line_end - line_start) * sizeof(CodeUnit));
252        if (NormalizeLineBreaksFlag) {
253            resultStrs[fileIdx] << '\n';  // terminate it
254        }
255    } else {
256        const auto end_byte = buffer[line_end];
257        if (grep::NormalizeLineBreaksFlag) {
258            if (LLVM_UNLIKELY(end_byte == 0x85)) {
259                // Line terminated with NEL, on the second byte.  Back up 1.
260                line_end -= 1;
261            } else if (LLVM_UNLIKELY(end_byte > 0xD)) {
262                // Line terminated with PS or LS, on the third byte.  Back up 2.
263                line_end -= 2;
264            }
265            resultStrs[fileIdx].write((char *)&buffer[line_start], (line_end - line_start) * sizeof(CodeUnit));
266            resultStrs[fileIdx] << '\n';
267        } else {
268            if (end_byte == 0x0D) {
269                // Check for line_end on first byte of CRLF; we don't want to access past the end of buffer.
270                if ((line_end + 1) < filesize) {
271                    if (buffer[line_end + 1] == 0x0A) {
272                        // Found CRLF; preserve both bytes.
273                        ++line_end;
274                    }
275                }
276            }
277            resultStrs[fileIdx].write((char *)&buffer[line_start], (line_end - line_start + 1) * sizeof(CodeUnit));
278        }
279    }
280}
281
282void PrintResults(){
283   
284    for (unsigned i = 0; i < inputFiles.size(); ++i){
285        std::cout << resultStrs[i].str();
286    }
287    exit(grepMatchFound ? MatchFoundExitCode : MatchNotFoundExitCode);
288}
289
290void GrepEngine::grepCodeGen_nvptx(std::vector<re::RE *> REs, const GrepModeType grepMode, const bool UTF_16) {
291
292    assert (mGrepDriver == nullptr);
293
294    mGrepDriver = new NVPTXDriver("engine");
295    auto & idb = mGrepDriver->getBuilder();
296    Module * M = idb->getModule();
297
298    const unsigned segmentSize = codegen::SegmentSize;
299    const unsigned bufferSegments = codegen::BufferSegments * codegen::ThreadNum;
300    const unsigned encodingBits = UTF_16 ? 16 : 8;
301
302    Type * const int64Ty = idb->getInt64Ty();
303    Type * const int32Ty = idb->getInt32Ty();
304    Type * const size_ty = idb->getSizeTy();
305    Type * const sizeTyPtr = PointerType::get(size_ty, 1);
306    Type * const int64tyPtr = PointerType::get(int64Ty, 1);
307    Type * const voidTy = idb->getVoidTy();
308
309    Function * mainFunc = cast<Function>(M->getOrInsertFunction("Main", voidTy, int64tyPtr, sizeTyPtr, sizeTyPtr, int64tyPtr, nullptr));
310    mainFunc->setCallingConv(CallingConv::C);
311    idb->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFunc, 0));
312    auto args = mainFunc->arg_begin();
313
314    Value * const inputPtr = &*(args++);
315    inputPtr->setName("inputPtr");
316    Value * const startPointsPtr = &*(args++);
317    startPointsPtr->setName("startPointsPtr");
318    Value * const bufferSizesPtr = &*(args++);
319    bufferSizesPtr->setName("bufferSizesPtr");
320    Value * const outputPtr = &*(args++);
321    outputPtr->setName("outputPtr");
322
323    Function * tidFunc = M->getFunction("llvm.nvvm.read.ptx.sreg.tid.x");
324    Value * tid = idb->CreateCall(tidFunc);
325    Function * bidFunc = cast<Function>(M->getOrInsertFunction("llvm.nvvm.read.ptx.sreg.ctaid.x", int32Ty, nullptr));
326    Value * bid = idb->CreateCall(bidFunc);
327
328    Value * startPoint = idb->CreateLoad(idb->CreateGEP(startPointsPtr, bid));
329    Value * startBlock = idb->CreateUDiv(startPoint, ConstantInt::get(int64Ty, idb->getBitBlockWidth()));
330    Type * const inputStreamType = PointerType::get(ArrayType::get(ArrayType::get(idb->getBitBlockType(), 8), 1), 1);   
331    Value * inputStreamPtr = idb->CreateGEP(idb->CreateBitCast(inputPtr, inputStreamType), startBlock);
332    Value * inputStream = idb->CreateGEP(inputStreamPtr, tid);
333    Value * bufferSize = idb->CreateLoad(idb->CreateGEP(bufferSizesPtr, bid));
334
335    StreamSetBuffer * ByteStream = mGrepDriver->addBuffer(make_unique<SourceBuffer>(idb, idb->getStreamSetTy(1, 8), 1));
336    kernel::Kernel * sourceK = mGrepDriver->addKernelInstance(make_unique<kernel::MemorySourceKernel>(idb, inputStreamType, segmentSize));
337    sourceK->setInitialArguments({inputStream, bufferSize});
338    mGrepDriver->makeKernelCall(sourceK, {}, {ByteStream});
339
340    StreamSetBuffer * BasisBits = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(8, 1), segmentSize * bufferSegments));
341    kernel::Kernel * s2pk = mGrepDriver->addKernelInstance(make_unique<kernel::S2PKernel>(idb));
342    mGrepDriver->makeKernelCall(s2pk, {ByteStream}, {BasisBits});
343 
344    StreamSetBuffer * LineBreakStream = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
345    kernel::Kernel * linebreakK = mGrepDriver->addKernelInstance(make_unique<kernel::LineBreakKernelBuilder>(idb, encodingBits));
346    mGrepDriver->makeKernelCall(linebreakK, {BasisBits}, {LineBreakStream});
347   
348    const auto n = REs.size();
349
350    std::vector<StreamSetBuffer *> MatchResultsBufs(n);
351
352    for(unsigned i = 0; i < n; ++i){
353        StreamSetBuffer * MatchResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
354        kernel::Kernel * icgrepK = mGrepDriver->addKernelInstance(make_unique<kernel::ICGrepKernel>(idb, REs[i]));
355        mGrepDriver->makeKernelCall(icgrepK, {BasisBits, LineBreakStream}, {MatchResults});
356        MatchResultsBufs[i] = MatchResults;
357    }
358    StreamSetBuffer * MergedResults = MatchResultsBufs[0];
359    if (REs.size() > 1) {
360        MergedResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
361        kernel::Kernel * streamsMergeK = mGrepDriver->addKernelInstance(make_unique<kernel::StreamsMerge>(idb, 1, REs.size()));
362        mGrepDriver->makeKernelCall(streamsMergeK, MatchResultsBufs, {MergedResults});
363    }
364
365    kernel::Kernel * matchCountK = mGrepDriver->addKernelInstance(make_unique<kernel::PopcountKernel>(idb));
366    mGrepDriver->makeKernelCall(matchCountK, {MergedResults}, {});
367    mGrepDriver->generatePipelineIR();
368    idb->setKernel(matchCountK);
369    Value * matchedLineCount = idb->getAccumulator("countResult");
370    matchedLineCount = idb->CreateZExt(matchedLineCount, int64Ty);
371   
372    Value * strideBlocks = ConstantInt::get(int32Ty, idb->getStride() / idb->getBitBlockWidth());
373    Value * outputThreadPtr = idb->CreateGEP(outputPtr, idb->CreateAdd(idb->CreateMul(bid, strideBlocks), tid));
374    idb->CreateStore(matchedLineCount, outputThreadPtr);
375    idb->CreateRetVoid();
376
377    mGrepDriver->finalizeObject();
378}
379
380void GrepEngine::grepCodeGen(std::vector<re::RE *> REs, const GrepModeType grepMode, const bool UTF_16, GrepSource grepSource) {
381
382    assert (mGrepDriver == nullptr);
383    mGrepDriver = new ParabixDriver("engine");
384    auto & idb = mGrepDriver->getBuilder();
385    Module * M = idb->getModule();
386
387    const unsigned segmentSize = codegen::SegmentSize;
388    const unsigned bufferSegments = codegen::BufferSegments * codegen::ThreadNum;
389    const unsigned encodingBits = UTF_16 ? 16 : 8;
390
391    Type * const int64Ty = idb->getInt64Ty();
392    Type * const int32Ty = idb->getInt32Ty();
393
394    kernel::Kernel * sourceK = nullptr;
395   
396    size_t MatchLimit = ((grepMode == QuietMode) | (grepMode == FilesWithMatch) | (grepMode == FilesWithoutMatch)) ? 1 : MaxCountFlag;
397
398    Function * mainFunc = cast<Function>(M->getOrInsertFunction("Main", int64Ty, idb->getInt32Ty(), int32Ty, nullptr));
399    mainFunc->setCallingConv(CallingConv::C);
400    idb->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFunc, 0));
401    auto args = mainFunc->arg_begin();
402
403    Value * const fileDescriptor = &*(args++);
404    fileDescriptor->setName("fileDescriptor");
405    Value * fileIdx = &*(args++);
406    fileIdx->setName("fileIdx");
407
408    StreamSetBuffer * ByteStream = mGrepDriver->addBuffer(make_unique<SourceBuffer>(idb, idb->getStreamSetTy(1, 8)));
409
410    if (grepSource == GrepSource::File) {
411        sourceK = mGrepDriver->addKernelInstance(make_unique<kernel::MMapSourceKernel>(idb, segmentSize));
412    } else {
413        sourceK = mGrepDriver->addKernelInstance(make_unique<kernel::ReadSourceKernel>(idb, segmentSize));
414    }
415    sourceK->setInitialArguments({fileDescriptor});
416
417    mGrepDriver->makeKernelCall(sourceK, {}, {ByteStream});
418    StreamSetBuffer * BasisBits = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(8, 1), segmentSize * bufferSegments));
419   
420    kernel::Kernel * s2pk = mGrepDriver->addKernelInstance(make_unique<kernel::S2PKernel>(idb));
421    mGrepDriver->makeKernelCall(s2pk, {ByteStream}, {BasisBits});
422   
423    kernel::Kernel * linebreakK = mGrepDriver->addKernelInstance(make_unique<kernel::LineBreakKernelBuilder>(idb, encodingBits));
424    StreamSetBuffer * LineBreakStream = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
425    mGrepDriver->makeKernelCall(linebreakK, {BasisBits}, {LineBreakStream});
426   
427    const auto n = REs.size();
428
429    std::vector<StreamSetBuffer *> MatchResultsBufs(n);
430
431    for(unsigned i = 0; i < n; ++i){
432        StreamSetBuffer * MatchResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
433        kernel::Kernel * icgrepK = mGrepDriver->addKernelInstance(make_unique<kernel::ICGrepKernel>(idb, REs[i]));
434        mGrepDriver->makeKernelCall(icgrepK, {BasisBits, LineBreakStream}, {MatchResults});
435        MatchResultsBufs[i] = MatchResults;
436    }
437    StreamSetBuffer * MergedResults = MatchResultsBufs[0];
438    if (REs.size() > 1) {
439        MergedResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
440        kernel::Kernel * streamsMergeK = mGrepDriver->addKernelInstance(make_unique<kernel::StreamsMerge>(idb, 1, REs.size()));
441        mGrepDriver->makeKernelCall(streamsMergeK, MatchResultsBufs, {MergedResults});
442    }
443   
444    if (InvertMatchFlag) {
445        kernel::Kernel * invertK = mGrepDriver->addKernelInstance(make_unique<kernel::InvertMatchesKernel>(idb));
446        StreamSetBuffer * OriginalMatches = MergedResults;
447        MergedResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
448        mGrepDriver->makeKernelCall(invertK, {OriginalMatches, LineBreakStream}, {MergedResults});
449    }
450    if (MatchLimit > 0) {
451        kernel::Kernel * untilK = mGrepDriver->addKernelInstance(make_unique<kernel::UntilNkernel>(idb));
452        untilK->setInitialArguments({idb->getSize(MatchLimit)});
453        StreamSetBuffer * AllMatches = MergedResults;
454        MergedResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
455        mGrepDriver->makeKernelCall(untilK, {AllMatches}, {MergedResults});
456    }
457    if (grepMode == NormalMode) {
458        kernel::Kernel * scanMatchK = mGrepDriver->addKernelInstance(make_unique<kernel::ScanMatchKernel>(idb, GrepType::Normal, encodingBits));
459        scanMatchK->setInitialArguments({fileIdx});
460        mGrepDriver->makeKernelCall(scanMatchK, {MergedResults, LineBreakStream, ByteStream}, {});
461        if (UTF_16) {
462            mGrepDriver->LinkFunction(*scanMatchK, "matcher", &wrapped_report_match<uint16_t>);
463        } else {
464            mGrepDriver->LinkFunction(*scanMatchK, "matcher", &wrapped_report_match<uint8_t>);
465        }
466        mGrepDriver->generatePipelineIR();
467        idb->CreateRet(idb->getInt64(0));
468    } else {
469        kernel::Kernel * matchCountK = mGrepDriver->addKernelInstance(make_unique<kernel::PopcountKernel>(idb));
470        mGrepDriver->makeKernelCall(matchCountK, {MergedResults}, {});
471        mGrepDriver->generatePipelineIR();
472        idb->setKernel(matchCountK);
473        Value * matchedLineCount = idb->getAccumulator("countResult");
474        matchedLineCount = idb->CreateZExt(matchedLineCount, int64Ty);
475        idb->CreateRet(matchedLineCount);
476    }
477    mGrepDriver->finalizeObject();
478}
479
480GrepEngine::GrepEngine()
481: mGrepDriver(nullptr) {
482
483}
484
485GrepEngine::~GrepEngine() {
486    delete mGrepDriver;
487}
488
489
490   
491static re::CC * parsedCodePointSet = nullptr;
492
493void insert_codepoints(const size_t lineNum, const size_t line_start, const size_t line_end, const char * const buffer) {
494    assert (buffer);
495    assert (line_start <= line_end);
496    re::codepoint_t c = 0;
497    size_t line_pos = line_start;
498    while (isxdigit(buffer[line_pos])) {
499        assert (line_pos < line_end);
500        if (isdigit(buffer[line_pos])) {
501            c = (c << 4) | (buffer[line_pos] - '0');
502        }
503        else {
504            c = (c << 4) | (tolower(buffer[line_pos]) - 'a' + 10);
505        }
506        line_pos++;
507    }
508    assert(((line_pos - line_start) >= 4) && ((line_pos - line_start) <= 6)); // UCD format 4 to 6 hex digits.
509    parsedCodePointSet->insert(c);
510}
511
512re::CC * grepCodepoints(re::RE * pattern, char * UnicodeDataBuffer, size_t bufferLength) {
513    parsedCodePointSet = re::makeCC();       
514    const unsigned segmentSize = 8;
515
516    ParabixDriver pxDriver("codepointEngine");
517    auto & idb = pxDriver.getBuilder();
518    Module * M = idb->getModule();
519   
520    Function * mainFunc = cast<Function>(M->getOrInsertFunction("Main", idb->getVoidTy(), idb->getInt8PtrTy(), idb->getSizeTy(), nullptr));
521    mainFunc->setCallingConv(CallingConv::C);
522    auto args = mainFunc->arg_begin();
523    Value * const buffer = &*(args++);
524    buffer->setName("buffer");
525    Value * length = &*(args++);
526    length->setName("length");
527   
528    idb->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFunc, 0));
529   
530    StreamSetBuffer * ByteStream = pxDriver.addBuffer(make_unique<SourceBuffer>(idb, idb->getStreamSetTy(1, 8)));
531    kernel::Kernel * sourceK = pxDriver.addKernelInstance(make_unique<kernel::MemorySourceKernel>(idb, idb->getInt8PtrTy(), segmentSize));
532    sourceK->setInitialArguments({buffer, length});
533    pxDriver.makeKernelCall(sourceK, {}, {ByteStream});
534   
535    StreamSetBuffer * BasisBits = pxDriver.addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(8, 1), segmentSize));
536   
537    kernel::Kernel * s2pk = pxDriver.addKernelInstance(make_unique<kernel::S2PKernel>(idb));
538    pxDriver.makeKernelCall(s2pk, {ByteStream}, {BasisBits});
539   
540    kernel::Kernel * linebreakK = pxDriver.addKernelInstance(make_unique<kernel::LineBreakKernelBuilder>(idb, 8));
541    StreamSetBuffer * LineBreakStream = pxDriver.addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize));
542    pxDriver.makeKernelCall(linebreakK, {BasisBits}, {LineBreakStream});
543   
544    StreamSetBuffer * MatchResults = pxDriver.addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize));
545    kernel::Kernel * icgrepK = pxDriver.addKernelInstance(make_unique<kernel::ICGrepKernel>(idb, pattern));
546    pxDriver.makeKernelCall(icgrepK, {BasisBits, LineBreakStream}, {MatchResults});
547   
548    kernel::Kernel * scanMatchK = pxDriver.addKernelInstance(make_unique<kernel::ScanMatchKernel>(idb, GrepType::NameExpression, 8));
549    scanMatchK->setInitialArguments({idb->getInt32(0)});
550    pxDriver.makeKernelCall(scanMatchK, {MatchResults, LineBreakStream, ByteStream}, {});
551    pxDriver.LinkFunction(*scanMatchK, "matcher", &insert_codepoints);
552    pxDriver.generatePipelineIR();
553    idb->CreateRetVoid();
554    pxDriver.finalizeObject();
555   
556    typedef void (*GrepFunctionType)(const char * buffer, const size_t length);
557    auto f = reinterpret_cast<GrepFunctionType>(pxDriver.getMain());
558    f(UnicodeDataBuffer, bufferLength);
559   
560    return parsedCodePointSet;   
561}
562
563   
564static std::vector<std::string> parsedPropertyValues;
565
566void insert_property_values(size_t lineNum, size_t line_start, size_t line_end, const char * buffer) {
567    assert (line_start <= line_end);
568    parsedPropertyValues.emplace_back(buffer + line_start, buffer + line_end);
569}
570
571
572const std::vector<std::string> & grepPropertyValues(const std::string& propertyName, re::RE * propertyValuePattern) {
573    ParabixDriver pxDriver("propertyValueEngine");
574    AlignedAllocator<char, 32> alloc;
575
576    parsedPropertyValues.clear();
577
578    const std::string & str = UCD::getPropertyValueGrepString(propertyName);
579
580    auto & idb = pxDriver.getBuilder();
581
582    const unsigned segmentSize = 8;
583    const auto n = str.length();
584    const auto w = idb->getBitBlockWidth() * segmentSize;
585    const auto m = w - (n % w);
586
587    char * aligned = alloc.allocate(n + m, 0);
588    std::memcpy(aligned, str.data(), n);
589    std::memset(aligned + n, 0, m);
590
591    Module * M = idb->getModule();
592   
593    Function * mainFunc = cast<Function>(M->getOrInsertFunction("Main", idb->getVoidTy(), idb->getInt8PtrTy(), idb->getSizeTy(), nullptr));
594    mainFunc->setCallingConv(CallingConv::C);
595    auto args = mainFunc->arg_begin();
596    Value * const buffer = &*(args++);
597    buffer->setName("buffer");
598    Value * length = &*(args++);
599    length->setName("length");
600   
601    idb->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFunc, 0));
602   
603    StreamSetBuffer * ByteStream = pxDriver.addBuffer(make_unique<SourceBuffer>(idb, idb->getStreamSetTy(1, 8)));
604    kernel::Kernel * sourceK = pxDriver.addKernelInstance(make_unique<kernel::MemorySourceKernel>(idb, idb->getInt8PtrTy(), segmentSize));
605    sourceK->setInitialArguments({buffer, length});
606    pxDriver.makeKernelCall(sourceK, {}, {ByteStream});
607   
608    StreamSetBuffer * BasisBits = pxDriver.addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(8, 1), segmentSize));
609   
610    kernel::Kernel * s2pk = pxDriver.addKernelInstance(make_unique<kernel::S2PKernel>(idb));
611    pxDriver.makeKernelCall(s2pk, {ByteStream}, {BasisBits});
612   
613    kernel::Kernel * linebreakK = pxDriver.addKernelInstance(make_unique<kernel::LineBreakKernelBuilder>(idb, 8));
614    StreamSetBuffer * LineBreakStream = pxDriver.addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize));
615    pxDriver.makeKernelCall(linebreakK, {BasisBits}, {LineBreakStream});
616   
617    StreamSetBuffer * MatchResults = pxDriver.addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize));
618    kernel::Kernel * icgrepK = pxDriver.addKernelInstance(make_unique<kernel::ICGrepKernel>(idb, propertyValuePattern));
619    pxDriver.makeKernelCall(icgrepK, {BasisBits, LineBreakStream}, {MatchResults});
620   
621    kernel::Kernel * scanMatchK = pxDriver.addKernelInstance(make_unique<kernel::ScanMatchKernel>(idb, GrepType::PropertyValue, 8));
622    scanMatchK->setInitialArguments({idb->getInt32(0)});
623    pxDriver.makeKernelCall(scanMatchK, {MatchResults, LineBreakStream, ByteStream}, {});
624    pxDriver.LinkFunction(*scanMatchK, "matcher", &insert_property_values);
625    pxDriver.generatePipelineIR();
626    idb->CreateRetVoid();
627    pxDriver.finalizeObject();
628
629    typedef void (*GrepFunctionType)(const char * buffer, const size_t length);
630    auto f = reinterpret_cast<GrepFunctionType>(pxDriver.getMain());
631    f(aligned, n);
632   
633    alloc.deallocate(aligned, 0);
634    return parsedPropertyValues;
635}
636
637   
638}
Note: See TracBrowser for help on using the repository browser.