source: icGREP/icgrep-devel/icgrep/grep_engine.cpp @ 5477

Last change on this file since 5477 was 5476, checked in by cameron, 2 years ago

Command line interface - systematic support for legacy flags

File size: 22.4 KB
Line 
1/*
2 *  Copyright (c) 2017 International Characters.
3 *  This software is licensed to the public under the Open Software License 3.0.
4 *  icgrep is a trademark of International Characters.
5 */
6
7#include "grep_engine.h"
8#include "grep_interface.h"
9#include <llvm/IR/Module.h>
10#include <boost/filesystem.hpp>
11#include <UCD/UnicodeNameData.h>
12#include <UCD/resolve_properties.h>
13#include <kernels/cc_kernel.h>
14#include <kernels/grep_kernel.h>
15#include <kernels/linebreak_kernel.h>
16#include <kernels/streams_merge.h>
17#include <kernels/match_count.h>
18#include <kernels/source_kernel.h>
19#include <kernels/s2p_kernel.h>
20#include <kernels/scanmatchgen.h>
21#include <kernels/streamset.h>
22#include <kernels/until_n.h>
23#include <kernels/kernel_builder.h>
24#include <pablo/pablo_kernel.h>
25#include <re/re_cc.h>
26#include <re/re_toolchain.h>
27#include <toolchain/toolchain.h>
28#include <toolchain/cpudriver.h>
29#include <toolchain/NVPTXDriver.h>
30#include <iostream>
31#include <sstream>
32#include <cc/multiplex_CCs.h>
33#include <llvm/Support/raw_ostream.h>
34#include <util/aligned_allocator.h>
35#include <sys/stat.h>
36#include <fcntl.h>
37
38#ifdef CUDA_ENABLED
39#include <preprocess.cpp>
40#include <IR_Gen/CudaDriver.h>
41#endif
42
43using namespace parabix;
44using namespace llvm;
45
46namespace grep {
47
48
49static re::CC * parsedCodePointSet = nullptr;
50
51static std::vector<std::string> parsedPropertyValues;
52
53size_t * startPoints = nullptr;
54size_t * accumBytes = nullptr;
55
56
57void GrepEngine::doGrep(const std::string & fileName) const{
58#ifdef CUDA_ENABLED
59    const bool CountOnly = true;
60    boost::filesystem::path file(fileName);
61    if (exists(file)) {
62        if (is_directory(file)) {
63            return;
64        }
65    } else {
66        if (!SilenceFileErrors) {
67            std::cerr << "Error: cannot open " << fileName << " for processing. Skipped.\n";
68            return;
69        }
70    }
71
72    const auto fileSize = file_size(file);
73   
74    if (fileSize > 0) {
75        try {
76            boost::iostreams::mapped_file_source source(fileName, fileSize, 0);
77            char * fileBuffer = const_cast<char *>(source.data());
78           
79            codegen::BlockSize = 128;
80            std::vector<size_t> LFPositions = preprocess(fileBuffer, fileSize);
81           
82            const unsigned numOfGroups = codegen::GroupNum;
83            if (posix_memalign((void**)&startPoints, 8, (numOfGroups+1)*sizeof(size_t)) ||
84                posix_memalign((void**)&accumBytes, 8, (numOfGroups+1)*sizeof(size_t))) {
85                std::cerr << "Cannot allocate memory for startPoints or accumBytes.\n";
86                exit(-1);
87            }
88            const auto PTXFilename = mGrepDriver->getBuilder()->getModule()->getModuleIdentifier() + ".ptx";
89            ulong * rslt = RunPTX(PTXFilename, fileBuffer, fileSize, CountOnly, LFPositions, startPoints, accumBytes);
90            source.close();
91        } catch (std::exception & e) {
92            if (!SilenceFileErrors) {
93                std::cerr << "Boost mmap error: " + fileName + ": " + e.what() + " Skipped.\n";
94                return;
95            }
96        }
97    } else {
98        std::cout << 0 << std::endl;
99    }
100#endif
101}
102
103uint64_t GrepEngine::doGrep(const std::string & fileName, const uint32_t fileIdx) const {
104    const int32_t fd = open(fileName.c_str(), O_RDONLY);
105    if (LLVM_UNLIKELY(fd == -1)) {
106        return 0;
107    }
108    const auto result = doGrep(fd, fileIdx);
109    close(fd);
110    return result;
111}
112
113uint64_t GrepEngine::doGrep(const int32_t fileDescriptor, const uint32_t fileIdx) const {
114    assert (mGrepDriver);
115    typedef uint64_t (*GrepFunctionType)(int32_t fileDescriptor, const uint32_t fileIdx);
116    auto f = reinterpret_cast<GrepFunctionType>(mGrepDriver->getMain());
117    return f(fileDescriptor, fileIdx);
118}
119
120void GrepEngine::doGrep(const char * buffer, const uint64_t length, const uint32_t fileIdx) const {
121    assert (mGrepDriver);
122    typedef uint64_t (*GrepFunctionType)(const char * buffer, const uint64_t length, const uint32_t fileIdx);
123    auto f = reinterpret_cast<GrepFunctionType>(mGrepDriver->getMain());
124    f(buffer, length, fileIdx);
125}
126
127static int * total_count;
128static std::stringstream * resultStrs = nullptr;
129static std::vector<std::string> inputFiles;
130
131void initFileResult(std::vector<std::string> filenames){
132    const int n = filenames.size();
133    if ((n > 1) && !NoFilenameFlag) {
134        WithFilenameFlag = true;
135    }
136    inputFiles = filenames;
137    resultStrs = new std::stringstream[n];
138    total_count = new int[n];
139    for (unsigned i = 0; i < inputFiles.size(); ++i){
140        total_count[i] = 0;
141    }
142
143}
144
145template<typename CodeUnit>
146void wrapped_report_match(const size_t lineNum, size_t line_start, size_t line_end, const CodeUnit * const buffer, const size_t filesize, const size_t fileIdx) {
147
148//    errs().write_hex((size_t)buffer) << " : " << lineNum << " (" << line_start << ", " << line_end << ", " << filesize << ")\n";
149
150    assert (buffer);
151    assert (line_start <= line_end);
152    assert (line_end <= filesize);
153
154    if (WithFilenameFlag) {
155        resultStrs[fileIdx] << inputFiles[fileIdx] << ':';
156    }
157    if (LineNumberFlag) {
158        // Internally line numbers are counted from 0.  For display, adjust
159        // the line number so that lines are numbered from 1.
160        resultStrs[fileIdx] << lineNum+1 << ":";
161    }
162
163    // If the line "starts" on the LF of a CRLF, it is actually the end of the last line.
164    if ((buffer[line_start] == 0xA) && (line_start != line_end)) {
165        ++line_start;
166    }
167
168    if (LLVM_UNLIKELY(line_end == filesize)) {
169        // The match position is at end-of-file.   We have a final unterminated line.
170        resultStrs[fileIdx].write((char *)&buffer[line_start], (line_end - line_start) * sizeof(CodeUnit));
171        if (NormalizeLineBreaksFlag) {
172            resultStrs[fileIdx] << '\n';  // terminate it
173        }
174    } else {
175        const auto end_byte = buffer[line_end];
176        if (grep::NormalizeLineBreaksFlag) {
177            if (LLVM_UNLIKELY(end_byte == 0x85)) {
178                // Line terminated with NEL, on the second byte.  Back up 1.
179                line_end -= 1;
180            } else if (LLVM_UNLIKELY(end_byte > 0xD)) {
181                // Line terminated with PS or LS, on the third byte.  Back up 2.
182                line_end -= 2;
183            }
184            resultStrs[fileIdx].write((char *)&buffer[line_start], (line_end - line_start) * sizeof(CodeUnit));
185            resultStrs[fileIdx] << '\n';
186        } else {
187            if (end_byte == 0x0D) {
188                // Check for line_end on first byte of CRLF; we don't want to access past the end of buffer.
189                if ((line_end + 1) < filesize) {
190                    if (buffer[line_end + 1] == 0x0A) {
191                        // Found CRLF; preserve both bytes.
192                        ++line_end;
193                    }
194                }
195            }
196            resultStrs[fileIdx].write((char *)&buffer[line_start], (line_end - line_start + 1) * sizeof(CodeUnit));
197        }
198    }
199}
200
201const int MatchFoundReturnCode = 0;
202const int MatchNotFoundReturnCode = 1;
203void PrintResult(GrepModeType grepMode, std::vector<size_t> & total_CountOnly){
204    if (grepMode == NormalMode) {
205        int returnCode = MatchNotFoundReturnCode;
206        for (unsigned i = 0; i < inputFiles.size(); ++i){
207            std::cout << resultStrs[i].str();
208            if (!resultStrs[i].str().empty()) returnCode = MatchFoundReturnCode;
209        }
210        exit(returnCode);
211    }
212    if (grepMode == CountOnly) {
213        size_t total = 0;
214        if (!WithFilenameFlag) {
215            for (unsigned i = 0; i < inputFiles.size(); ++i) {
216                std::cout << total_CountOnly[i] << std::endl;
217                total += total_CountOnly[i];
218            }
219        } else {
220            for (unsigned i = 0; i < inputFiles.size(); ++i){
221                std::cout << inputFiles[i] << ':' << total_CountOnly[i] << std::endl;
222                total += total_CountOnly[i];
223            };
224        }
225        exit(total == 0 ? MatchNotFoundReturnCode : MatchFoundReturnCode);
226    }
227    else if (grepMode == FilesWithMatch || grepMode == FilesWithoutMatch ) {
228        size_t total = 0;
229        size_t requiredCount = grepMode == FilesWithMatch ? 1 : 0;
230        for (unsigned i = 0; i < inputFiles.size(); ++i) {
231            if (total_CountOnly[i] == requiredCount) {
232                std::cout << inputFiles[i] << std::endl;
233            }
234            total += total_CountOnly[i];
235        }
236        exit(total == 0 ? MatchNotFoundReturnCode : MatchFoundReturnCode);
237    } else /* QuietMode */ {
238        for (unsigned i = 0; i < inputFiles.size(); ++i){
239            if (total_CountOnly[i] > 0) exit(MatchFoundReturnCode);
240        }
241        exit(MatchNotFoundReturnCode);
242    }
243}
244
245void insert_codepoints(const size_t lineNum, const size_t line_start, const size_t line_end, const char * const buffer) {
246    assert (buffer);
247    assert (line_start <= line_end);
248    re::codepoint_t c = 0;
249    size_t line_pos = line_start;
250    while (isxdigit(buffer[line_pos])) {
251        assert (line_pos < line_end);
252        if (isdigit(buffer[line_pos])) {
253            c = (c << 4) | (buffer[line_pos] - '0');
254        }
255        else {
256            c = (c << 4) | (tolower(buffer[line_pos]) - 'a' + 10);
257        }
258        line_pos++;
259    }
260    assert(((line_pos - line_start) >= 4) && ((line_pos - line_start) <= 6)); // UCD format 4 to 6 hex digits.
261    parsedCodePointSet->insert(c);
262}
263
264void insert_property_values(size_t lineNum, size_t line_start, size_t line_end, const char * buffer) {
265    assert (line_start <= line_end);
266    parsedPropertyValues.emplace_back(buffer + line_start, buffer + line_end);
267}
268
269void GrepEngine::grepCodeGen_nvptx(std::vector<re::RE *> REs, const GrepModeType grepMode, const bool UTF_16) {
270
271    assert (mGrepDriver == nullptr);
272
273    mGrepDriver = new NVPTXDriver("engine");
274    auto & idb = mGrepDriver->getBuilder();
275    Module * M = idb->getModule();
276
277    const unsigned segmentSize = codegen::SegmentSize;
278    const unsigned bufferSegments = codegen::BufferSegments * codegen::ThreadNum;
279    const unsigned encodingBits = UTF_16 ? 16 : 8;
280
281    Type * const int64Ty = idb->getInt64Ty();
282    Type * const int32Ty = idb->getInt32Ty();
283    Type * const size_ty = idb->getSizeTy();
284    Type * const sizeTyPtr = PointerType::get(size_ty, 1);
285    Type * const int64tyPtr = PointerType::get(int64Ty, 1);
286    Type * const voidTy = idb->getVoidTy();
287
288    Function * mainFunc = cast<Function>(M->getOrInsertFunction("Main", voidTy, int64tyPtr, sizeTyPtr, sizeTyPtr, int64tyPtr, nullptr));
289    mainFunc->setCallingConv(CallingConv::C);
290    idb->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFunc, 0));
291    auto args = mainFunc->arg_begin();
292
293    Value * const inputPtr = &*(args++);
294    inputPtr->setName("inputPtr");
295    Value * const startPointsPtr = &*(args++);
296    startPointsPtr->setName("startPointsPtr");
297    Value * const bufferSizesPtr = &*(args++);
298    bufferSizesPtr->setName("bufferSizesPtr");
299    Value * const outputPtr = &*(args++);
300    outputPtr->setName("outputPtr");
301
302    Function * tidFunc = M->getFunction("llvm.nvvm.read.ptx.sreg.tid.x");
303    Value * tid = idb->CreateCall(tidFunc);
304    Function * bidFunc = cast<Function>(M->getOrInsertFunction("llvm.nvvm.read.ptx.sreg.ctaid.x", int32Ty, nullptr));
305    Value * bid = idb->CreateCall(bidFunc);
306
307    Value * startPoint = idb->CreateLoad(idb->CreateGEP(startPointsPtr, bid));
308    Value * startBlock = idb->CreateUDiv(startPoint, ConstantInt::get(int64Ty, idb->getBitBlockWidth()));
309    Type * const inputStreamType = PointerType::get(ArrayType::get(ArrayType::get(idb->getBitBlockType(), 8), 1), 1);   
310    Value * inputStreamPtr = idb->CreateGEP(idb->CreateBitCast(inputPtr, inputStreamType), startBlock);
311    Value * inputStream = idb->CreateGEP(inputStreamPtr, tid);
312    Value * bufferSize = idb->CreateLoad(idb->CreateGEP(bufferSizesPtr, bid));
313
314    StreamSetBuffer * ByteStream = mGrepDriver->addBuffer(make_unique<SourceBuffer>(idb, idb->getStreamSetTy(1, 8), 1));
315    kernel::Kernel * sourceK = mGrepDriver->addKernelInstance(make_unique<kernel::MemorySourceKernel>(idb, inputStreamType, segmentSize));
316    sourceK->setInitialArguments({inputStream, bufferSize});
317    mGrepDriver->makeKernelCall(sourceK, {}, {ByteStream});
318
319    StreamSetBuffer * BasisBits = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(8, 1), segmentSize * bufferSegments));
320    kernel::Kernel * s2pk = mGrepDriver->addKernelInstance(make_unique<kernel::S2PKernel>(idb));
321    mGrepDriver->makeKernelCall(s2pk, {ByteStream}, {BasisBits});
322 
323    StreamSetBuffer * LineBreakStream = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
324    kernel::Kernel * linebreakK = mGrepDriver->addKernelInstance(make_unique<kernel::LineBreakKernelBuilder>(idb, encodingBits));
325    mGrepDriver->makeKernelCall(linebreakK, {BasisBits}, {LineBreakStream});
326   
327    const auto n = REs.size();
328
329    std::vector<StreamSetBuffer *> MatchResultsBufs(n);
330
331    for(unsigned i = 0; i < n; ++i){
332        StreamSetBuffer * MatchResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
333        kernel::Kernel * icgrepK = mGrepDriver->addKernelInstance(make_unique<kernel::ICGrepKernel>(idb, REs[i]));
334        mGrepDriver->makeKernelCall(icgrepK, {BasisBits, LineBreakStream}, {MatchResults});
335        MatchResultsBufs[i] = MatchResults;
336    }
337    StreamSetBuffer * MergedResults = MatchResultsBufs[0];
338    if (REs.size() > 1) {
339        MergedResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
340        kernel::Kernel * streamsMergeK = mGrepDriver->addKernelInstance(make_unique<kernel::StreamsMerge>(idb, 1, REs.size()));
341        mGrepDriver->makeKernelCall(streamsMergeK, MatchResultsBufs, {MergedResults});
342    }
343
344    kernel::MatchCount matchCountK(idb);
345    mGrepDriver->addKernelCall(matchCountK, {MergedResults}, {});
346    mGrepDriver->generatePipelineIR();
347
348    idb->setKernel(&matchCountK);
349    Value * matchedLineCount = idb->getScalarField("matchedLineCount");
350    matchedLineCount = idb->CreateZExt(matchedLineCount, int64Ty);
351   
352    Value * strideBlocks = ConstantInt::get(int32Ty, idb->getStride() / idb->getBitBlockWidth());
353    Value * outputThreadPtr = idb->CreateGEP(outputPtr, idb->CreateAdd(idb->CreateMul(bid, strideBlocks), tid));
354    idb->CreateStore(matchedLineCount, outputThreadPtr);
355    idb->CreateRetVoid();
356
357    mGrepDriver->finalizeObject();
358}
359
360void GrepEngine::grepCodeGen(std::vector<re::RE *> REs, const GrepModeType grepMode, const bool UTF_16, GrepSource grepSource, const GrepType grepType) {
361
362    assert (mGrepDriver == nullptr);
363    mGrepDriver = new ParabixDriver("engine");
364    auto & idb = mGrepDriver->getBuilder();
365    Module * M = idb->getModule();
366
367    const unsigned segmentSize = codegen::SegmentSize;
368    const unsigned bufferSegments = codegen::BufferSegments * codegen::ThreadNum;
369    const unsigned encodingBits = UTF_16 ? 16 : 8;
370
371    Type * const int64Ty = idb->getInt64Ty();
372    Type * const int32Ty = idb->getInt32Ty();
373
374    Function * mainFunc = nullptr;
375    Value * fileIdx = nullptr;
376    StreamSetBuffer * ByteStream = nullptr;
377    kernel::Kernel * sourceK = nullptr;
378   
379    size_t MatchLimit = ((grepMode == QuietMode) | (grepMode == FilesWithMatch) | (grepMode == FilesWithoutMatch)) ? 1 : MaxCountFlag;
380
381    if (grepSource == GrepSource::Internal) {
382
383        mainFunc = cast<Function>(M->getOrInsertFunction("Main", int64Ty, idb->getInt8PtrTy(), int64Ty, int32Ty, nullptr));
384        mainFunc->setCallingConv(CallingConv::C);
385        idb->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFunc, 0));
386        auto args = mainFunc->arg_begin();
387
388        Value * const buffer = &*(args++);
389        buffer->setName("buffer");
390
391        Value * length = &*(args++);
392        length->setName("length");
393        length = idb->CreateZExtOrTrunc(length, idb->getSizeTy());
394
395        fileIdx = &*(args++);
396        fileIdx->setName("fileIdx");
397
398        ByteStream = mGrepDriver->addBuffer(make_unique<SourceBuffer>(idb, idb->getStreamSetTy(1, 8)));
399
400        sourceK = mGrepDriver->addKernelInstance(make_unique<kernel::MemorySourceKernel>(idb, idb->getInt8PtrTy(), segmentSize));
401        sourceK->setInitialArguments({buffer, length});
402
403    } else {
404
405        mainFunc = cast<Function>(M->getOrInsertFunction("Main", int64Ty, idb->getInt32Ty(), int32Ty, nullptr));
406        mainFunc->setCallingConv(CallingConv::C);
407        idb->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFunc, 0));
408        auto args = mainFunc->arg_begin();
409
410        Value * const fileDescriptor = &*(args++);
411        fileDescriptor->setName("fileDescriptor");
412        fileIdx = &*(args++);
413        fileIdx->setName("fileIdx");
414
415        ByteStream = mGrepDriver->addBuffer(make_unique<SourceBuffer>(idb, idb->getStreamSetTy(1, 8)));
416
417        if (grepSource == GrepSource::File) {
418            sourceK = mGrepDriver->addKernelInstance(make_unique<kernel::MMapSourceKernel>(idb, segmentSize));
419            sourceK->setInitialArguments({fileDescriptor});
420        } else { // if (grepSource == GrepSource::StdIn) {
421            sourceK = mGrepDriver->addKernelInstance(make_unique<kernel::ReadSourceKernel>(idb, segmentSize));
422            sourceK->setInitialArguments({idb->getInt32(STDIN_FILENO)});
423        }
424    }
425
426    mGrepDriver->makeKernelCall(sourceK, {}, {ByteStream});
427    StreamSetBuffer * BasisBits = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(8, 1), segmentSize * bufferSegments));
428   
429    kernel::Kernel * s2pk = mGrepDriver->addKernelInstance(make_unique<kernel::S2PKernel>(idb));
430    mGrepDriver->makeKernelCall(s2pk, {ByteStream}, {BasisBits});
431   
432    kernel::Kernel * linebreakK = mGrepDriver->addKernelInstance(make_unique<kernel::LineBreakKernelBuilder>(idb, encodingBits));
433    StreamSetBuffer * LineBreakStream = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
434    mGrepDriver->makeKernelCall(linebreakK, {BasisBits}, {LineBreakStream});
435   
436    const auto n = REs.size();
437
438    std::vector<StreamSetBuffer *> MatchResultsBufs(n);
439
440    for(unsigned i = 0; i < n; ++i){
441        StreamSetBuffer * MatchResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
442        kernel::Kernel * icgrepK = mGrepDriver->addKernelInstance(make_unique<kernel::ICGrepKernel>(idb, REs[i]));
443        mGrepDriver->makeKernelCall(icgrepK, {BasisBits, LineBreakStream}, {MatchResults});
444        MatchResultsBufs[i] = MatchResults;
445    }
446    StreamSetBuffer * MergedResults = MatchResultsBufs[0];
447    if (REs.size() > 1) {
448        MergedResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
449        kernel::Kernel * streamsMergeK = mGrepDriver->addKernelInstance(make_unique<kernel::StreamsMerge>(idb, 1, REs.size()));
450        mGrepDriver->makeKernelCall(streamsMergeK, MatchResultsBufs, {MergedResults});
451    }
452   
453    if (InvertMatchFlag) {
454        kernel::Kernel * invertK = mGrepDriver->addKernelInstance(make_unique<kernel::InvertMatchesKernel>(idb));
455        StreamSetBuffer * OriginalMatches = MergedResults;
456        MergedResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
457        mGrepDriver->makeKernelCall(invertK, {OriginalMatches, LineBreakStream}, {MergedResults});
458    }
459    if (MatchLimit > 0) {
460        kernel::Kernel * untilK = mGrepDriver->addKernelInstance(make_unique<kernel::UntilNkernel>(idb));
461        untilK->setInitialArguments({idb->getSize(MatchLimit)});
462        StreamSetBuffer * AllMatches = MergedResults;
463        MergedResults = mGrepDriver->addBuffer(make_unique<CircularBuffer>(idb, idb->getStreamSetTy(1, 1), segmentSize * bufferSegments));
464        mGrepDriver->makeKernelCall(untilK, {AllMatches}, {MergedResults});
465    }
466    if (grepMode != NormalMode) {
467        kernel::Kernel * matchCountK = mGrepDriver->addKernelInstance(make_unique<kernel::MatchCount>(idb));
468        mGrepDriver->makeKernelCall(matchCountK, {MergedResults}, {});
469        mGrepDriver->generatePipelineIR();
470        idb->setKernel(matchCountK);
471        Value * matchedLineCount = idb->getScalarField("matchedLineCount");
472        matchedLineCount = idb->CreateZExt(matchedLineCount, int64Ty);
473        idb->CreateRet(matchedLineCount);
474    } else {
475        kernel::Kernel * scanMatchK = mGrepDriver->addKernelInstance(make_unique<kernel::ScanMatchKernel>(idb, grepType, encodingBits));
476        scanMatchK->setInitialArguments({fileIdx});
477        mGrepDriver->makeKernelCall(scanMatchK, {MergedResults, LineBreakStream, ByteStream}, {});
478        switch (grepType) {
479            case GrepType::Normal:
480                if (UTF_16) {
481                    mGrepDriver->LinkFunction(*scanMatchK, "matcher", &wrapped_report_match<uint16_t>);
482                } else {
483                    mGrepDriver->LinkFunction(*scanMatchK, "matcher", &wrapped_report_match<uint8_t>);
484                }
485                break;
486            case GrepType::NameExpression:
487                mGrepDriver->LinkFunction(*scanMatchK, "matcher", &insert_codepoints);
488                break;
489            case GrepType::PropertyValue:
490                mGrepDriver->LinkFunction(*scanMatchK, "matcher", &insert_property_values);
491                break;
492        }
493        mGrepDriver->generatePipelineIR();
494        idb->CreateRet(idb->getInt64(0));
495    }
496    mGrepDriver->finalizeObject();
497}
498
499re::CC * GrepEngine::grepCodepoints() {
500    parsedCodePointSet = re::makeCC();
501    char * mFileBuffer = getUnicodeNameDataPtr();
502    size_t mFileSize = getUnicodeNameDataSize();
503    doGrep(mFileBuffer, mFileSize, 0);
504    return parsedCodePointSet;
505}
506
507const std::vector<std::string> & GrepEngine::grepPropertyValues(const std::string& propertyName) {
508    enum { MaxSupportedVectorWidthInBytes = 32 };
509    AlignedAllocator<char, MaxSupportedVectorWidthInBytes> alloc;
510    parsedPropertyValues.clear();
511    const std::string & str = UCD::getPropertyValueGrepString(propertyName);
512    const auto n = str.length();
513    // NOTE: MaxSupportedVectorWidthInBytes of trailing 0s are needed to prevent the grep function from
514    // erroneously matching garbage data when loading the final partial block.
515    char * aligned = alloc.allocate(n + MaxSupportedVectorWidthInBytes, 0);
516    std::memcpy(aligned, str.data(), n);
517    std::memset(aligned + n, 0, MaxSupportedVectorWidthInBytes);
518    doGrep(aligned, n, 0);
519    alloc.deallocate(aligned, 0);
520    return parsedPropertyValues;
521}
522
523GrepEngine::GrepEngine()
524: mGrepDriver(nullptr) {
525
526}
527
528GrepEngine::~GrepEngine() {
529    delete mGrepDriver;
530}
531
532}
Note: See TracBrowser for help on using the repository browser.