source: icGREP/icgrep-devel/icgrep/grep_engine.cpp @ 5346

Last change on this file since 5346 was 5343, checked in by lindanl, 2 years ago

Add count only option for separate compilation of multiple kernels.

File size: 31.3 KB
Line 
1/*
2 *  Copyright (c) 2016 International Characters.
3 *  This software is licensed to the public under the Open Software License 3.0.
4 *  icgrep is a trademark of International Characters.
5 */
6
7#include "grep_engine.h"
8#include <llvm/IR/Module.h>
9#include <llvm/ExecutionEngine/MCJIT.h>
10#include <llvm/IR/Verifier.h>
11#include <llvm/Support/CommandLine.h>
12#include <boost/filesystem.hpp>
13#include <boost/iostreams/device/mapped_file.hpp>
14#include <IR_Gen/idisa_builder.h>
15#include <IR_Gen/idisa_target.h>
16#include <UCD/UnicodeNameData.h>
17#include <UCD/resolve_properties.h>
18#include <kernels/cc_kernel.h>
19#include <kernels/unicode_linebreak_kernel.h>
20#include <kernels/streams_merge.h>
21#include <kernels/match_count.h>
22#include <kernels/pipeline.h>
23#include <kernels/mmap_kernel.h>
24#include <kernels/s2p_kernel.h>
25#include <kernels/scanmatchgen.h>
26#include <kernels/streamset.h>
27#include <pablo/pablo_compiler.h>
28#include <pablo/pablo_kernel.h>
29#include <pablo/pablo_toolchain.h>
30#include <re/re_cc.h>
31#include <re/re_toolchain.h>
32#include <toolchain.h>
33#include <iostream>
34#include <sstream>
35#ifdef CUDA_ENABLED
36#include <IR_Gen/CudaDriver.h>
37#include "preprocess.cpp"
38#endif
39#include <util/aligned_allocator.h>
40
41#define UNICODE_LINE_BREAK (!re::AlgorithmOptionIsSet(re::DisableUnicodeLineBreak))
42
43using namespace parabix;
44using namespace llvm;
45
46static cl::OptionCategory bGrepOutputOptions("Output Options",
47                                             "These options control the output.");
48static cl::opt<bool> SilenceFileErrors("s", cl::desc("Suppress messages for file errors."), cl::init(false),  cl::cat(bGrepOutputOptions));
49
50static cl::opt<bool> SuppressOutput("q", cl::desc("Suppress normal output; set return code only."), cl::init(false),  cl::cat(bGrepOutputOptions));
51
52static cl::opt<bool> NormalizeLineBreaks("normalize-line-breaks", cl::desc("Normalize line breaks to std::endl."), cl::init(false),  cl::cat(bGrepOutputOptions));
53
54static cl::opt<bool> ShowFileNames("H", cl::desc("Show the file name with each matching line."), cl::cat(bGrepOutputOptions));
55static cl::alias ShowFileNamesLong("with-filename", cl::desc("Alias for -H"), cl::aliasopt(ShowFileNames));
56
57static cl::opt<bool> ShowLineNumbers("n", cl::desc("Show the line number with each matching line."), cl::cat(bGrepOutputOptions));
58static cl::alias ShowLineNumbersLong("line-number", cl::desc("Alias for -n"), cl::aliasopt(ShowLineNumbers));
59
60static cl::opt<bool> pipelineParallel("enable-pipeline-parallel", cl::desc("Enable multithreading with pipeline parallelism."), cl::cat(bGrepOutputOptions));
61
62static cl::opt<bool> segmentPipelineParallel("enable-segment-pipeline-parallel", cl::desc("Enable multithreading with segment pipeline parallelism."), cl::cat(bGrepOutputOptions));
63
64bool isUTF_16 = false;
65std::string IRFilename = "icgrep.ll";
66std::string PTXFilename = "icgrep.ptx";
67
68static re::CC * parsedCodePointSet = nullptr;
69static std::vector<std::string> parsedPropertyValues;
70
71#ifdef CUDA_ENABLED
72int blockNo = 0;
73size_t * startPoints = nullptr;
74size_t * accumBytes = nullptr;
75#endif
76
77void GrepEngine::doGrep(const std::string & fileName, const int fileIdx, bool CountOnly, std::vector<size_t> & total_CountOnly, bool UTF_16) {
78    boost::filesystem::path file(fileName);
79    if (exists(file)) {
80        if (is_directory(file)) {
81            return;
82        }
83    } else {
84        if (!SilenceFileErrors) {
85            std::cerr << "Error: cannot open " << fileName << " for processing. Skipped.\n";
86            return;
87        }
88    }
89
90    const auto fileSize = file_size(file);
91    if (fileSize > 0) {
92        try {
93            boost::iostreams::mapped_file_source source(fileName, fileSize, 0);
94            char * fileBuffer = const_cast<char *>(source.data());
95           
96#ifdef CUDA_ENABLED 
97            if(codegen::NVPTX){
98                codegen::BlockSize = 128;
99                char * LineBreak;
100                if (posix_memalign((void**)&LineBreak, 32, fileSize)) {
101                    std::cerr << "Cannot allocate memory for linebreak.\n";
102                    exit(-1);
103                }
104                std::vector<size_t> LFPositions = preprocess(fileBuffer, fileSize, LineBreak);
105
106                const unsigned numOfGroups = codegen::GroupNum;
107                if (posix_memalign((void**)&startPoints, 8, (numOfGroups+1)*sizeof(size_t)) ||
108                    posix_memalign((void**)&accumBytes, 8, (numOfGroups+1)*sizeof(size_t))) {
109                    std::cerr << "Cannot allocate memory for startPoints or accumBytes.\n";
110                    exit(-1);
111                }
112
113                ulong * rslt = RunPTX(PTXFilename, fileBuffer, fileSize, CountOnly, LFPositions, startPoints, accumBytes);
114                if (CountOnly){
115                    exit(0);
116                }
117                else{
118                    size_t intputSize = startPoints[numOfGroups]-accumBytes[numOfGroups]+accumBytes[numOfGroups-1];
119                    mGrepFunction_CPU((char *)rslt, LineBreak, fileBuffer, intputSize, fileIdx);
120                    return;
121                }
122               
123            } 
124#endif
125            if (CountOnly) {
126                total_CountOnly[fileIdx] = mGrepFunction_CountOnly(fileBuffer, fileSize, fileIdx);
127            } else {
128                mGrepFunction(fileBuffer, fileSize, fileIdx);
129            }
130            source.close();
131        } catch (std::exception & e) {
132            if (!SilenceFileErrors) {
133                std::cerr << "Boost mmap error: " + fileName + ": " + e.what() + " Skipped.\n";
134                return;
135            }
136        }
137    } else {
138#ifdef CUDA_ENABLED
139        if (codegen::NVPTX){
140            std::cout << 0 << std::endl;
141            exit(0);
142        }
143#endif
144        if (CountOnly) {
145            total_CountOnly[fileIdx] = mGrepFunction_CountOnly(nullptr, 0, fileIdx);
146        } else {
147            mGrepFunction(nullptr, 0, fileIdx);
148        }
149    }
150}
151
152
153Function * generateGPUKernel(Module * m, IDISA::IDISA_Builder * iBuilder, bool CountOnly){
154    Type * const int64ty = iBuilder->getInt64Ty();
155    Type * const size_ty = iBuilder->getSizeTy();
156    Type * const int32ty = iBuilder->getInt32Ty();
157    Type * const sizeTyPtr = PointerType::get(size_ty, 1);
158    Type * const int64tyPtr = PointerType::get(int64ty, 1);
159    Type * const inputType = PointerType::get(iBuilder->getInt8Ty(), 1);
160    Type * const resultTy = iBuilder->getVoidTy();
161    Function * kernelFunc = cast<Function>(m->getOrInsertFunction("GPU_Main", resultTy, inputType, sizeTyPtr, sizeTyPtr, int64tyPtr, nullptr));
162    kernelFunc->setCallingConv(CallingConv::C);
163    Function::arg_iterator args = kernelFunc->arg_begin();
164
165    Value * const inputPtr = &*(args++);
166    inputPtr->setName("inputPtr");
167    Value * const startPointsPtr = &*(args++);
168    startPointsPtr->setName("startPointsPtr");
169    Value * const bufferSizesPtr = &*(args++);
170    bufferSizesPtr->setName("bufferSizesPtr");
171    Value * const outputPtr = &*(args++);
172    outputPtr->setName("resultPtr");
173
174    BasicBlock * entryBlock = BasicBlock::Create(m->getContext(), "entry", kernelFunc, 0);
175    iBuilder->SetInsertPoint(entryBlock);
176
177    Function * tidFunc = m->getFunction("llvm.nvvm.read.ptx.sreg.tid.x");
178    Value * tid = iBuilder->CreateCall(tidFunc);
179    Function * bidFunc = cast<Function>(m->getOrInsertFunction("llvm.nvvm.read.ptx.sreg.ctaid.x", int32ty, nullptr));
180    Value * bid = iBuilder->CreateCall(bidFunc);
181
182    Value * startPoint = iBuilder->CreateLoad(iBuilder->CreateGEP(startPointsPtr, bid));
183
184    Function * mainFunc = m->getFunction("Main");
185    Value * startBlock = iBuilder->CreateUDiv(startPoint, ConstantInt::get(int64ty, iBuilder->getBitBlockWidth()));
186    Type * const inputStreamType = PointerType::get(ArrayType::get(ArrayType::get(iBuilder->getBitBlockType(), 8), 1), 1);   
187    Value * inputStreamPtr = iBuilder->CreateGEP(iBuilder->CreateBitCast(inputPtr, inputStreamType), startBlock);
188    Value * inputStream = iBuilder->CreateGEP(inputStreamPtr, tid);
189    Value * bufferSize = iBuilder->CreateLoad(iBuilder->CreateGEP(bufferSizesPtr, bid));
190
191    if (CountOnly){
192        Value * strideBlocks = ConstantInt::get(int32ty, iBuilder->getStride() / iBuilder->getBitBlockWidth());
193        Value * outputThreadPtr = iBuilder->CreateGEP(outputPtr, iBuilder->CreateAdd(iBuilder->CreateMul(bid, strideBlocks), tid));
194        Value * result = iBuilder->CreateCall(mainFunc, {inputStream, bufferSize});
195        iBuilder->CreateStore(result, outputThreadPtr);
196    }
197    else {
198        Type * const outputStremType = PointerType::get(ArrayType::get(iBuilder->getBitBlockType(), 2), 1);
199        Value * outputStreamPtr = iBuilder->CreateGEP(iBuilder->CreateBitCast(outputPtr, outputStremType), startBlock);
200        Value * outputStream = iBuilder->CreateGEP(outputStreamPtr, tid);
201        iBuilder->CreateCall(mainFunc, {inputStream, bufferSize, outputStream});
202    }   
203
204    iBuilder->CreateRetVoid();
205    return kernelFunc;
206}
207
208Function * generateCPUKernel(Module * m, IDISA::IDISA_Builder * iBuilder, GrepType grepType){
209    Type * const size_ty = iBuilder->getSizeTy();
210    Type * const int8PtrTy = iBuilder->getInt8PtrTy();
211    Type * const rsltType = PointerType::get(ArrayType::get(iBuilder->getBitBlockType(), 1), 0);
212    Function * const mainCPUFn = cast<Function>(m->getOrInsertFunction("CPU_Main", iBuilder->getVoidTy(), rsltType, rsltType, int8PtrTy, size_ty, size_ty, nullptr));
213    mainCPUFn->setCallingConv(CallingConv::C);
214    iBuilder->SetInsertPoint(BasicBlock::Create(m->getContext(), "entry", mainCPUFn, 0));
215    Function::arg_iterator args = mainCPUFn->arg_begin();
216   
217    Value * const rsltStream = &*(args++);
218    rsltStream->setName("rslt");
219    Value * const lbStream = &*(args++);
220    lbStream->setName("lb");
221    Value * const inputStream = &*(args++);
222    inputStream->setName("input");
223    Value * const fileSize = &*(args++);
224    fileSize->setName("fileSize");
225    Value * const fileIdx = &*(args++);
226    fileIdx->setName("fileIdx");
227
228    const unsigned segmentSize = codegen::SegmentSize;
229
230    ExternalFileBuffer MatchResults(iBuilder, iBuilder->getStreamSetTy(1, 1));
231    MatchResults.setStreamSetBuffer(rsltStream, fileSize);
232
233    kernel::MMapSourceKernel mmapK1(iBuilder, segmentSize); 
234    mmapK1.generateKernel({}, {&MatchResults});
235    mmapK1.setInitialArguments({fileSize});
236
237
238    ExternalFileBuffer LineBreak(iBuilder, iBuilder->getStreamSetTy(1, 1));
239    LineBreak.setStreamSetBuffer(lbStream, fileSize);
240   
241    kernel::MMapSourceKernel mmapK2(iBuilder, segmentSize); 
242    mmapK2.generateKernel({}, {&LineBreak});
243    mmapK2.setInitialArguments({fileSize});
244
245    kernel::ScanMatchKernel scanMatchK(iBuilder, grepType);
246    scanMatchK.generateKernel({&MatchResults, &LineBreak}, {});
247           
248    scanMatchK.setInitialArguments({inputStream, fileSize, fileIdx});
249   
250    generatePipelineLoop(iBuilder, {&mmapK1, &mmapK2, &scanMatchK});
251    iBuilder->CreateRetVoid();
252
253    return mainCPUFn;
254}
255
256void GrepEngine::multiGrepCodeGen(std::string moduleName, std::vector<re::RE *> REs, bool CountOnly, bool UTF_16, GrepType grepType) {
257
258    isUTF_16 = UTF_16;
259    Module * M = new Module(moduleName + ":icgrep", getGlobalContext());; 
260    IDISA::IDISA_Builder * iBuilder = IDISA::GetIDISA_Builder(M);; 
261
262    const unsigned segmentSize = codegen::SegmentSize;
263    const unsigned bufferSegments = segmentPipelineParallel ? (codegen::BufferSegments * codegen::ThreadNum) : codegen::BufferSegments;
264    const unsigned encodingBits = UTF_16 ? 16 : 8;
265
266    mGrepType = grepType;
267
268    Type * const size_ty = iBuilder->getSizeTy();
269    Type * const int8PtrTy = iBuilder->getInt8PtrTy();
270    Type * const inputType = PointerType::get(ArrayType::get(ArrayType::get(iBuilder->getBitBlockType(), encodingBits), 1), 0);
271    Type * const resultTy = CountOnly ? size_ty : iBuilder->getVoidTy();
272
273    Function * mainFn = cast<Function>(M->getOrInsertFunction("Main", resultTy, inputType, size_ty, size_ty, nullptr));
274    mainFn->setCallingConv(CallingConv::C);
275    iBuilder->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFn, 0));
276    Function::arg_iterator args = mainFn->arg_begin();
277   
278    Value * inputStream = &*(args++);
279    inputStream->setName("input");
280    Value * fileSize = &*(args++);
281    fileSize->setName("fileSize");
282    Value * fileIdx = &*(args++);
283    fileIdx->setName("fileIdx");
284
285    ExternalFileBuffer ByteStream(iBuilder, iBuilder->getStreamSetTy(1, 8));   
286    CircularBuffer BasisBits(iBuilder, iBuilder->getStreamSetTy(8), segmentSize * bufferSegments);
287    ByteStream.setStreamSetBuffer(inputStream, fileSize);
288    BasisBits.allocateBuffer();
289   
290    kernel::MMapSourceKernel mmapK(iBuilder, segmentSize); 
291    mmapK.generateKernel({}, {&ByteStream});
292    mmapK.setInitialArguments({fileSize});
293
294    kernel::S2PKernel  s2pk(iBuilder);
295    s2pk.generateKernel({&ByteStream}, {&BasisBits});
296
297    std::vector<re::CC *> LF;
298    LF.push_back(re::makeCC(0x0A));
299   
300    kernel::UnicodeLineBreakKernelBuilder unicodelbK(iBuilder, "unicodelinebreak", encodingBits);
301    kernel::ParabixCharacterClassKernelBuilder linefeedK(iBuilder, "linefeed", LF, encodingBits);
302
303    std::vector<pablo::PabloKernel *> icgrepKs;
304    std::vector<StreamSetBuffer *> MatchResultsBufs;
305
306    for(unsigned i=0; i<REs.size(); i++){   
307        pablo::PabloKernel * icgrepK = new pablo::PabloKernel(iBuilder, "icgrep"+std::to_string(i), {Binding{iBuilder->getStreamSetTy(8), "basis"}});
308        re::re2pablo_compiler(icgrepK, re::regular_expression_passes(REs[i]), false);
309        pablo_function_passes(icgrepK);
310        icgrepKs.push_back(icgrepK);
311        CircularBuffer * MatchResults = new CircularBuffer(iBuilder, iBuilder->getStreamSetTy(2, 1), segmentSize * bufferSegments);       
312        MatchResults->allocateBuffer();
313        MatchResultsBufs.push_back(MatchResults);
314    }   
315
316    std::vector<kernel::KernelBuilder *> KernelList;
317    KernelList.push_back(&mmapK);
318    KernelList.push_back(&s2pk);
319
320    CircularBuffer mergedResults(iBuilder, iBuilder->getStreamSetTy(1, 1), segmentSize * bufferSegments);
321    mergedResults.allocateBuffer();
322
323    kernel::StreamsMerge streamsMergeK(iBuilder, 1, REs.size());
324    streamsMergeK.generateKernel(MatchResultsBufs, {&mergedResults});
325
326    for(unsigned i=0; i<REs.size(); i++){
327        icgrepKs[i]->generateKernel({&BasisBits}, {MatchResultsBufs[i]});
328        KernelList.push_back(icgrepKs[i]);
329    }
330    KernelList.push_back(&streamsMergeK);
331
332    if (CountOnly) {
333        kernel::MatchCount matchCountK(iBuilder);
334        matchCountK.generateKernel({&mergedResults}, {}); 
335
336        KernelList.push_back(&matchCountK); 
337
338        if (pipelineParallel){
339            generatePipelineParallel(iBuilder, KernelList);
340        } else if (segmentPipelineParallel){
341            generateSegmentParallelPipeline(iBuilder, KernelList);
342        }  else{
343            generatePipelineLoop(iBuilder, KernelList);
344        }
345        iBuilder->CreateRet(matchCountK.getScalarField(matchCountK.getInstance(), "matchedLineCount"));
346
347    }
348    else{
349        pablo::PabloKernel *linebreakK = UNICODE_LINE_BREAK ? &cast<pablo::PabloKernel>(unicodelbK) :  &cast<pablo::PabloKernel>(linefeedK);
350        CircularBuffer LineBreakStream(iBuilder, iBuilder->getStreamSetTy(1, 1), segmentSize * bufferSegments);
351        LineBreakStream.allocateBuffer();
352        linebreakK->generateKernel({&BasisBits}, {&LineBreakStream});
353
354        kernel::ScanMatchKernel scanMatchK(iBuilder, mGrepType);
355        scanMatchK.generateKernel({&mergedResults, &LineBreakStream}, {});               
356        scanMatchK.setInitialArguments({iBuilder->CreateBitCast(inputStream, int8PtrTy), fileSize, fileIdx});
357
358        KernelList.push_back(linebreakK);
359        KernelList.push_back(&scanMatchK);
360
361        if (pipelineParallel){
362            generatePipelineParallel(iBuilder, KernelList);
363        } else if (segmentPipelineParallel){
364            generateSegmentParallelPipeline(iBuilder, KernelList);
365        }  else{
366            generatePipelineLoop(iBuilder, KernelList);
367        }
368       
369        iBuilder->CreateRetVoid();
370    }
371   
372    mEngine = JIT_to_ExecutionEngine(M);
373    ApplyObjectCache(mEngine);
374    icgrep_Linking(M, mEngine);
375
376#ifndef NDEBUG
377    verifyModule(*M, &dbgs());
378#endif
379
380    mEngine->finalizeObject();
381    delete iBuilder;
382   
383    if (CountOnly) {
384        mGrepFunction_CountOnly = reinterpret_cast<GrepFunctionType_CountOnly>(mEngine->getPointerToFunction(mainFn));
385    } else {
386        mGrepFunction = reinterpret_cast<GrepFunctionType>(mEngine->getPointerToFunction(mainFn));
387    }
388
389}
390
391void GrepEngine::grepCodeGen(std::string moduleName, re::RE * re_ast, bool CountOnly, bool UTF_16, GrepType grepType) {
392    isUTF_16 = UTF_16;
393    int addrSpace = 0;
394    bool CPU_Only = true;
395    Module * M = nullptr; 
396    IDISA::IDISA_Builder * iBuilder = nullptr; 
397
398#ifdef CUDA_ENABLED
399    setNVPTXOption(); 
400    if (codegen::NVPTX) {
401        Module * gpuM = new Module(moduleName+":gpu", getGlobalContext());
402        IDISA::IDISA_Builder * GPUBuilder = IDISA::GetIDISA_GPU_Builder(gpuM);
403        M = gpuM;
404        iBuilder = GPUBuilder;
405        M->setDataLayout("e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-v16:16:16-v32:32:32-v64:64:64-v128:128:128-n16:32:64");
406        M->setTargetTriple("nvptx64-nvidia-cuda");
407        addrSpace = 1;
408        CPU_Only = false;
409        codegen::BlockSize = 64;
410    }
411#endif
412
413    Module * cpuM = new Module(moduleName + ":cpu", getGlobalContext());
414    IDISA::IDISA_Builder * CPUBuilder = IDISA::GetIDISA_Builder(cpuM);
415
416    if (CPU_Only) {
417        M = cpuM;
418        iBuilder = CPUBuilder;
419    }
420
421    // segment size made availabe for each call to the mmap source kernel
422    const unsigned segmentSize = codegen::SegmentSize;
423    const unsigned bufferSegments = segmentPipelineParallel ? (codegen::BufferSegments * codegen::ThreadNum) : codegen::BufferSegments;
424    const unsigned encodingBits = UTF_16 ? 16 : 8;
425
426    mGrepType = grepType;
427
428    Type * const size_ty = iBuilder->getSizeTy();
429    Type * const int8PtrTy = iBuilder->getInt8PtrTy();
430    Type * const inputType = PointerType::get(ArrayType::get(ArrayType::get(iBuilder->getBitBlockType(), encodingBits), 1), addrSpace);
431    Type * const resultTy = CountOnly ? size_ty : iBuilder->getVoidTy();
432
433    Function * mainFn = nullptr;
434    Value * inputStream = nullptr;
435    Value * fileSize = nullptr;
436    Value * fileIdx = nullptr;
437
438#ifdef CUDA_ENABLED   
439    Value * outputStream = nullptr;
440    Type * const outputType = PointerType::get(ArrayType::get(iBuilder->getBitBlockType(), 2), addrSpace);
441    if (codegen::NVPTX){
442        if (CountOnly){
443            mainFn = cast<Function>(M->getOrInsertFunction("Main", resultTy, inputType, size_ty, nullptr));
444            mainFn->setCallingConv(CallingConv::C);
445            iBuilder->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFn, 0));
446            Function::arg_iterator args = mainFn->arg_begin();
447           
448            inputStream = &*(args++);
449            inputStream->setName("input");
450            fileSize = &*(args++);
451            fileSize->setName("fileSize");
452        } else {
453            mainFn = cast<Function>(M->getOrInsertFunction("Main", resultTy, inputType, size_ty, outputType, nullptr));
454            mainFn->setCallingConv(CallingConv::C);
455            iBuilder->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFn, 0));
456            Function::arg_iterator args = mainFn->arg_begin();
457           
458            inputStream = &*(args++);
459            inputStream->setName("input");
460            fileSize = &*(args++);
461            fileSize->setName("fileSize");
462            outputStream = &*(args++);
463            outputStream->setName("output");
464        }
465    } 
466#endif
467    if (CPU_Only){
468        mainFn = cast<Function>(M->getOrInsertFunction("Main", resultTy, inputType, size_ty, size_ty, nullptr));
469        mainFn->setCallingConv(CallingConv::C);
470        iBuilder->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFn, 0));
471        Function::arg_iterator args = mainFn->arg_begin();
472       
473        inputStream = &*(args++);
474        inputStream->setName("input");
475        fileSize = &*(args++);
476        fileSize->setName("fileSize");
477        fileIdx = &*(args++);
478        fileIdx->setName("fileIdx");
479    }
480       
481    ExternalFileBuffer ByteStream(iBuilder, iBuilder->getStreamSetTy(1, 8));
482   
483    kernel::MMapSourceKernel mmapK(iBuilder, segmentSize); 
484    mmapK.generateKernel({}, {&ByteStream});
485    mmapK.setInitialArguments({fileSize});
486   
487    CircularBuffer BasisBits(iBuilder, iBuilder->getStreamSetTy(8), segmentSize * bufferSegments);
488
489    kernel::S2PKernel  s2pk(iBuilder);
490    s2pk.generateKernel({&ByteStream}, {&BasisBits});
491   
492    std::vector<re::CC *> LF;
493    LF.push_back(re::makeCC(0x0A));
494   
495    kernel::UnicodeLineBreakKernelBuilder unicodelbK(iBuilder, "unicodelinebreak", encodingBits);
496    kernel::ParabixCharacterClassKernelBuilder linefeedK(iBuilder, "linefeed", LF, encodingBits);
497
498    pablo::PabloKernel *linebreakK = UNICODE_LINE_BREAK ? &cast<pablo::PabloKernel>(unicodelbK) :  &cast<pablo::PabloKernel>(linefeedK);
499    CircularBuffer LineBreakStream(iBuilder, iBuilder->getStreamSetTy(1, 1), segmentSize * bufferSegments);
500    LineBreakStream.allocateBuffer();
501    linebreakK->generateKernel({&BasisBits}, {&LineBreakStream});
502
503    pablo::PabloKernel icgrepK(iBuilder, "icgrep", {Binding{iBuilder->getStreamSetTy(8), "basis"}});
504    re::re2pablo_compiler(&icgrepK, re::regular_expression_passes(re_ast), CountOnly);
505    pablo_function_passes(&icgrepK);
506
507    ByteStream.setStreamSetBuffer(inputStream, fileSize);
508    BasisBits.allocateBuffer();
509
510    if (CountOnly) {
511        icgrepK.generateKernel({&BasisBits}, {});
512        if (pipelineParallel){
513            generatePipelineParallel(iBuilder, {&mmapK, &s2pk, &icgrepK});
514        } else if (segmentPipelineParallel){
515            generateSegmentParallelPipeline(iBuilder, {&mmapK, &s2pk, &icgrepK});
516        } else {
517            generatePipelineLoop(iBuilder, {&mmapK, &s2pk, &icgrepK});
518        }
519        iBuilder->CreateRet(icgrepK.createGetAccumulatorCall(icgrepK.getInstance(), "matchedLineCount"));
520    } else {
521#ifdef CUDA_ENABLED
522        if (codegen::NVPTX){
523            ExternalFileBuffer MatchResults(iBuilder, iBuilder->getStreamSetTy(2, 1), addrSpace);
524            MatchResults.setStreamSetBuffer(outputStream, fileSize);
525
526            icgrepK.generateKernel({&BasisBits},  {&MatchResults});
527            generatePipelineLoop(iBuilder, {&mmapK, &s2pk, &icgrepK});
528
529        }
530#endif
531        if (CPU_Only) {
532            CircularBuffer MatchResults(iBuilder, iBuilder->getStreamSetTy(1, 1), segmentSize * bufferSegments);
533            MatchResults.allocateBuffer();
534
535            icgrepK.generateKernel({&BasisBits}, {&MatchResults});
536
537            kernel::ScanMatchKernel scanMatchK(iBuilder, mGrepType);
538            scanMatchK.generateKernel({&MatchResults, &LineBreakStream}, {});               
539            scanMatchK.setInitialArguments({iBuilder->CreateBitCast(inputStream, int8PtrTy), fileSize, fileIdx});
540           
541            if (pipelineParallel){
542                generatePipelineParallel(iBuilder, {&mmapK, &s2pk, &icgrepK, linebreakK, &scanMatchK});
543            } else if (segmentPipelineParallel){
544                generateSegmentParallelPipeline(iBuilder, {&mmapK, &s2pk, &icgrepK, linebreakK, &scanMatchK});
545            }  else{
546                generatePipelineLoop(iBuilder, {&mmapK, &s2pk, &icgrepK, linebreakK, &scanMatchK});
547            }
548        }
549        iBuilder->CreateRetVoid();
550    }
551
552#ifdef CUDA_ENABLED
553    Function * mainCPUFn = nullptr;
554    if(codegen::NVPTX){
555        Function * kernelFunction = generateGPUKernel(M, iBuilder, CountOnly);
556        MDNode * Node = MDNode::get(M->getContext(),
557                                    {llvm::ValueAsMetadata::get(kernelFunction),
558                                     MDString::get(M->getContext(), "kernel"), 
559                                     ConstantAsMetadata::get(ConstantInt::get(iBuilder->getInt32Ty(), 1))});
560        NamedMDNode *NMD = M->getOrInsertNamedMetadata("nvvm.annotations");
561        NMD->addOperand(Node);
562   
563        Compile2PTX(M, IRFilename, PTXFilename);
564        mainCPUFn = generateCPUKernel(cpuM, CPUBuilder, mGrepType);
565        if (CountOnly) return;
566    }
567#endif
568
569
570    mEngine = JIT_to_ExecutionEngine(cpuM);
571    ApplyObjectCache(mEngine);
572    icgrep_Linking(cpuM, mEngine);
573
574#ifndef NDEBUG
575    verifyModule(*M, &dbgs());
576#endif
577
578    mEngine->finalizeObject();
579    delete iBuilder;
580   
581    if (CountOnly) {
582        mGrepFunction_CountOnly = reinterpret_cast<GrepFunctionType_CountOnly>(mEngine->getPointerToFunction(mainFn));
583    } else {
584#ifdef CUDA_ENABLED
585        if(codegen::NVPTX){
586            mGrepFunction_CPU = reinterpret_cast<GrepFunctionType_CPU>(mEngine->getPointerToFunction(mainCPUFn));
587        }
588#endif
589        if (CPU_Only) {
590            mGrepFunction = reinterpret_cast<GrepFunctionType>(mEngine->getPointerToFunction(mainFn));
591        }
592    }
593
594}
595
596re::CC * GrepEngine::grepCodepoints() {
597    parsedCodePointSet = re::makeCC();
598    char * mFileBuffer = getUnicodeNameDataPtr();
599    size_t mFileSize = getUnicodeNameDataSize();
600    mGrepFunction(mFileBuffer, mFileSize, 0);
601    return parsedCodePointSet;
602}
603
604const std::vector<std::string> & GrepEngine::grepPropertyValues(const std::string& propertyName) {
605    enum { MaxSupportedVectorWidthInBytes = 32 };
606    AlignedAllocator<char, MaxSupportedVectorWidthInBytes> alloc;
607    parsedPropertyValues.clear();
608    const std::string & str = UCD::getPropertyValueGrepString(propertyName);
609    const auto n = str.length();
610    // NOTE: MaxSupportedVectorWidthInBytes of trailing 0s are needed to prevent the grep function from
611    // erroneously matching garbage data when loading the final partial block.
612    char * aligned = alloc.allocate(n + MaxSupportedVectorWidthInBytes, 0);
613    std::memcpy(aligned, str.data(), n);
614    std::memset(aligned + n, 0, MaxSupportedVectorWidthInBytes);
615    mGrepFunction(aligned, n, 0);
616    alloc.deallocate(aligned, 0);
617    return parsedPropertyValues;
618}
619
620static int * total_count;
621static std::stringstream * resultStrs = nullptr;
622static std::vector<std::string> inputFiles;
623
624void initResult(std::vector<std::string> filenames){
625    const int n = filenames.size();
626    if (n > 1) {
627        ShowFileNames = true;
628    }
629    inputFiles = filenames;
630    resultStrs = new std::stringstream[n];
631    total_count = new int[n];
632    for (unsigned i = 0; i < inputFiles.size(); ++i){
633        total_count[i] = 0;
634    }
635   
636}
637
638extern "C" {
639    void wrapped_report_match(size_t lineNum, size_t line_start, size_t line_end, const char * buffer, size_t filesize, int fileIdx) {
640        assert (buffer);
641#ifdef CUDA_ENABLED
642    if (codegen::NVPTX){
643        while(line_start>startPoints[blockNo]) blockNo++;
644        line_start -= accumBytes[blockNo-1];
645        line_end -= accumBytes[blockNo-1];
646    }
647#endif
648        int index = isUTF_16 ? 2 : 1;
649        int idx = fileIdx;
650         
651        if (ShowFileNames) {
652            resultStrs[idx] << inputFiles[idx] << ':';
653        }
654        if (ShowLineNumbers) {
655            resultStrs[idx] << lineNum << ":";
656        }
657       
658        if ((!isUTF_16 && buffer[line_start] == 0xA) && (line_start != line_end)) {
659            // The line "starts" on the LF of a CRLF.  Really the end of the last line.
660            line_start++;
661        }
662        if (((isUTF_16 && buffer[line_start] == 0x0) && buffer[line_start + 1] == 0xA) && (line_start != line_end)) {
663            // The line "starts" on the LF of a CRLF.  Really the end of the last line.
664            line_start += 2;
665        }
666        if (line_end == filesize) {
667            // The match position is at end-of-file.   We have a final unterminated line.
668            resultStrs[idx].write(&buffer[line_start * index], (line_end - line_start) * index);
669            if (NormalizeLineBreaks) {
670                resultStrs[idx] << '\n';  // terminate it
671            }
672            return;
673        }
674        unsigned char end_byte = (unsigned char)buffer[line_end]; 
675        unsigned char penult_byte = (unsigned char)(buffer[line_end - 1]);
676        if (NormalizeLineBreaks) {
677            if (end_byte == 0x85) {
678                // Line terminated with NEL, on the second byte.  Back up 1.
679                line_end--;
680            } else if (end_byte > 0xD) {
681                // Line terminated with PS or LS, on the third byte.  Back up 2.
682                isUTF_16 ? line_end-- : line_end -= 2;
683            }
684            resultStrs[idx].write(&buffer[line_start * index], (line_end - line_start) * index);
685            resultStrs[idx] << '\n';
686        } else {
687            if ((!isUTF_16 && end_byte == 0x0D) || (isUTF_16 && (end_byte == 0x0D && penult_byte == 0x0))) {
688                // Check for line_end on first byte of CRLF;  note that we don't
689                // want to access past the end of buffer.
690                if (line_end + 1 < filesize) {
691                    if (!isUTF_16 && buffer[line_end + 1] == 0x0A) {
692                        // Found CRLF; preserve both bytes.
693                        line_end++;
694                    }
695                    if (isUTF_16 && buffer[line_end + 1] == 0x0 && buffer[line_end + 2] == 0x0A) {
696                        // Found CRLF; preserve both bytes.
697                        line_end += 2;
698                    }
699                }
700            }
701            resultStrs[idx].write(&buffer[line_start * index], (line_end - line_start + 1) * index);
702        }
703    }
704}
705
706void PrintResult(bool CountOnly, std::vector<size_t> & total_CountOnly){
707   
708    if(CountOnly){
709        if (!ShowFileNames) {
710            for (unsigned i = 0; i < inputFiles.size(); ++i){
711                std::cout << total_CountOnly[i] << std::endl;
712            }
713        }
714        else {
715            for (unsigned i = 0; i < inputFiles.size(); ++i){
716                std::cout << inputFiles[i] << ':' << total_CountOnly[i] << std::endl;
717            };
718        }
719        return;
720    }
721   
722    for (unsigned i = 0; i < inputFiles.size(); ++i){
723        std::cout << resultStrs[i].str();
724    }
725}
726
727extern "C" {
728    void insert_codepoints(size_t lineNum, size_t line_start, size_t line_end, const char * buffer) {
729        assert (buffer);
730        re::codepoint_t c = 0;
731        ssize_t line_pos = line_start;
732        while (isxdigit(buffer[line_pos])) {
733            if (isdigit(buffer[line_pos])) {
734                c = (c << 4) | (buffer[line_pos] - '0');
735            }
736            else {
737                c = (c << 4) | (tolower(buffer[line_pos]) - 'a' + 10);
738            }
739            line_pos++;
740        }
741        assert(((line_pos - line_start) >= 4) && ((line_pos - line_start) <= 6)); // UCD format 4 to 6 hex digits.       
742        parsedCodePointSet->insert(c);
743    }
744}
745
746extern "C" {
747    void insert_property_values(size_t lineNum, size_t line_start, size_t line_end, const char * buffer) {
748        parsedPropertyValues.emplace_back(buffer + line_start, buffer + line_end);
749    }
750}
751
752void icgrep_Linking(Module * m, ExecutionEngine * e) {
753    Module::FunctionListType & fns = m->getFunctionList();
754    for (auto it = fns.begin(), it_end = fns.end(); it != it_end; ++it) {
755        std::string fnName = it->getName().str();
756        if (fnName == "s2p_block") continue;
757        if (fnName == "process_block") continue;
758        if (fnName == "process_block_initialize_carries") continue;
759       
760        if (fnName == "wrapped_report_match") {
761            e->addGlobalMapping(cast<GlobalValue>(it), (void *)&wrapped_report_match);
762        }
763        if (fnName == "insert_codepoints") {
764            e->addGlobalMapping(cast<GlobalValue>(it), (void *)&insert_codepoints);
765        }
766        if (fnName == "insert_property_values") {
767            e->addGlobalMapping(cast<GlobalValue>(it), (void *)&insert_property_values);
768        }
769    }
770}
771
772GrepEngine::GrepEngine()
773: mGrepFunction(nullptr)
774, mGrepFunction_CountOnly(nullptr)
775, mGrepFunction_CPU(nullptr)
776, mGrepType(GrepType::Normal)
777, mEngine(nullptr) {
778
779}
780
781GrepEngine::~GrepEngine() {
782    delete mEngine;
783}
Note: See TracBrowser for help on using the repository browser.