source: icGREP/icgrep-devel/icgrep/grep_engine.cpp @ 5408

Last change on this file since 5408 was 5408, checked in by nmedfort, 2 years ago

First attempt to allow Kernels to wait for consumers to finish processing before performing a realloc.

File size: 29.2 KB
Line 
1/*
2 *  Copyright (c) 2016 International Characters.
3 *  This software is licensed to the public under the Open Software License 3.0.
4 *  icgrep is a trademark of International Characters.
5 */
6
7#include "grep_engine.h"
8#include <llvm/IR/Module.h>
9#include <llvm/ExecutionEngine/MCJIT.h>
10#include <llvm/IR/Verifier.h>
11#include <llvm/Support/CommandLine.h>
12#include <boost/filesystem.hpp>
13#include <boost/iostreams/device/mapped_file.hpp>
14#include <IR_Gen/idisa_builder.h>
15#include <IR_Gen/idisa_target.h>
16#include <UCD/UnicodeNameData.h>
17#include <UCD/resolve_properties.h>
18#include <kernels/cc_kernel.h>
19#include <kernels/grep_kernel.h>
20#include <kernels/linebreak_kernel.h>
21#include <kernels/streams_merge.h>
22#include <kernels/match_count.h>
23#include <kernels/mmap_kernel.h>
24#include <kernels/s2p_kernel.h>
25#include <kernels/scanmatchgen.h>
26#include <kernels/streamset.h>
27#include <kernels/stdin_kernel.h>
28#include <pablo/pablo_kernel.h>
29#include <re/re_cc.h>
30#include <re/re_toolchain.h>
31#include <kernels/toolchain.h>
32#include <iostream>
33#include <sstream>
34#include <cc/multiplex_CCs.h>
35
36#include <llvm/Support/raw_ostream.h>
37#include <sys/stat.h>
38
39
40#ifdef CUDA_ENABLED
41#include <IR_Gen/CudaDriver.h>
42#include "preprocess.cpp"
43#endif
44#include <util/aligned_allocator.h>
45
46using namespace parabix;
47using namespace llvm;
48
49static cl::OptionCategory bGrepOutputOptions("Output Options",
50                                             "These options control the output.");
51static cl::opt<bool> SilenceFileErrors("s", cl::desc("Suppress messages for file errors."), cl::init(false),  cl::cat(bGrepOutputOptions));
52
53static cl::opt<bool> SuppressOutput("q", cl::desc("Suppress normal output; set return code only."), cl::init(false),  cl::cat(bGrepOutputOptions));
54
55static cl::opt<bool> NormalizeLineBreaks("normalize-line-breaks", cl::desc("Normalize line breaks to std::endl."), cl::init(false),  cl::cat(bGrepOutputOptions));
56
57static cl::opt<bool> ShowFileNames("H", cl::desc("Show the file name with each matching line."), cl::cat(bGrepOutputOptions));
58static cl::alias ShowFileNamesLong("with-filename", cl::desc("Alias for -H"), cl::aliasopt(ShowFileNames));
59
60static cl::opt<bool> ShowLineNumbers("n", cl::desc("Show the line number with each matching line."), cl::cat(bGrepOutputOptions));
61static cl::alias ShowLineNumbersLong("line-number", cl::desc("Alias for -n"), cl::aliasopt(ShowLineNumbers));
62
63#ifdef CUDA_ENABLED
64const auto IRFilename = "icgrep.ll";
65const auto PTXFilename = "icgrep.ptx";
66#endif
67
68static re::CC * parsedCodePointSet = nullptr;
69
70static std::vector<std::string> parsedPropertyValues;
71
72#ifdef CUDA_ENABLED
73int blockNo = 0;
74size_t * startPoints = nullptr;
75size_t * accumBytes = nullptr;
76#endif
77
78void GrepEngine::doGrep(const std::string & fileName, const int fileIdx, bool CountOnly, std::vector<size_t> & total_CountOnly) {
79    boost::filesystem::path file(fileName);
80    if (exists(file)) {
81        if (is_directory(file)) {
82            return;
83        }
84    } else {
85        if (!SilenceFileErrors) {
86            std::cerr << "Error: cannot open " << fileName << " for processing. Skipped.\n";
87            return;
88        }
89    }
90
91    const auto fileSize = file_size(file);
92    if (fileSize > 0) {
93        try {
94            boost::iostreams::mapped_file_source source(fileName, fileSize, 0);
95            char * fileBuffer = const_cast<char *>(source.data());
96           
97#ifdef CUDA_ENABLED 
98            if(codegen::NVPTX){
99                codegen::BlockSize = 128;
100                char * LineBreak;
101                if (posix_memalign((void**)&LineBreak, 32, fileSize)) {
102                    std::cerr << "Cannot allocate memory for linebreak.\n";
103                    exit(-1);
104                }
105                std::vector<size_t> LFPositions = preprocess(fileBuffer, fileSize, LineBreak);
106
107                const unsigned numOfGroups = codegen::GroupNum;
108                if (posix_memalign((void**)&startPoints, 8, (numOfGroups+1)*sizeof(size_t)) ||
109                    posix_memalign((void**)&accumBytes, 8, (numOfGroups+1)*sizeof(size_t))) {
110                    std::cerr << "Cannot allocate memory for startPoints or accumBytes.\n";
111                    exit(-1);
112                }
113
114                ulong * rslt = RunPTX(PTXFilename, fileBuffer, fileSize, CountOnly, LFPositions, startPoints, accumBytes);
115                if (CountOnly){
116                    exit(0);
117                }
118                else{
119                    size_t intputSize = startPoints[numOfGroups]-accumBytes[numOfGroups]+accumBytes[numOfGroups-1];
120                    mGrepFunction_CPU((char *)rslt, LineBreak, fileBuffer, intputSize, fileIdx);
121                    return;
122                }
123               
124            } 
125#endif
126            if (CountOnly) {
127                total_CountOnly[fileIdx] = mGrepFunction_CountOnly(fileBuffer, fileSize, fileIdx);
128            } else {
129                mGrepFunction(fileBuffer, fileSize, fileIdx);
130            }
131            source.close();
132        } catch (std::exception & e) {
133            if (!SilenceFileErrors) {
134                std::cerr << "Boost mmap error: " + fileName + ": " + e.what() + " Skipped.\n";
135                return;
136            }
137        }
138    } else {
139#ifdef CUDA_ENABLED
140        if (codegen::NVPTX){
141            std::cout << 0 << std::endl;
142            exit(0);
143        }
144#endif
145        if (CountOnly) {
146            total_CountOnly[fileIdx] = mGrepFunction_CountOnly(nullptr, 0, fileIdx);
147        } else {
148            mGrepFunction(nullptr, 0, fileIdx);
149        }
150    }
151}
152
153void GrepEngine::doGrep(const int fileIdx, bool CountOnly, std::vector<size_t> & total_CountOnly) {
154    if (CountOnly) {
155        total_CountOnly[fileIdx] = mGrepFunction_CountOnly(nullptr, 0, fileIdx);
156    } else {
157        mGrepFunction(nullptr, 0, fileIdx);
158    }
159}
160
161#ifdef CUDA_ENABLED
162Function * generateGPUKernel(ParabixDriver & nvptxDriver, bool CountOnly){
163    IDISA::IDISA_Builder * iBuilder = nvptxDriver.getIDISA_Builder();
164    Module * m = iBuilder->getModule();
165    Type * const int64ty = iBuilder->getInt64Ty();
166    Type * const size_ty = iBuilder->getSizeTy();
167    Type * const int32ty = iBuilder->getInt32Ty();
168    Type * const sizeTyPtr = PointerType::get(size_ty, 1);
169    Type * const int64tyPtr = PointerType::get(int64ty, 1);
170    Type * const inputType = PointerType::get(iBuilder->getInt8Ty(), 1);
171    Type * const resultTy = iBuilder->getVoidTy();
172    Function * kernelFunc = cast<Function>(m->getOrInsertFunction("Main", resultTy, inputType, sizeTyPtr, sizeTyPtr, int64tyPtr, nullptr));
173    kernelFunc->setCallingConv(CallingConv::C);
174    Function::arg_iterator args = kernelFunc->arg_begin();
175
176    Value * const inputPtr = &*(args++);
177    inputPtr->setName("inputPtr");
178    Value * const startPointsPtr = &*(args++);
179    startPointsPtr->setName("startPointsPtr");
180    Value * const bufferSizesPtr = &*(args++);
181    bufferSizesPtr->setName("bufferSizesPtr");
182    Value * const outputPtr = &*(args++);
183    outputPtr->setName("resultPtr");
184
185    BasicBlock * entryBlock = BasicBlock::Create(m->getContext(), "entry", kernelFunc, 0);
186    iBuilder->SetInsertPoint(entryBlock);
187
188    Function * tidFunc = m->getFunction("llvm.nvvm.read.ptx.sreg.tid.x");
189    Value * tid = iBuilder->CreateCall(tidFunc);
190    Function * bidFunc = cast<Function>(m->getOrInsertFunction("llvm.nvvm.read.ptx.sreg.ctaid.x", int32ty, nullptr));
191    Value * bid = iBuilder->CreateCall(bidFunc);
192
193    Value * startPoint = iBuilder->CreateLoad(iBuilder->CreateGEP(startPointsPtr, bid));
194
195    Function * mainFunc = m->getFunction("Main");
196    Value * startBlock = iBuilder->CreateUDiv(startPoint, ConstantInt::get(int64ty, iBuilder->getBitBlockWidth()));
197    Type * const inputStreamType = PointerType::get(ArrayType::get(ArrayType::get(iBuilder->getBitBlockType(), 8), 1), 1);   
198    Value * inputStreamPtr = iBuilder->CreateGEP(iBuilder->CreateBitCast(inputPtr, inputStreamType), startBlock);
199    Value * inputStream = iBuilder->CreateGEP(inputStreamPtr, tid);
200    Value * bufferSize = iBuilder->CreateLoad(iBuilder->CreateGEP(bufferSizesPtr, bid));
201
202    if (CountOnly) {
203        Value * strideBlocks = ConstantInt::get(int32ty, iBuilder->getStride() / iBuilder->getBitBlockWidth());
204        Value * outputThreadPtr = iBuilder->CreateGEP(outputPtr, iBuilder->CreateAdd(iBuilder->CreateMul(bid, strideBlocks), tid));
205        Value * result = iBuilder->CreateCall(mainFunc, {inputStream, bufferSize});
206        iBuilder->CreateStore(result, outputThreadPtr);
207    } else {
208        Type * const outputStremType = PointerType::get(ArrayType::get(iBuilder->getBitBlockType(), 1), 1);
209        Value * outputStreamPtr = iBuilder->CreateGEP(iBuilder->CreateBitCast(outputPtr, outputStremType), startBlock);
210        Value * outputStream = iBuilder->CreateGEP(outputStreamPtr, tid);
211        iBuilder->CreateCall(mainFunc, {inputStream, bufferSize, outputStream});
212    }   
213
214    iBuilder->CreateRetVoid();
215
216    return kernelFunc;
217}
218
219void generateCPUKernel(ParabixDriver & pxDriver, GrepType grepType){
220    IDISA::IDISA_Builder * iBuilder = pxDriver.getIDISA_Builder();
221    Module * m = iBuilder->getModule();
222
223    Type * const size_ty = iBuilder->getSizeTy();
224    Type * const int8PtrTy = iBuilder->getInt8PtrTy();
225    Type * const rsltType = PointerType::get(ArrayType::get(iBuilder->getBitBlockType(), 1), 0);
226    Function * const mainCPUFn = cast<Function>(m->getOrInsertFunction("Main", iBuilder->getVoidTy(), rsltType, rsltType, int8PtrTy, size_ty, size_ty, nullptr));
227    mainCPUFn->setCallingConv(CallingConv::C);
228    iBuilder->SetInsertPoint(BasicBlock::Create(m->getContext(), "entry", mainCPUFn, 0));
229    Function::arg_iterator args = mainCPUFn->arg_begin();
230   
231    Value * const rsltStream = &*(args++);
232    rsltStream->setName("rslt");
233    Value * const lbStream = &*(args++);
234    lbStream->setName("lb");
235    Value * const inputStream = &*(args++);
236    inputStream->setName("input");
237    Value * const fileSize = &*(args++);
238    fileSize->setName("fileSize");
239    Value * const fileIdx = &*(args++);
240    fileIdx->setName("fileIdx");
241
242    const unsigned segmentSize = codegen::SegmentSize;
243   
244    ExternalFileBuffer InputStream(iBuilder, iBuilder->getStreamSetTy(1, 8));
245    InputStream.setStreamSetBuffer(inputStream);
246
247    ExternalFileBuffer MatchResults(iBuilder, iBuilder->getStreamSetTy(1, 1));
248    MatchResults.setStreamSetBuffer(rsltStream);
249
250    kernel::MMapSourceKernel mmapK0(iBuilder, segmentSize); 
251    mmapK0.setName("mmap0");
252    mmapK0.setInitialArguments({fileSize});
253    pxDriver.addKernelCall(mmapK0, {}, {&InputStream});
254
255
256    kernel::MMapSourceKernel mmapK1(iBuilder, segmentSize); 
257    mmapK1.setName("mmap1");
258    mmapK1.setInitialArguments({fileSize});
259    pxDriver.addKernelCall(mmapK1, {}, {&MatchResults});
260
261    ExternalFileBuffer LineBreak(iBuilder, iBuilder->getStreamSetTy(1, 1));
262    LineBreak.setStreamSetBuffer(lbStream);
263   
264    kernel::MMapSourceKernel mmapK2(iBuilder, segmentSize); 
265    mmapK2.setName("mmap2");
266    mmapK2.setInitialArguments({fileSize});
267    pxDriver.addKernelCall(mmapK2, {}, {&LineBreak});
268
269    kernel::ScanMatchKernel scanMatchK(iBuilder, grepType, 8);
270    scanMatchK.setInitialArguments({fileIdx});
271    pxDriver.addKernelCall(scanMatchK, {&InputStream, &MatchResults, &LineBreak}, {});
272    pxDriver.generatePipelineIR();
273    iBuilder->CreateRetVoid();
274
275    pxDriver.linkAndFinalize();
276}
277#endif
278
279static int * total_count;
280static std::stringstream * resultStrs = nullptr;
281static std::vector<std::string> inputFiles;
282
283void initFileResult(std::vector<std::string> filenames){
284    const int n = filenames.size();
285    if (n > 1) {
286        ShowFileNames = true;
287    }
288    inputFiles = filenames;
289    resultStrs = new std::stringstream[n];
290    total_count = new int[n];
291    for (unsigned i = 0; i < inputFiles.size(); ++i){
292        total_count[i] = 0;
293    }
294
295}
296
297template<typename CodeUnit>
298void wrapped_report_match(const size_t lineNum, size_t line_start, size_t line_end, const CodeUnit * const buffer, const size_t filesize, const size_t fileIdx) {
299    assert (buffer);
300    assert (line_start <= line_end);
301    assert (line_end <= filesize);
302
303    #ifdef CUDA_ENABLED
304    if (codegen::NVPTX){
305        while(line_start>startPoints[blockNo]) blockNo++;
306        line_start -= accumBytes[blockNo-1];
307        line_end -= accumBytes[blockNo-1];
308    }
309    #endif
310
311    if (ShowFileNames) {
312        resultStrs[fileIdx] << inputFiles[fileIdx] << ':';
313    }
314    if (ShowLineNumbers) {
315        resultStrs[fileIdx] << lineNum << ":";
316    }
317
318    // If the line "starts" on the LF of a CRLF, it is actually the end of the last line.
319    if ((buffer[line_start] == 0xA) && (line_start != line_end)) {
320        ++line_start;
321    }
322
323    if (LLVM_UNLIKELY(line_end == filesize)) {
324        // The match position is at end-of-file.   We have a final unterminated line.
325        resultStrs[fileIdx].write((char *)&buffer[line_start], (line_end - line_start) * sizeof(CodeUnit));
326        if (NormalizeLineBreaks) {
327            resultStrs[fileIdx] << '\n';  // terminate it
328        }
329    } else {
330        const auto end_byte = buffer[line_end];
331        if (NormalizeLineBreaks) {
332            if (LLVM_UNLIKELY(end_byte == 0x85)) {
333                // Line terminated with NEL, on the second byte.  Back up 1.
334                line_end -= 1;
335            } else if (LLVM_UNLIKELY(end_byte > 0xD)) {
336                // Line terminated with PS or LS, on the third byte.  Back up 2.
337                line_end -= 2;
338            }
339            resultStrs[fileIdx].write((char *)&buffer[line_start], (line_end - line_start) * sizeof(CodeUnit));
340            resultStrs[fileIdx] << '\n';
341        } else {
342            if (end_byte == 0x0D) {
343                // Check for line_end on first byte of CRLF; we don't want to access past the end of buffer.
344                if ((line_end + 1) < filesize) {
345                    if (buffer[line_end + 1] == 0x0A) {
346                        // Found CRLF; preserve both bytes.
347                        ++line_end;
348                    }
349                }
350            }
351            resultStrs[fileIdx].write((char *)&buffer[line_start], (line_end - line_start + 1) * sizeof(CodeUnit));
352        }
353    }
354}
355
356void PrintResult(bool CountOnly, std::vector<size_t> & total_CountOnly){
357    if (CountOnly) {
358        if (!ShowFileNames) {
359            for (unsigned i = 0; i < inputFiles.size(); ++i){
360                std::cout << total_CountOnly[i] << std::endl;
361            }
362        } else {
363            for (unsigned i = 0; i < inputFiles.size(); ++i){
364                std::cout << inputFiles[i] << ':' << total_CountOnly[i] << std::endl;
365            };
366        }
367    } else {
368        for (unsigned i = 0; i < inputFiles.size(); ++i){
369            std::cout << resultStrs[i].str();
370        }
371    }
372}
373
374void insert_codepoints(const size_t lineNum, const size_t line_start, const size_t line_end, const char * const buffer) {
375    assert (buffer);
376    assert (line_start <= line_end);
377    re::codepoint_t c = 0;
378    size_t line_pos = line_start;
379    while (isxdigit(buffer[line_pos])) {
380        assert (line_pos < line_end);
381        if (isdigit(buffer[line_pos])) {
382            c = (c << 4) | (buffer[line_pos] - '0');
383        }
384        else {
385            c = (c << 4) | (tolower(buffer[line_pos]) - 'a' + 10);
386        }
387        line_pos++;
388    }
389    assert(((line_pos - line_start) >= 4) && ((line_pos - line_start) <= 6)); // UCD format 4 to 6 hex digits.
390    parsedCodePointSet->insert(c);
391}
392
393void insert_property_values(size_t lineNum, size_t line_start, size_t line_end, const char * buffer) {
394    assert (line_start <= line_end);
395    parsedPropertyValues.emplace_back(buffer + line_start, buffer + line_end);
396}
397
398inline void linkGrepFunction(ParabixDriver & pxDriver, const GrepType grepType, const bool UTF_16, kernel::KernelBuilder & kernel) {
399    switch (grepType) {
400        case GrepType::Normal:
401            if (UTF_16) {
402                pxDriver.addExternalLink(kernel, "matcher", &wrapped_report_match<uint16_t>);
403            } else {
404                pxDriver.addExternalLink(kernel, "matcher", &wrapped_report_match<uint8_t>);
405            }
406            break;
407        case GrepType::NameExpression:
408            pxDriver.addExternalLink(kernel, "matcher", &insert_codepoints);
409            break;
410        case GrepType::PropertyValue:
411            pxDriver.addExternalLink(kernel, "matcher", &insert_property_values);
412            break;
413    }
414}
415
416void GrepEngine::grepCodeGen(std::string moduleName, re::RE * re_ast, const bool CountOnly, const bool UTF_16, const GrepType grepType, const bool usingStdIn) {
417    int addrSpace = 0;
418    bool CPU_Only = true;
419    Module * M = nullptr;
420    IDISA::IDISA_Builder * iBuilder = nullptr;
421
422    #ifdef CUDA_ENABLED
423    setNVPTXOption();
424    if (codegen::NVPTX) {
425        Module * gpuM = new Module(moduleName+":gpu", getGlobalContext());
426        IDISA::IDISA_Builder * GPUBuilder = IDISA::GetIDISA_GPU_Builder(gpuM);
427        M = gpuM;
428        iBuilder = GPUBuilder;
429        M->setDataLayout("e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-v16:16:16-v32:32:32-v64:64:64-v128:128:128-n16:32:64");
430        M->setTargetTriple("nvptx64-nvidia-cuda");
431        addrSpace = 1;
432        CPU_Only = false;
433        codegen::BlockSize = 64;
434    }
435    #endif
436
437    Module * cpuM = new Module(moduleName + ":cpu", getGlobalContext());
438    IDISA::IDISA_Builder * CPUBuilder = IDISA::GetIDISA_Builder(cpuM);
439    if (CPU_Only) {
440        M = cpuM;
441        iBuilder = CPUBuilder;
442    }
443    ParabixDriver pxDriver(iBuilder);
444
445    // segment size made availabe for each call to the mmap source kernel
446    const unsigned segmentSize = codegen::SegmentSize;
447    const unsigned bufferSegments = codegen::BufferSegments * codegen::ThreadNum;
448    const unsigned encodingBits = UTF_16 ? 16 : 8;
449
450    Type * const size_ty = iBuilder->getSizeTy();
451    Type * const inputType = PointerType::get(ArrayType::get(ArrayType::get(iBuilder->getBitBlockType(), encodingBits), 1), addrSpace);
452    Type * const resultTy = CountOnly ? size_ty : iBuilder->getVoidTy();
453
454    Function * mainFn = nullptr;
455    Value * inputStream = nullptr;
456    Value * fileSize = nullptr;
457    Value * fileIdx = nullptr;
458
459    #ifdef CUDA_ENABLED
460    Value * outputStream = nullptr;
461    Type * const outputType = PointerType::get(ArrayType::get(iBuilder->getBitBlockType(), 1), addrSpace);
462    if (codegen::NVPTX){
463        if (CountOnly){
464            mainFn = cast<Function>(M->getOrInsertFunction("Main", resultTy, inputType, size_ty, nullptr));
465            mainFn->setCallingConv(CallingConv::C);
466            iBuilder->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFn, 0));
467            Function::arg_iterator args = mainFn->arg_begin();
468
469            inputStream = &*(args++);
470            inputStream->setName("input");
471            fileSize = &*(args++);
472            fileSize->setName("fileSize");
473        } else {
474            mainFn = cast<Function>(M->getOrInsertFunction("Main", resultTy, inputType, size_ty, outputType, nullptr));
475            mainFn->setCallingConv(CallingConv::C);
476            iBuilder->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFn, 0));
477            Function::arg_iterator args = mainFn->arg_begin();
478
479            inputStream = &*(args++);
480            inputStream->setName("input");
481            fileSize = &*(args++);
482            fileSize->setName("fileSize");
483            outputStream = &*(args++);
484            outputStream->setName("output");
485        }
486    }
487    #endif
488
489    if (CPU_Only) {
490        mainFn = cast<Function>(M->getOrInsertFunction("Main", resultTy, inputType, size_ty, size_ty, nullptr));
491        mainFn->setCallingConv(CallingConv::C);
492        iBuilder->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFn, 0));
493        Function::arg_iterator args = mainFn->arg_begin();
494
495        inputStream = &*(args++);
496        inputStream->setName("input");
497        fileSize = &*(args++);
498        fileSize->setName("fileSize");
499        fileIdx = &*(args++);
500        fileIdx->setName("fileIdx");
501
502    }
503
504    StreamSetBuffer * byteStream = nullptr;
505    kernel::KernelBuilder * sourceK = nullptr;
506    if (usingStdIn) {
507        // TODO: use fstat(STDIN_FILENO) to see if we can mmap the stdin safely and avoid the calls to read
508        byteStream = new ExtensibleBuffer(iBuilder, iBuilder->getStreamSetTy(1, 8), segmentSize);
509        sourceK = new kernel::StdInKernel(iBuilder, segmentSize);
510    } else {
511        byteStream = new SourceFileBuffer(iBuilder, iBuilder->getStreamSetTy(1, 8));
512        sourceK = new kernel::FileSourceKernel(iBuilder, inputStream->getType(), segmentSize);
513        sourceK->setInitialArguments({inputStream, fileSize});
514    }
515    byteStream->allocateBuffer();
516    pxDriver.addKernelCall(*sourceK, {}, {byteStream});
517
518    CircularBuffer BasisBits(iBuilder, iBuilder->getStreamSetTy(8), segmentSize * bufferSegments);
519    BasisBits.allocateBuffer();
520
521    kernel::S2PKernel s2pk(iBuilder);
522    pxDriver.addKernelCall(s2pk, {byteStream}, {&BasisBits});
523
524    kernel::LineBreakKernelBuilder linebreakK(iBuilder, encodingBits);
525    CircularBuffer LineBreakStream(iBuilder, iBuilder->getStreamSetTy(1, 1), segmentSize * bufferSegments);
526    LineBreakStream.allocateBuffer();
527
528    pxDriver.addKernelCall(linebreakK, {&BasisBits}, {&LineBreakStream});
529   
530    kernel::ICgrepKernelBuilder icgrepK(iBuilder, re_ast, CountOnly);
531
532    if (CountOnly) {
533       
534        pxDriver.addKernelCall(icgrepK, {&BasisBits, &LineBreakStream}, {});
535
536        pxDriver.generatePipelineIR();
537
538        iBuilder->CreateRet(icgrepK.createGetAccumulatorCall(icgrepK.getInstance(), "matchedLineCount"));
539
540        pxDriver.linkAndFinalize();
541
542    } else {
543
544        #ifdef CUDA_ENABLED
545        if (codegen::NVPTX){
546            ExternalFileBuffer MatchResults(iBuilder, iBuilder->getStreamSetTy(1, 1), addrSpace);
547            MatchResults.setStreamSetBuffer(outputStream);
548
549            pxDriver.addKernelCall(icgrepK, {&BasisBits, &LineBreakStream}, {&MatchResults});
550
551            pxDriver.generatePipelineIR();
552
553            iBuilder->CreateRetVoid();
554
555            pxDriver.linkAndFinalize();
556        }
557        #endif
558
559        if (CPU_Only) {
560
561            CircularBuffer MatchResults(iBuilder, iBuilder->getStreamSetTy(1, 1), segmentSize * bufferSegments);
562            MatchResults.allocateBuffer();
563
564            pxDriver.addKernelCall(icgrepK, {&BasisBits, &LineBreakStream}, {&MatchResults});
565
566            kernel::ScanMatchKernel scanMatchK(iBuilder, grepType, encodingBits);
567            scanMatchK.setInitialArguments({fileIdx});
568
569            pxDriver.addKernelCall(scanMatchK, {&MatchResults, &LineBreakStream, byteStream}, {});
570
571            linkGrepFunction(pxDriver, grepType, UTF_16, scanMatchK);
572
573            pxDriver.generatePipelineIR();
574
575            iBuilder->CreateRetVoid();
576
577            pxDriver.linkAndFinalize();
578        }
579    }
580
581    #ifdef CUDA_ENABLED
582    if(codegen::NVPTX){
583        ParabixDriver nvptxDriver(iBuilder);
584        Function * kernelFunction = generateGPUKernel(nvptxDriver, CountOnly);
585       
586        MDNode * Node = MDNode::get(M->getContext(),
587                                    {llvm::ValueAsMetadata::get(kernelFunction),
588                                     MDString::get(M->getContext(), "kernel"),
589                                     ConstantAsMetadata::get(ConstantInt::get(iBuilder->getInt32Ty(), 1))});
590        NamedMDNode *NMD = M->getOrInsertNamedMetadata("nvvm.annotations");
591        NMD->addOperand(Node);
592
593        Compile2PTX(M, IRFilename, PTXFilename);
594       
595        ParabixDriver pxDriver(CPUBuilder);
596        generateCPUKernel(pxDriver, grepType);
597       
598        mGrepFunction_CPU = reinterpret_cast<GrepFunctionType_CPU>(pxDriver.getPointerToMain());
599        if (CountOnly) return;
600    }
601    #endif
602
603    delete iBuilder;
604    delete sourceK;
605    delete byteStream;
606
607    if (CountOnly) {
608        mGrepFunction_CountOnly = reinterpret_cast<GrepFunctionType_CountOnly>(pxDriver.getPointerToMain());
609    } else {
610        if (CPU_Only) {
611            mGrepFunction = reinterpret_cast<GrepFunctionType>(pxDriver.getPointerToMain());
612        }
613    }
614}
615
616
617
618void GrepEngine::grepCodeGen(std::string moduleName, std::vector<re::RE *> REs, const bool CountOnly, const bool UTF_16, const GrepType grepType, const bool usingStdIn) {
619
620    Module * M = new Module(moduleName + ":icgrep", getGlobalContext());;
621    IDISA::IDISA_Builder * iBuilder = IDISA::GetIDISA_Builder(M);;
622    ParabixDriver pxDriver(iBuilder);
623
624    const unsigned segmentSize = codegen::SegmentSize;
625    const unsigned bufferSegments = codegen::BufferSegments * codegen::ThreadNum;
626    const unsigned encodingBits = UTF_16 ? 16 : 8;
627
628    Type * const sizeTy = iBuilder->getSizeTy();
629    Type * const inputType = PointerType::get(ArrayType::get(ArrayType::get(iBuilder->getBitBlockType(), encodingBits), 1), 0);
630    Type * const resultTy = CountOnly ? sizeTy : iBuilder->getVoidTy();
631
632    Function * mainFn = cast<Function>(M->getOrInsertFunction("Main", resultTy, inputType, sizeTy, sizeTy, nullptr));
633    mainFn->setCallingConv(CallingConv::C);
634    iBuilder->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFn, 0));
635    Function::arg_iterator args = mainFn->arg_begin();
636
637    Value * inputStream = &*(args++);
638    inputStream->setName("input");
639    Value * fileSize = &*(args++);
640    fileSize->setName("fileSize");
641    Value * fileIdx = &*(args++);
642    fileIdx->setName("fileIdx");
643
644    StreamSetBuffer * byteStream = nullptr;
645    kernel::KernelBuilder * sourceK = nullptr;
646    if (usingStdIn) {
647        // TODO: use fstat(STDIN_FILENO) to see if we can mmap the stdin safely and avoid the calls to read
648        byteStream = new ExtensibleBuffer(iBuilder, iBuilder->getStreamSetTy(1, 8), segmentSize);
649        sourceK = new kernel::StdInKernel(iBuilder, segmentSize);
650    } else {
651        byteStream = new SourceFileBuffer(iBuilder, iBuilder->getStreamSetTy(1, 8));
652        sourceK = new kernel::FileSourceKernel(iBuilder, inputStream->getType(), segmentSize);
653        sourceK->setInitialArguments({inputStream, fileSize});
654    }
655    byteStream->allocateBuffer();
656    pxDriver.addKernelCall(*sourceK, {}, {byteStream});
657
658    CircularBuffer BasisBits(iBuilder, iBuilder->getStreamSetTy(8), segmentSize * bufferSegments);
659    BasisBits.allocateBuffer();
660
661    kernel::S2PKernel s2pk(iBuilder);
662    pxDriver.addKernelCall(s2pk, {byteStream}, {&BasisBits});
663
664    kernel::LineBreakKernelBuilder linebreakK(iBuilder, encodingBits);
665    CircularBuffer LineBreakStream(iBuilder, iBuilder->getStreamSetTy(1, 1), segmentSize * bufferSegments);
666    LineBreakStream.allocateBuffer();
667    pxDriver.addKernelCall(linebreakK, {&BasisBits}, {&LineBreakStream});
668
669    std::vector<pablo::PabloKernel *> icgrepKs;
670    std::vector<StreamSetBuffer *> MatchResultsBufs;
671
672    for(unsigned i = 0; i < REs.size(); ++i){
673        pablo::PabloKernel * const icgrepK = new kernel::ICgrepKernelBuilder(iBuilder, REs[i], false);
674        CircularBuffer * const matchResults = new CircularBuffer(iBuilder, iBuilder->getStreamSetTy(1, 1), segmentSize * bufferSegments);
675        matchResults->allocateBuffer();
676
677        pxDriver.addKernelCall(*icgrepK, {&BasisBits, &LineBreakStream}, {matchResults});
678        icgrepKs.push_back(icgrepK);
679        MatchResultsBufs.push_back(matchResults);
680    }
681
682    CircularBuffer mergedResults(iBuilder, iBuilder->getStreamSetTy(1, 1), segmentSize * bufferSegments);
683    mergedResults.allocateBuffer();
684
685    kernel::StreamsMerge streamsMergeK(iBuilder, 1, REs.size());
686    pxDriver.addKernelCall(streamsMergeK, MatchResultsBufs, {&mergedResults});
687
688    if (CountOnly) {
689        kernel::MatchCount matchCountK(iBuilder);
690        pxDriver.addKernelCall(matchCountK, {&mergedResults}, {});
691        pxDriver.generatePipelineIR();
692        iBuilder->CreateRet(matchCountK.getScalarField("matchedLineCount"));
693        pxDriver.linkAndFinalize();
694    } else {
695        kernel::ScanMatchKernel scanMatchK(iBuilder, grepType, encodingBits);
696        scanMatchK.setInitialArguments({fileIdx});
697        pxDriver.addKernelCall(scanMatchK, {&mergedResults, &LineBreakStream, byteStream}, {});
698        linkGrepFunction(pxDriver, grepType, UTF_16, scanMatchK);
699        pxDriver.generatePipelineIR();
700        iBuilder->CreateRetVoid();
701        pxDriver.linkAndFinalize();
702    }
703
704    delete iBuilder;
705    delete sourceK;
706    delete byteStream;
707    for (StreamSetBuffer * buf : MatchResultsBufs) {
708        delete buf;
709    }
710
711    if (CountOnly) {
712        mGrepFunction_CountOnly = reinterpret_cast<GrepFunctionType_CountOnly>(pxDriver.getPointerToMain());
713    } else {
714        mGrepFunction = reinterpret_cast<GrepFunctionType>(pxDriver.getPointerToMain());
715    }
716}
717
718re::CC * GrepEngine::grepCodepoints() {
719    parsedCodePointSet = re::makeCC();
720    char * mFileBuffer = getUnicodeNameDataPtr();
721    size_t mFileSize = getUnicodeNameDataSize();
722    mGrepFunction(mFileBuffer, mFileSize, 0);
723    return parsedCodePointSet;
724}
725
726const std::vector<std::string> & GrepEngine::grepPropertyValues(const std::string& propertyName) {
727    enum { MaxSupportedVectorWidthInBytes = 32 };
728    AlignedAllocator<char, MaxSupportedVectorWidthInBytes> alloc;
729    parsedPropertyValues.clear();
730    const std::string & str = UCD::getPropertyValueGrepString(propertyName);
731    const auto n = str.length();
732    // NOTE: MaxSupportedVectorWidthInBytes of trailing 0s are needed to prevent the grep function from
733    // erroneously matching garbage data when loading the final partial block.
734    char * aligned = alloc.allocate(n + MaxSupportedVectorWidthInBytes, 0);
735    std::memcpy(aligned, str.data(), n);
736    std::memset(aligned + n, 0, MaxSupportedVectorWidthInBytes);
737    mGrepFunction(aligned, n, 0);
738    alloc.deallocate(aligned, 0);
739    return parsedPropertyValues;
740}
741
742GrepEngine::GrepEngine()
743: mGrepFunction(nullptr)
744, mGrepFunction_CountOnly(nullptr)
745#ifdef CUDA_ENABLED
746, mGrepFunction_CPU(nullptr)
747#endif
748{
749
750}
Note: See TracBrowser for help on using the repository browser.