source: icGREP/icgrep-devel/icgrep/grep_engine.cpp @ 5136

Last change on this file since 5136 was 5136, checked in by lindanl, 3 years ago

Remove unused code.

File size: 15.3 KB
Line 
1/*
2 *  Copyright (c) 2016 International Characters.
3 *  This software is licensed to the public under the Open Software License 3.0.
4 *  icgrep is a trademark of International Characters.
5 */
6
7#include <grep_engine.h>
8#include <IDISA/idisa_builder.h>
9#include <IDISA/idisa_target.h>
10#include <llvm/Support/CommandLine.h>
11#include <re/re_toolchain.h>
12#include <re/re_cc.h>
13
14#include <pablo/pablo_toolchain.h>
15#include <toolchain.h>
16#include <utf_encoding.h>
17#include <pablo/pablo_compiler.h>
18#include <kernels/pipeline.h>
19#include <llvm/IR/Function.h>
20#include <llvm/IR/Type.h>
21#include <llvm/IR/Module.h>
22#include <llvm/ExecutionEngine/MCJIT.h>
23#include <llvm/IRReader/IRReader.h>
24#include <llvm/Support/Debug.h>
25#include <llvm/IR/Verifier.h>
26#include <llvm/IR/TypeBuilder.h>
27#include <UCD/UnicodeNameData.h>
28
29
30#include <kernels/streamset.h>
31#include <kernels/scanmatchgen.h>
32#include <kernels/s2p_kernel.h>
33#include <kernels/pipeline.h>
34
35#include <pablo/function.h>
36#include <pablo/pablo_kernel.h>
37#include <pablo/pablo_toolchain.h>
38
39#include <llvm/IR/Intrinsics.h>
40#include "llvm/Support/SourceMgr.h"
41#include "llvm/IRReader/IRReader.h"
42#include "llvm/Linker/Linker.h"
43
44
45#include <fstream>
46#include <sstream>
47#include <iostream>
48#include <string>
49#include <stdint.h>
50
51#include <stdio.h>
52#include <stdlib.h>
53#include <unistd.h>
54#include <errno.h>
55#include <sys/types.h>
56#include <sys/stat.h>
57#include <stdexcept>
58#include <cctype>
59
60
61#include <llvm/Support/raw_os_ostream.h>
62
63// mmap system
64#include <boost/filesystem.hpp>
65#include <boost/iostreams/device/mapped_file.hpp>
66
67#include <fcntl.h>
68
69#include <kernels/kernel.h>
70
71static cl::OptionCategory bGrepOutputOptions("Output Options",
72                                             "These options control the output.");
73
74static cl::opt<bool> NormalizeLineBreaks("normalize-line-breaks", cl::desc("Normalize line breaks to std::endl."), cl::init(false),  cl::cat(bGrepOutputOptions));
75
76static cl::opt<bool> ShowFileNames("H", cl::desc("Show the file name with each matching line."), cl::cat(bGrepOutputOptions));
77static cl::alias ShowFileNamesLong("with-filename", cl::desc("Alias for -H"), cl::aliasopt(ShowFileNames));
78
79static cl::opt<bool> ShowLineNumbers("n", cl::desc("Show the line number with each matching line."), cl::cat(bGrepOutputOptions));
80static cl::alias ShowLineNumbersLong("line-number", cl::desc("Alias for -n"), cl::aliasopt(ShowLineNumbers));
81
82static cl::opt<bool> pipelineParallel("enable-pipeline-parallel", cl::desc("Enable multithreading with pipeline parallelism."), cl::cat(bGrepOutputOptions));
83
84
85bool isUTF_16 = false;
86
87void GrepEngine::doGrep(const std::string & fileName, const int fileIdx, bool CountOnly, std::vector<size_t> & total_CountOnly, bool UTF_16) {
88    boost::filesystem::path file(fileName);
89    if (exists(file)) {
90        if (is_directory(file)) {
91            return;
92        }
93    } else {
94        std::cerr << "Error: cannot open " << fileName << " for processing. Skipped.\n";
95        return;
96    }
97
98    const auto fileSize = file_size(file);
99    if (fileSize > 0) {
100        try {
101            boost::iostreams::mapped_file_source source(fileName, fileSize, 0);
102            char * fileBuffer = const_cast<char *>(source.data());
103            if (CountOnly) {
104                total_CountOnly[fileIdx] = mGrepFunction_CountOnly(fileBuffer, fileSize, fileIdx);
105            } else {
106                mGrepFunction(fileBuffer, fileSize, fileIdx);
107            }
108            source.close();
109        } catch (std::exception & e) {
110            throw std::runtime_error("Boost mmap error: " + fileName + ": " + e.what());
111        }
112    } else {
113        if (CountOnly) {
114            total_CountOnly[fileIdx] = mGrepFunction_CountOnly(nullptr, 0, fileIdx);
115        } else {
116            mGrepFunction(nullptr, 0, fileIdx);
117        }
118    }
119}
120
121using namespace parabix;
122
123void GrepEngine::grepCodeGen(std::string moduleName, re::RE * re_ast, bool CountOnly, bool UTF_16, bool isNameExpression) {
124    isUTF_16 = UTF_16; 
125    Module * M = new Module(moduleName, getGlobalContext());
126   
127    IDISA::IDISA_Builder * iBuilder = IDISA::GetIDISA_Builder(M);
128
129    const unsigned segmentSize = codegen::SegmentSize;
130    const unsigned bufferSegments = codegen::BufferSegments;
131
132    Encoding::Type type;
133    type = UTF_16 ? Encoding::Type::UTF_16 : Encoding::Type::UTF_8;
134    unsigned bits;
135    bits = UTF_16 ? 16 : 8;
136
137    Encoding encoding(type, bits);
138    mIsNameExpression = isNameExpression;
139
140    Type * const int64ty = iBuilder->getInt64Ty();
141    Type * const int32ty = iBuilder->getInt32Ty();
142    Type * const size_ty = iBuilder->getSizeTy();
143    Type * const int8PtrTy = iBuilder->getInt8PtrTy();
144    Type * const voidTy = Type::getVoidTy(M->getContext());   
145    Type * const voidPtrTy = TypeBuilder<void *, false>::get(M->getContext());
146    Type * const inputType = PointerType::get(ArrayType::get(ArrayType::get(iBuilder->getBitBlockType(), (UTF_16 ? 16 : 8)), 1), 0);
147    Type * const resultTy = CountOnly ? size_ty : iBuilder->getVoidTy();
148    Function * const mainFn = cast<Function>(M->getOrInsertFunction("Main", resultTy, inputType, size_ty, size_ty, nullptr));
149    mainFn->setCallingConv(CallingConv::C);
150    iBuilder->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFn, 0));
151    Function::arg_iterator args = mainFn->arg_begin();
152   
153    Value * const inputStream = &*(args++);
154    inputStream->setName("input");
155    Value * const fileSize = &*(args++);
156    fileSize->setName("fileSize");
157    Value * const fileIdx = &*(args++);
158    fileIdx->setName("fileIdx");
159       
160    ExternalUnboundedBuffer ByteStream(iBuilder, StreamSetType(1, i8));
161    CircularBuffer BasisBits(iBuilder, StreamSetType(8, i1), segmentSize * bufferSegments);
162
163    kernel::s2pKernel  s2pk(iBuilder);
164    s2pk.generateKernel({&ByteStream}, {&BasisBits});
165
166    re_ast = re::regular_expression_passes(encoding, re_ast);   
167    pablo::PabloFunction * function = re::re2pablo_compiler(encoding, re_ast, CountOnly);
168    pablo_function_passes(function);
169
170    ByteStream.setStreamSetBuffer(inputStream);
171    BasisBits.allocateBuffer();
172
173    Value * producerPtr = ByteStream.getProducerPosPtr(ByteStream.getStreamSetStructPtr());
174    iBuilder->CreateAlignedStore(fileSize, producerPtr, 8)->setOrdering(Release);
175
176    Value * s2pInstance = s2pk.createInstance({});
177 
178    Type * pthreadTy = int64ty; //Pthread Type for 64-bit machine.
179    FunctionType * funVoidPtrVoidTy = FunctionType::get(voidTy, int8PtrTy, false);   
180   
181    Function * pthreadCreateFunc = cast<Function>(M->getOrInsertFunction("pthread_create",
182                                        int32ty, 
183                                        pthreadTy->getPointerTo(), 
184                                        voidPtrTy, 
185                                        static_cast<Type *>(funVoidPtrVoidTy)->getPointerTo(),
186                                        voidPtrTy, nullptr));
187    pthreadCreateFunc->setCallingConv(llvm::CallingConv::C);
188    Function * pthreadJoinFunc = cast<Function>(M->getOrInsertFunction("pthread_join", 
189                                        int32ty, 
190                                        pthreadTy, 
191                                        PointerType::get(int8PtrTy, 0), nullptr));
192    pthreadJoinFunc->setCallingConv(llvm::CallingConv::C);
193
194    Function * pthreadExitFunc = cast<Function>(M->getOrInsertFunction("pthread_exit", 
195                                        voidTy, 
196                                        voidPtrTy, nullptr));
197    pthreadExitFunc->addFnAttr(llvm::Attribute::NoReturn);
198    pthreadExitFunc->setCallingConv(llvm::CallingConv::C);
199
200    if (CountOnly) {
201        pablo::PabloKernel  icgrepK(iBuilder, "icgrep", function, {"matchedLineCount"});
202        icgrepK.generateKernel({&BasisBits}, {});       
203        Value * icgrepInstance = icgrepK.createInstance({});
204
205        if (pipelineParallel){
206            generatePipelineParallel(iBuilder, {&s2pk, &icgrepK}, {s2pInstance, icgrepInstance});
207        }
208        else{
209            generatePipelineLoop(iBuilder, {&s2pk, &icgrepK}, {s2pInstance, icgrepInstance}, fileSize);
210        }
211       
212        Value * matchCount = icgrepK.createGetAccumulatorCall(icgrepInstance, "matchedLineCount");
213        iBuilder->CreateRet(matchCount);
214
215    }
216    else {
217        CircularBuffer MatchResults(iBuilder, StreamSetType(2, i1), segmentSize * bufferSegments);
218        MatchResults.allocateBuffer();
219
220        pablo::PabloKernel  icgrepK(iBuilder, "icgrep", function, {});
221        icgrepK.generateKernel({&BasisBits},  {&MatchResults});
222        Value * icgrepInstance = icgrepK.createInstance({});
223
224        kernel::scanMatchKernel scanMatchK(iBuilder, mIsNameExpression);
225        scanMatchK.generateKernel({&MatchResults}, {});               
226        Value * scanMatchInstance = scanMatchK.createInstance({iBuilder->CreateBitCast(inputStream, int8PtrTy), fileSize, fileIdx});
227
228        if (pipelineParallel){
229            generatePipelineParallel(iBuilder, {&s2pk, &icgrepK, &scanMatchK}, {s2pInstance, icgrepInstance, scanMatchInstance});
230        }
231        else{
232            generatePipelineLoop(iBuilder, {&s2pk, &icgrepK, &scanMatchK}, {s2pInstance, icgrepInstance, scanMatchInstance}, fileSize);
233        }
234
235        iBuilder->CreateRetVoid();
236
237    }
238     
239    mEngine = JIT_to_ExecutionEngine(M);
240    ApplyObjectCache(mEngine);
241    icgrep_Linking(M, mEngine);
242
243#ifndef NDEBUG
244    verifyModule(*M, &dbgs());
245#endif
246
247    mEngine->finalizeObject();
248    delete iBuilder;
249   
250    if (CountOnly) {
251        mGrepFunction_CountOnly = reinterpret_cast<GrepFunctionType_CountOnly>(mEngine->getPointerToFunction(mainFn));
252    } else {
253        mGrepFunction = reinterpret_cast<GrepFunctionType>(mEngine->getPointerToFunction(mainFn));
254    }
255
256}
257
258re::CC *  GrepEngine::grepCodepoints() {
259
260    setParsedCodePointSet();
261    char * mFileBuffer = getUnicodeNameDataPtr();
262    size_t mFileSize = getUnicodeNameDataSize();
263
264    mGrepFunction(mFileBuffer, mFileSize, 0);
265
266    return getParsedCodePointSet();
267}
268
269GrepEngine::~GrepEngine() {
270    delete mEngine;
271}
272
273
274static int * total_count;
275static std::stringstream * resultStrs = nullptr;
276static std::vector<std::string> inputFiles;
277
278void initResult(std::vector<std::string> filenames){
279    const int n = filenames.size();
280    if (n > 1) {
281        ShowFileNames = true;
282    }
283    inputFiles = filenames;
284    resultStrs = new std::stringstream[n];
285    total_count = new int[n];
286    for (unsigned i = 0; i < inputFiles.size(); ++i){
287        total_count[i] = 0;
288    }
289   
290}
291
292extern "C" {
293    void wrapped_report_match(size_t lineNum, size_t line_start, size_t line_end, const char * buffer, size_t filesize, int fileIdx) {
294        int index = isUTF_16 ? 2 : 1;
295        int idx = fileIdx;
296         
297        if (ShowFileNames) {
298            resultStrs[idx] << inputFiles[idx] << ':';
299        }
300        if (ShowLineNumbers) {
301            resultStrs[idx] << lineNum << ":";
302        }
303       
304        if ((!isUTF_16 && buffer[line_start] == 0xA) && (line_start != line_end)) {
305            // The line "starts" on the LF of a CRLF.  Really the end of the last line.
306            line_start++;
307        }
308        if (((isUTF_16 && buffer[line_start] == 0x0) && buffer[line_start + 1] == 0xA) && (line_start != line_end)) {
309            // The line "starts" on the LF of a CRLF.  Really the end of the last line.
310            line_start += 2;
311        }
312        if (line_end == filesize) {
313            // The match position is at end-of-file.   We have a final unterminated line.
314            resultStrs[idx].write(&buffer[line_start * index], (line_end - line_start) * index);
315            if (NormalizeLineBreaks) {
316                resultStrs[idx] << '\n';  // terminate it
317            }
318            return;
319        }
320        unsigned char end_byte = (unsigned char)buffer[line_end]; 
321        unsigned char penult_byte = (unsigned char)(buffer[line_end - 1]);
322        if (NormalizeLineBreaks) {
323            if (end_byte == 0x85) {
324                // Line terminated with NEL, on the second byte.  Back up 1.
325                line_end--;
326            } else if (end_byte > 0xD) {
327                // Line terminated with PS or LS, on the third byte.  Back up 2.
328                isUTF_16 ? line_end-- : line_end -= 2;
329            }
330            resultStrs[idx].write(&buffer[line_start * index], (line_end - line_start) * index);
331            resultStrs[idx] << '\n';
332        }
333        else {   
334            if ((!isUTF_16 && end_byte == 0x0D) || (isUTF_16 && (end_byte == 0x0D && penult_byte == 0x0))) {
335                // Check for line_end on first byte of CRLF;  note that we don't
336                // want to access past the end of buffer.
337                if (line_end + 1 < filesize) {
338                    if (!isUTF_16 && buffer[line_end + 1] == 0x0A) {
339                        // Found CRLF; preserve both bytes.
340                        line_end++;
341                    }
342                    if (isUTF_16 && buffer[line_end + 1] == 0x0 && buffer[line_end + 2] == 0x0A) {
343                        // Found CRLF; preserve both bytes.
344                        line_end += 2;
345                    }
346                }
347            }
348            resultStrs[idx].write(&buffer[line_start * index], (line_end - line_start + 1) * index);
349        }
350    }
351}
352
353void PrintResult(bool CountOnly, std::vector<size_t> & total_CountOnly){
354    if(CountOnly){
355        if (!ShowFileNames) {
356            for (unsigned i = 0; i < inputFiles.size(); ++i){
357                std::cout << total_CountOnly[i] << std::endl;
358            }
359        }
360        else {
361            for (unsigned i = 0; i < inputFiles.size(); ++i){
362                std::cout << inputFiles[i] << ':' << total_CountOnly[i] << std::endl;
363            };
364        }
365        return;
366    }
367   
368    for (unsigned i = 0; i < inputFiles.size(); ++i){
369        std::cout << resultStrs[i].str();
370    }
371}
372
373re::CC * parsedCodePointSet;
374
375extern "C" {
376    void insert_codepoints(size_t lineNum, size_t line_start, size_t line_end, const char * buffer) {
377        re::codepoint_t c = 0;
378        ssize_t line_pos = line_start;
379        while (isxdigit(buffer[line_pos])) {
380            if (isdigit(buffer[line_pos])) {
381                c = (c << 4) | (buffer[line_pos] - '0');
382            }
383            else {
384                c = (c << 4) | (tolower(buffer[line_pos]) - 'a' + 10);
385            }
386            line_pos++;
387        }
388        assert(((line_pos - line_start) >= 4) && ((line_pos - line_start) <= 6)); // UCD format 4 to 6 hex digits.       
389        parsedCodePointSet->insert(c);
390    }
391}
392
393void setParsedCodePointSet(){
394    parsedCodePointSet = re::makeCC();
395}
396
397re::CC * getParsedCodePointSet(){
398    return parsedCodePointSet;
399}
400
401
402void icgrep_Linking(Module * m, ExecutionEngine * e) {
403    Module::FunctionListType & fns = m->getFunctionList();
404    for (Module::FunctionListType::iterator it = fns.begin(), it_end = fns.end(); it != it_end; ++it) {
405        std::string fnName = it->getName().str();
406        if (fnName == "s2p_block") continue;
407        if (fnName == "process_block") continue;
408        if (fnName == "process_block_initialize_carries") continue;
409       
410        if (fnName == "wrapped_report_match") {
411            e->addGlobalMapping(cast<GlobalValue>(it), (void *)&wrapped_report_match);
412        }
413        if (fnName == "insert_codepoints") {
414            e->addGlobalMapping(cast<GlobalValue>(it), (void *)&insert_codepoints);
415        }
416#ifndef DISABLE_PREGENERATED_UCD_FUNCTIONS
417        else {
418            const UCD::ExternalProperty & ep = UCD::resolveExternalProperty(fnName);
419            e->addGlobalMapping(cast<GlobalValue>(it), std::get<0>(ep));
420        }
421#endif
422    }
423}
424
Note: See TracBrowser for help on using the repository browser.