source: icGREP/icgrep-devel/icgrep/grep_engine.cpp @ 5101

Last change on this file since 5101 was 5101, checked in by cameron, 3 years ago

Clean out using boost namespaces

File size: 13.4 KB
Line 
1/*
2 *  Copyright (c) 2016 International Characters.
3 *  This software is licensed to the public under the Open Software License 3.0.
4 *  icgrep is a trademark of International Characters.
5 */
6
7#include <grep_engine.h>
8#include <IDISA/idisa_builder.h>
9#include <IDISA/idisa_target.h>
10#include <llvm/Support/CommandLine.h>
11#include <re/re_toolchain.h>
12#include <re/re_cc.h>
13
14#include <pablo/pablo_toolchain.h>
15#include <toolchain.h>
16#include <utf_encoding.h>
17#include <pablo/pablo_compiler.h>
18#include <kernels/pipeline.h>
19#include <llvm/IR/Function.h>
20#include <llvm/IR/Type.h>
21#include <llvm/IR/Module.h>
22#include <llvm/ExecutionEngine/MCJIT.h>
23#include <llvm/IRReader/IRReader.h>
24#include <llvm/Support/Debug.h>
25#include <llvm/IR/Verifier.h>
26#include <UCD/UnicodeNameData.h>
27
28
29#include <kernels/streamset.h>
30#include <kernels/scanmatchgen.h>
31#include <kernels/s2p_kernel.h>
32#include <kernels/pipeline.h>
33
34#include <pablo/function.h>
35#include <pablo/pablo_kernel.h>
36#include <pablo/pablo_toolchain.h>
37
38#include <llvm/IR/Intrinsics.h>
39#include "llvm/Support/SourceMgr.h"
40#include "llvm/IRReader/IRReader.h"
41#include "llvm/Linker/Linker.h"
42
43
44#include <fstream>
45#include <sstream>
46#include <iostream>
47#include <string>
48#include <stdint.h>
49
50#include <stdio.h>
51#include <stdlib.h>
52#include <unistd.h>
53#include <errno.h>
54#include <sys/types.h>
55#include <sys/stat.h>
56#include <stdexcept>
57#include <cctype>
58
59
60#include <llvm/Support/raw_os_ostream.h>
61
62// mmap system
63#include <boost/filesystem.hpp>
64#include <boost/iostreams/device/mapped_file.hpp>
65
66#include <fcntl.h>
67
68#include <kernels/kernel.h>
69
70static cl::OptionCategory bGrepOutputOptions("Output Options",
71                                             "These options control the output.");
72
73static cl::opt<bool> NormalizeLineBreaks("normalize-line-breaks", cl::desc("Normalize line breaks to std::endl."), cl::init(false),  cl::cat(bGrepOutputOptions));
74
75static cl::opt<bool> ShowFileNames("H", cl::desc("Show the file name with each matching line."), cl::cat(bGrepOutputOptions));
76static cl::alias ShowFileNamesLong("with-filename", cl::desc("Alias for -H"), cl::aliasopt(ShowFileNames));
77
78static cl::opt<bool> ShowLineNumbers("n", cl::desc("Show the line number with each matching line."), cl::cat(bGrepOutputOptions));
79static cl::alias ShowLineNumbersLong("line-number", cl::desc("Alias for -n"), cl::aliasopt(ShowLineNumbers));
80
81
82bool isUTF_16 = false;
83
84void GrepEngine::doGrep(const std::string & fileName, const int fileIdx, bool CountOnly, std::vector<uint64_t> & total_CountOnly, bool UTF_16) {
85    boost::filesystem::path file(fileName);
86    if (exists(file)) {
87        if (is_directory(file)) {
88            return;
89        }
90    } else {
91        std::cerr << "Error: cannot open " << fileName << " for processing. Skipped.\n";
92        return;
93    }
94
95    const auto fileSize = file_size(file);
96    if (fileSize > 0) {
97        try {
98            boost::iostreams::mapped_file_source source(fileName, fileSize, 0);
99            char * fileBuffer = const_cast<char *>(source.data());
100            if (CountOnly) {
101                total_CountOnly[fileIdx] = mGrepFunction_CountOnly(fileBuffer, fileSize, fileIdx);
102            } else {
103                mGrepFunction(fileBuffer, fileSize, fileIdx);
104            }
105            source.close();
106        } catch (std::exception & e) {
107            throw std::runtime_error("Boost mmap error: " + fileName + ": " + e.what());
108        }
109    } else {
110        if (CountOnly) {
111            mGrepFunction_CountOnly(nullptr, 0, fileIdx);
112        } else {
113            mGrepFunction(nullptr, 0, fileIdx);
114        }
115    }
116}
117
118using namespace parabix;
119
120void GrepEngine::grepCodeGen(std::string moduleName, re::RE * re_ast, bool CountOnly, bool UTF_16, bool isNameExpression) {
121    isUTF_16 = UTF_16; 
122    Module * M = new Module(moduleName, getGlobalContext());
123   
124    IDISA::IDISA_Builder * iBuilder = IDISA::GetIDISA_Builder(M);
125
126    const unsigned segmentSize = codegen::SegmentSize;
127
128    Encoding::Type type;
129    type = UTF_16 ? Encoding::Type::UTF_16 : Encoding::Type::UTF_8;
130    unsigned bits;
131    bits = UTF_16 ? 16 : 8;
132
133    Encoding encoding(type, bits);
134
135    ExternalUnboundedBuffer ByteStream(iBuilder, StreamSetType(1, i8));
136    CircularBuffer BasisBits(iBuilder, StreamSetType(8, i1), segmentSize);
137
138    mIsNameExpression = isNameExpression;
139    re_ast = re::regular_expression_passes(encoding, re_ast);   
140    pablo::PabloFunction * function = re::re2pablo_compiler(encoding, re_ast);
141   
142    kernel::s2pKernel  s2pk(iBuilder, ByteStream, BasisBits);
143    kernel::scanMatchKernel scanMatchK(iBuilder, 64, false);
144   
145    s2pk.generateKernel();
146    scanMatchK.generateKernel();
147   
148    //std::unique_ptr<Module> s2pM = s2pk.createKernelModule();
149    //std::unique_ptr<Module> scanMatchM = scanMatchK.createKernelModule();
150   
151    //s2pk.addKernelDeclarations(mMod);
152    //scanMatchK.addKernelDeclarations(mMod);
153   
154    pablo_function_passes(function);
155    pablo::PabloKernel  icgrepK(iBuilder, "icgrep", function, {"matchedLineCount"});
156    icgrepK.generateKernel();
157   
158    //std::unique_ptr<Module> icgrepM = icgrepK.createKernelModule();
159    //icgrepK.addKernelDeclarations(mMod);
160   
161    Type * const int64ty = iBuilder->getInt64Ty();
162    Type * const int8PtrTy = iBuilder->getInt8PtrTy();
163    Type * const inputType = PointerType::get(ArrayType::get(ArrayType::get(iBuilder->getBitBlockType(), (UTF_16 ? 16 : 8)), 1), 0);
164    Type * const resultTy = CountOnly ? int64ty : iBuilder->getVoidTy();
165    Function * const mainFn = cast<Function>(M->getOrInsertFunction("Main", resultTy, inputType, int64ty, int64ty, nullptr));
166    mainFn->setCallingConv(CallingConv::C);
167    iBuilder->SetInsertPoint(BasicBlock::Create(M->getContext(), "entry", mainFn, 0));
168    Function::arg_iterator args = mainFn->arg_begin();
169   
170    Value * const inputStream = &*(args++);
171    inputStream->setName("input");
172    Value * const fileSize = &*(args++);
173    fileSize->setName("fileSize");
174    Value * const fileIdx = &*(args++);
175    fileIdx->setName("fileIdx");
176
177
178    ByteStream.setStreamSetBuffer(inputStream);
179    BasisBits.allocateBuffer();
180
181    if (CountOnly) {
182        Value * s2pInstance = s2pk.createInstance({}, {&ByteStream}, {&BasisBits});
183        Value * icgrepInstance = icgrepK.createInstance({}, {&BasisBits}, {});
184       
185        generatePipelineLoop(iBuilder, {&s2pk, &icgrepK}, {s2pInstance, icgrepInstance}, fileSize);
186        Value * matchCount = icgrepK.createGetAccumulatorCall(icgrepInstance, "matchedLineCount");
187        iBuilder->CreateRet(matchCount);
188    }
189    else {
190       
191        CircularBuffer MatchResults(iBuilder, StreamSetType(2, i1), segmentSize);
192        ByteStream.setStreamSetBuffer(inputStream);
193        BasisBits.allocateBuffer();
194        MatchResults.allocateBuffer();
195       
196       
197        Value * s2pInstance = s2pk.createInstance({}, {&ByteStream}, {&BasisBits});
198        Value * icgrepInstance = icgrepK.createInstance({}, {&BasisBits}, {&MatchResults});
199        Value * scanMatchInstance = scanMatchK.createInstance({iBuilder->CreateBitCast(inputStream, int8PtrTy), fileSize, fileIdx}, {&MatchResults}, {});
200       
201        generatePipelineLoop(iBuilder, {&s2pk, &icgrepK, &scanMatchK}, {s2pInstance, icgrepInstance, scanMatchInstance}, fileSize);
202        iBuilder->CreateRetVoid();
203    }
204   
205    mEngine = JIT_to_ExecutionEngine(M);
206    ApplyObjectCache(mEngine);
207    icgrep_Linking(M, mEngine);
208
209#ifndef NDEBUG
210    verifyModule(*M, &dbgs());
211#endif
212
213    mEngine->finalizeObject();
214    delete iBuilder;
215   
216    if (CountOnly) {
217        mGrepFunction_CountOnly = reinterpret_cast<GrepFunctionType_CountOnly>(mEngine->getPointerToFunction(mainFn));
218    } else {
219        mGrepFunction = reinterpret_cast<GrepFunctionType>(mEngine->getPointerToFunction(mainFn));
220    }
221
222}
223
224
225
226re::CC *  GrepEngine::grepCodepoints() {
227
228    setParsedCodePointSet();
229    char * mFileBuffer = getUnicodeNameDataPtr();
230    size_t mFileSize = getUnicodeNameDataSize();
231
232    mGrepFunction(mFileBuffer, mFileSize, 0);
233
234    return getParsedCodePointSet();
235}
236
237GrepEngine::~GrepEngine() {
238    delete mEngine;
239}
240
241
242static int * total_count;
243static std::stringstream * resultStrs = nullptr;
244static std::vector<std::string> inputFiles;
245
246void initResult(std::vector<std::string> filenames){
247    const int n = filenames.size();
248    if (n > 1) {
249        ShowFileNames = true;
250    }
251    inputFiles = filenames;
252    resultStrs = new std::stringstream[n];
253    total_count = new int[n];
254    for (unsigned i = 0; i < inputFiles.size(); ++i){
255        total_count[i] = 0;
256    }
257   
258}
259
260extern "C" {
261    void wrapped_report_match(uint64_t lineNum, uint64_t line_start, uint64_t line_end, const char * buffer, uint64_t filesize, int fileIdx) {
262        int index = isUTF_16 ? 2 : 1;
263        int idx = fileIdx;
264         
265        if (ShowFileNames) {
266            resultStrs[idx] << inputFiles[idx] << ':';
267        }
268        if (ShowLineNumbers) {
269            resultStrs[idx] << lineNum << ":";
270        }
271       
272        if ((!isUTF_16 && buffer[line_start] == 0xA) && (line_start != line_end)) {
273            // The line "starts" on the LF of a CRLF.  Really the end of the last line.
274            line_start++;
275        }
276        if (((isUTF_16 && buffer[line_start] == 0x0) && buffer[line_start + 1] == 0xA) && (line_start != line_end)) {
277            // The line "starts" on the LF of a CRLF.  Really the end of the last line.
278            line_start += 2;
279        }
280        if (line_end == filesize) {
281            // The match position is at end-of-file.   We have a final unterminated line.
282            resultStrs[idx].write(&buffer[line_start * index], (line_end - line_start) * index);
283            if (NormalizeLineBreaks) {
284                resultStrs[idx] << '\n';  // terminate it
285            }
286            return;
287        }
288        unsigned char end_byte = (unsigned char)buffer[line_end]; 
289        unsigned char penult_byte = (unsigned char)(buffer[line_end - 1]);
290        if (NormalizeLineBreaks) {
291            if (end_byte == 0x85) {
292                // Line terminated with NEL, on the second byte.  Back up 1.
293                line_end--;
294            } else if (end_byte > 0xD) {
295                // Line terminated with PS or LS, on the third byte.  Back up 2.
296                isUTF_16 ? line_end-- : line_end -= 2;
297            }
298            resultStrs[idx].write(&buffer[line_start * index], (line_end - line_start) * index);
299            resultStrs[idx] << '\n';
300        }
301        else {   
302            if ((!isUTF_16 && end_byte == 0x0D) || (isUTF_16 && (end_byte == 0x0D && penult_byte == 0x0))) {
303                // Check for line_end on first byte of CRLF;  note that we don't
304                // want to access past the end of buffer.
305                if (line_end + 1 < filesize) {
306                    if (!isUTF_16 && buffer[line_end + 1] == 0x0A) {
307                        // Found CRLF; preserve both bytes.
308                        line_end++;
309                    }
310                    if (isUTF_16 && buffer[line_end + 1] == 0x0 && buffer[line_end + 2] == 0x0A) {
311                        // Found CRLF; preserve both bytes.
312                        line_end += 2;
313                    }
314                }
315            }
316            resultStrs[idx].write(&buffer[line_start * index], (line_end - line_start + 1) * index);
317        }
318    }
319}
320
321void PrintResult(bool CountOnly, std::vector<uint64_t> & total_CountOnly){
322    if(CountOnly){
323        if (!ShowFileNames) {
324            for (unsigned i = 0; i < inputFiles.size(); ++i){
325                std::cout << total_CountOnly[i] << std::endl;
326            }
327        }
328        else {
329            for (unsigned i = 0; i < inputFiles.size(); ++i){
330                std::cout << inputFiles[i] << ':' << total_CountOnly[i] << std::endl;
331            };
332        }
333        return;
334    }
335   
336    for (unsigned i = 0; i < inputFiles.size(); ++i){
337        std::cout << resultStrs[i].str();
338    }
339}
340
341re::CC * parsedCodePointSet;
342
343extern "C" {
344    void insert_codepoints(uint64_t lineNum, uint64_t line_start, uint64_t line_end, const char * buffer) {
345        re::codepoint_t c = 0;
346        ssize_t line_pos = line_start;
347        while (isxdigit(buffer[line_pos])) {
348            if (isdigit(buffer[line_pos])) {
349                c = (c << 4) | (buffer[line_pos] - '0');
350            }
351            else {
352                c = (c << 4) | (tolower(buffer[line_pos]) - 'a' + 10);
353            }
354            line_pos++;
355        }
356        assert(((line_pos - line_start) >= 4) && ((line_pos - line_start) <= 6)); // UCD format 4 to 6 hex digits.       
357        parsedCodePointSet->insert(c);
358    }
359}
360
361void setParsedCodePointSet(){
362    parsedCodePointSet = re::makeCC();
363}
364
365re::CC * getParsedCodePointSet(){
366    return parsedCodePointSet;
367}
368
369
370
371
372void icgrep_Linking(Module * m, ExecutionEngine * e) {
373    Module::FunctionListType & fns = m->getFunctionList();
374    for (Module::FunctionListType::iterator it = fns.begin(), it_end = fns.end(); it != it_end; ++it) {
375        std::string fnName = it->getName().str();
376        if (fnName == "s2p_block") continue;
377        if (fnName == "process_block") continue;
378        if (fnName == "process_block_initialize_carries") continue;
379       
380        if (fnName == "wrapped_report_match") {
381            e->addGlobalMapping(cast<GlobalValue>(it), (void *)&wrapped_report_match);
382        }
383        if (fnName == "insert_codepoints") {
384            e->addGlobalMapping(cast<GlobalValue>(it), (void *)&insert_codepoints);
385        }
386#ifndef DISABLE_PREGENERATED_UCD_FUNCTIONS
387        else {
388            const UCD::ExternalProperty & ep = UCD::resolveExternalProperty(fnName);
389            e->addGlobalMapping(cast<GlobalValue>(it), std::get<0>(ep));
390        }
391#endif
392    }
393}
394
Note: See TracBrowser for help on using the repository browser.