source: icGREP/icgrep-devel/icgrep/grep_engine.cpp @ 5046

Last change on this file since 5046 was 5046, checked in by xuedongx, 3 years ago

fix index

File size: 11.3 KB
Line 
1/*
2 *  Copyright (c) 2016 International Characters.
3 *  This software is licensed to the public under the Open Software License 3.0.
4 *  icgrep is a trademark of International Characters.
5 */
6
7#include <grep_engine.h>
8#include <IDISA/idisa_builder.h>
9#include <IDISA/idisa_target.h>
10#include <llvm/Support/CommandLine.h>
11#include <re/re_toolchain.h>
12#include <re/re_cc.h>
13
14#include <pablo/pablo_toolchain.h>
15#include <toolchain.h>
16#include <utf_encoding.h>
17#include <pablo/pablo_compiler.h>
18#include <kernels/pipeline.h>
19#include <llvm/IR/Function.h>
20#include <llvm/IR/Type.h>
21#include <llvm/IR/Module.h>
22#include <llvm/ExecutionEngine/MCJIT.h>
23#include <llvm/IRReader/IRReader.h>
24#include <llvm/Support/Debug.h>
25#include <llvm/IR/Verifier.h>
26#include <UCD/UnicodeNameData.h>
27
28#include <fstream>
29#include <sstream>
30#include <iostream>
31#include <string>
32#include <stdint.h>
33
34#include <stdio.h>
35#include <stdlib.h>
36#include <unistd.h>
37#include <errno.h>
38#include <sys/types.h>
39#include <sys/stat.h>
40#include <stdexcept>
41#include <cctype>
42
43
44#include <llvm/Support/raw_os_ostream.h>
45
46// mmap system
47#include <boost/filesystem.hpp>
48#include <boost/iostreams/device/mapped_file.hpp>
49using namespace boost::iostreams;
50using namespace boost::filesystem;
51
52#include <fcntl.h>
53
54#include <kernels/kernel.h>
55
56static cl::OptionCategory bGrepOutputOptions("Output Options",
57                                             "These options control the output.");
58
59static cl::opt<bool> NormalizeLineBreaks("normalize-line-breaks", cl::desc("Normalize line breaks to std::endl."), cl::init(false),  cl::cat(bGrepOutputOptions));
60
61static cl::opt<bool> ShowFileNames("H", cl::desc("Show the file name with each matching line."), cl::cat(bGrepOutputOptions));
62static cl::alias ShowFileNamesLong("with-filename", cl::desc("Alias for -H"), cl::aliasopt(ShowFileNames));
63
64static cl::opt<bool> ShowLineNumbers("n", cl::desc("Show the line number with each matching line."), cl::cat(bGrepOutputOptions));
65static cl::alias ShowLineNumbersLong("line-number", cl::desc("Alias for -n"), cl::aliasopt(ShowLineNumbers));
66
67
68bool isUTF_16 = false;
69
70bool GrepEngine::finalLineIsUnterminated(const char * const fileBuffer, const size_t fileSize, bool UTF_16) {
71    if (fileSize == 0) return false;
72    unsigned char end_byte = static_cast<unsigned char>(fileBuffer[fileSize-1]);
73    // LF through CR are line break characters
74    if ((end_byte >= 0xA) && (end_byte <= 0xD)) return false;
75    // Other line breaks require at least two bytes.
76    if (fileSize == 1) return true;
77    // NEL
78    unsigned char penult_byte = static_cast<unsigned char>(fileBuffer[fileSize-2]);
79    if ((end_byte == 0x85) && (penult_byte == (UTF_16 ? 0x00 : 0xC2))) return false;
80    if (fileSize == 2) return true;
81    // LS and PS
82    if ((end_byte < 0xA8) || (end_byte > 0xA9)) return true;
83        if (!UTF_16) {
84            return (static_cast<unsigned char>(fileBuffer[fileSize-3]) != 0xE2) || (penult_byte != 0x80);
85        }
86        else {// UTF_16
87            return (penult_byte != 0x20);
88        }
89}
90
91void GrepEngine::doGrep(const std::string & fileName, const int fileIdx, bool CountOnly, std::vector<uint64_t> & total_CountOnly, bool UTF_16) {
92    path file(fileName);
93    if (exists(file)) {
94        if (is_directory(file)) {
95            return;
96        }
97    } else {
98        std::cerr << "Error: cannot open " << fileName << " for processing. Skipped.\n";
99        return;
100    }
101
102    const auto fileSize = file_size(file);
103    if (fileSize > 0) {
104        try {
105            mapped_file_source source(fileName, fileSize, 0);
106            char * fileBuffer = const_cast<char *>(source.data());
107            if (CountOnly) {
108                total_CountOnly[fileIdx] = mGrepFunction_CountOnly(fileBuffer, fileSize, fileIdx, finalLineIsUnterminated(fileBuffer, fileSize, UTF_16));
109            } else {
110                mGrepFunction(fileBuffer, fileSize, fileIdx, finalLineIsUnterminated(fileBuffer, fileSize, UTF_16));
111            }
112            source.close();
113        } catch (std::exception & e) {
114            throw std::runtime_error("Boost mmap error: " + fileName + ": " + e.what());
115        }
116    } else {
117        if(CountOnly) {
118            mGrepFunction_CountOnly(nullptr, 0, fileIdx, false);
119        } else {
120            mGrepFunction(nullptr, 0, fileIdx, false);
121        }
122    }
123}
124
125
126void GrepEngine::grepCodeGen(std::string moduleName, re::RE * re_ast, bool CountOnly, bool UTF_16, bool isNameExpression) {
127    isUTF_16 = UTF_16; 
128    Module * M = new Module(moduleName, getGlobalContext());
129   
130    IDISA::IDISA_Builder * idb = IDISA::GetIDISA_Builder(M);
131
132    kernel::PipelineBuilder pipelineBuilder(M, idb);
133
134    Encoding::Type type;
135    type = UTF_16 ? Encoding::Type::UTF_16 : Encoding::Type::UTF_8;
136    unsigned bits;
137    bits = UTF_16 ? 16 : 8;
138
139    Encoding encoding(type, bits);
140
141    mIsNameExpression = isNameExpression;
142    re_ast = re::regular_expression_passes(encoding, re_ast);   
143    pablo::PabloFunction * function = re::re2pablo_compiler(encoding, re_ast);
144   
145
146    pipelineBuilder.CreateKernels(function, UTF_16, isNameExpression);
147
148    llvm::Function * grepIR = pipelineBuilder.ExecuteKernels(CountOnly, UTF_16);
149
150    mEngine = JIT_to_ExecutionEngine(M);
151    ApplyObjectCache(mEngine);
152    icgrep_Linking(M, mEngine);
153   
154    #ifndef NDEBUG
155    verifyModule(*M, &dbgs());
156    #endif
157
158    mEngine->finalizeObject();
159    delete idb;
160
161    if (CountOnly) {
162        mGrepFunction_CountOnly = reinterpret_cast<GrepFunctionType_CountOnly>(mEngine->getPointerToFunction(grepIR));
163    } else {
164        mGrepFunction = reinterpret_cast<GrepFunctionType>(mEngine->getPointerToFunction(grepIR));
165    }
166
167}
168
169
170
171re::CC *  GrepEngine::grepCodepoints() {
172
173    setParsedCodePointSet();
174    char * mFileBuffer = getUnicodeNameDataPtr();
175    size_t mFileSize = getUnicodeNameDataSize();
176    std::string mFileName = "Uname.txt";
177
178    uint64_t finalLineUnterminated = 0;
179    if(finalLineIsUnterminated(mFileBuffer, mFileSize, isUTF_16))
180    finalLineUnterminated = 1;   
181    mGrepFunction(mFileBuffer, mFileSize, 0, finalLineUnterminated);
182
183    return getParsedCodePointSet();
184}
185
186GrepEngine::~GrepEngine() {
187    delete mEngine;
188}
189
190
191static int * total_count;
192static std::stringstream * resultStrs = nullptr;
193static std::vector<std::string> inputFiles;
194
195void initResult(std::vector<std::string> filenames){
196    const int n = filenames.size();
197    if (n > 1) {
198        ShowFileNames = true;
199    }
200    inputFiles = filenames;
201    resultStrs = new std::stringstream[n];
202    total_count = new int[n];
203    for (unsigned i = 0; i < inputFiles.size(); ++i){
204        total_count[i] = 0;
205    }
206   
207}
208
209extern "C" {
210    void wrapped_report_match(uint64_t lineNum, uint64_t line_start, uint64_t line_end, const char * buffer, uint64_t filesize, int fileIdx) {
211        int index = isUTF_16 ? 2 : 1;
212        int idx = fileIdx;
213     
214        if (ShowFileNames) {
215            resultStrs[idx] << inputFiles[idx] << ':';
216        }
217        if (ShowLineNumbers) {
218            resultStrs[idx] << lineNum << ":";
219        }
220       
221        if ((!isUTF_16 && buffer[line_start] == 0xA) && (line_start != line_end)) {
222            // The line "starts" on the LF of a CRLF.  Really the end of the last line.
223            line_start++;
224        }
225        if (((isUTF_16 && buffer[line_start] == 0x0) && buffer[line_start + 1] == 0xA) && (line_start != line_end)) {
226            // The line "starts" on the LF of a CRLF.  Really the end of the last line.
227            line_start += 2;
228        }
229        if (line_end == filesize) {
230            // The match position is at end-of-file.   We have a final unterminated line.
231            resultStrs[idx].write(&buffer[line_start * index], (line_end - line_start) * index);
232            if (NormalizeLineBreaks) {
233                resultStrs[idx] << '\n';  // terminate it
234            }
235            return;
236        }
237        unsigned char end_byte = (unsigned char)buffer[line_end]; 
238        unsigned char penult_byte = (unsigned char)(buffer[line_end - 1]);
239        if (NormalizeLineBreaks) {
240            if (end_byte == 0x85) {
241                // Line terminated with NEL, on the second byte.  Back up 1.
242                line_end--;
243            } else if (end_byte > 0xD) {
244                // Line terminated with PS or LS, on the third byte.  Back up 2.
245                isUTF_16 ? line_end-- : line_end -= 2;
246            }
247            resultStrs[idx].write(&buffer[line_start * index], (line_end - line_start) * index);
248            resultStrs[idx] << '\n';
249        }
250        else{   
251            if ((!isUTF_16 && end_byte == 0x0D) || (isUTF_16 && (end_byte == 0x0D && penult_byte == 0x0))) {
252                // Check for line_end on first byte of CRLF;  note that we don't
253                // want to access past the end of buffer.
254                if (line_end + 1 < filesize) {
255                    if (!isUTF_16 && buffer[line_end + 1] == 0x0A) {
256                    // Found CRLF; preserve both bytes.
257                        line_end++;;
258                    }
259                    if (isUTF_16 && buffer[line_end + 1] == 0x0 && buffer[line_end + 2] == 0x0A) {
260                    // Found CRLF; preserve both bytes.
261                        line_end += 2;
262                    }
263                }
264            }
265            resultStrs[idx].write(&buffer[line_start * index], (line_end - line_start + 1) * index);
266        }
267    }
268}
269
270void PrintResult(bool CountOnly, std::vector<uint64_t> & total_CountOnly){
271    if(CountOnly){
272        if (!ShowFileNames) {
273            for (unsigned i = 0; i < inputFiles.size(); ++i){
274                std::cout << total_CountOnly[i] << std::endl;
275            }
276        }
277        else {
278            for (unsigned i = 0; i < inputFiles.size(); ++i){
279                std::cout << inputFiles[i] << ':' << total_CountOnly[i] << std::endl;
280            };
281        }
282        return;
283    }
284   
285    for (unsigned i = 0; i < inputFiles.size(); ++i){
286        std::cout << resultStrs[i].str();
287    }
288}
289
290re::CC * parsedCodePointSet;
291
292extern "C" {
293    void insert_codepoints(uint64_t lineNum, uint64_t line_start, uint64_t line_end, const char * buffer) {
294        re::codepoint_t c = 0;
295        ssize_t line_pos = line_start;
296        while (isxdigit(buffer[line_pos])) {
297            if (isdigit(buffer[line_pos])) {
298                c = (c << 4) | (buffer[line_pos] - '0');
299            }
300            else {
301                c = (c << 4) | (tolower(buffer[line_pos]) - 'a' + 10);
302            }
303            line_pos++;
304        }
305        assert(((line_pos - line_start) >= 4) && ((line_pos - line_start) <= 6)); // UCD format 4 to 6 hex digits.       
306        parsedCodePointSet->insert(c);
307    }
308}
309
310void setParsedCodePointSet(){
311    parsedCodePointSet = re::makeCC();
312}
313
314re::CC * getParsedCodePointSet(){
315    return parsedCodePointSet;
316}
317
318
319
320
321void icgrep_Linking(Module * m, ExecutionEngine * e) {
322    Module::FunctionListType & fns = m->getFunctionList();
323    for (Module::FunctionListType::iterator it = fns.begin(), it_end = fns.end(); it != it_end; ++it) {
324        std::string fnName = it->getName().str();
325        if (fnName == "s2p_block") continue;
326        if (fnName == "process_block") continue;
327        if (fnName == "process_block_initialize_carries") continue;
328       
329        if (fnName == "wrapped_report_match") {
330            e->addGlobalMapping(cast<GlobalValue>(it), (void *)&wrapped_report_match);
331        }
332        if (fnName == "insert_codepoints") {
333            e->addGlobalMapping(cast<GlobalValue>(it), (void *)&insert_codepoints);
334        }
335#ifndef DISABLE_PREGENERATED_UCD_FUNCTIONS
336        else {
337            const UCD::ExternalProperty & ep = UCD::resolveExternalProperty(fnName);
338            e->addGlobalMapping(cast<GlobalValue>(it), std::get<0>(ep));
339        }
340#endif
341    }
342}
343
Note: See TracBrowser for help on using the repository browser.