00001
00002
00003
00004
00005
00006
00007
00008
00009
00010
00011
00012
00013
00014
00015
00016
00017
00018
00019
00020
00021
00022
00023
00024
00025
00026
00027
00028
00029
00030
00031
00032
00033
00034
00035
00036
00037
00038
00039
00040
00041
00042
00043
00044
00045
00046
00047
00048
00049
00050
00051
00052
00053
00054
00055
00056
00057
00058
00059
00060 #ifndef INDRI_OFFSETANNOTATIONANNOTATOR_HPP
00061 #define INDRI_OFFSETANNOTATIONANNOTATOR_HPP
00062
00063 #include <iostream>
00064 #include <fstream>
00065 #include <vector>
00066 #include <string>
00067 #include <set>
00068 #include <utility>
00069
00070 #include "indri/Buffer.hpp"
00071 #include "indri/Transformation.hpp"
00072 #include "indri/TagExtent.hpp"
00073 #include "indri/ParsedDocument.hpp"
00074 #include "indri/HashTable.hpp"
00075 #include "indri/greedy_vector"
00076 #include "indri/Conflater.hpp"
00077
00078 namespace indri {
00079 namespace parse {
00080
00081 enum OffsetAnnotationIndexHint {
00082 OAHintDefault,
00083 OAHintOrderedAnnotations,
00084 OAHintSizeBuffers,
00085 OAHintNone
00086 };
00087
00088 class OffsetAnnotationAnnotator : public Transformation {
00089
00090 private:
00091
00092
00093 struct ReadAnnotationTag {
00094 char *docno;
00095 char *name;
00096 char *s_value;
00097 int type;
00098 UINT64 id;
00099 UINT64 i_value;
00100 UINT64 parent;
00101 int start;
00102 int length;
00103 };
00104
00105
00106 OffsetAnnotationIndexHint _indexHintType;
00107
00108
00109 std::string _offsetAnnotationsFile;
00110
00111
00112
00113 int lastBufferAllocationSize;
00114
00115
00116
00117
00118
00119 indri::utility::HashTable<const char *,std::set<TagExtent*>*> *_annotations;
00120
00121
00122
00123
00124 indri::utility::HashTable<const char *,std::set<TagExtent*>*> *_converted_annotations;
00125
00126 indri::utility::HashTable<UINT64,TagExtent*> *_tag_id_map;
00127 indri::utility::HashTable<UINT64,AttributeValuePair*> *_attribute_id_map;
00128
00129
00130
00131 std::vector<char *> *_buffers_allocated;
00132
00133 bool _first_open;
00134
00135 ObjectHandler<indri::api::ParsedDocument>* _handler;
00136 Conflater* _p_conflater;
00137
00138 std::ifstream annotationFile;
00139 int offsetAnnotationFileLine;
00140
00141
00142 const char *_getDocno( indri::api::ParsedDocument* document );
00143 TagExtent *_getTag( UINT64 id );
00144 AttributeValuePair *_getAttribute( UINT64 id );
00145 bool _is_unique_id( UINT64 id, int line );
00146 UINT64 parse_UINT64( const char *str, int n );
00147 void _cleanup();
00148
00149 ReadAnnotationTag parseLine(char *readLine, int lineCounter);
00150
00151
00152
00153 ReadAnnotationTag lastReadTag;
00154
00155
00156 void readAnnotationTags(const char *docno);
00157
00158 void convert_annotations( std::set<indri::parse::TagExtent*>* raw_tags,
00159 std::set<indri::parse::TagExtent*>* converted_tags,
00160 indri::api::ParsedDocument* document );
00161
00162 public:
00164 OffsetAnnotationAnnotator( Conflater* p_conflater );
00165 OffsetAnnotationAnnotator();
00166 ~OffsetAnnotationAnnotator();
00167
00168 void setTags (const char *docno, const std::vector<indri::parse::TagExtent *> &tagset);
00169
00170 void setConflater(Conflater* p_conflater);
00171 void setHandler( ObjectHandler<indri::api::ParsedDocument>& handler );
00172 void handle( indri::api::ParsedDocument* document );
00173
00174 void setHint(indri::parse::OffsetAnnotationIndexHint hintType);
00175
00176 void open( const std::string& offsetAnnotationsFile );
00177 indri::api::ParsedDocument* transform( indri::api::ParsedDocument* document );
00178
00179 };
00180
00181 }
00182 }
00183
00184 #endif // INDRI_OFFSETANNOTATIONANNOTATOR_HPP
00185