Cleanup: s/Torelance/Tolerance/
[pdfium.git] / core / include / fpdftext / fpdf_text.h
1 // Copyright 2014 PDFium Authors. All rights reserved.
2 // Use of this source code is governed by a BSD-style license that can be
3 // found in the LICENSE file.
4
5 // Original code copyright 2014 Foxit Software Inc. http://www.foxitsoftware.com
6
7 #ifndef CORE_INCLUDE_FPDFTEXT_FPDF_TEXT_H_
8 #define CORE_INCLUDE_FPDFTEXT_FPDF_TEXT_H_
9
10 #include "../fpdfapi/fpdf_parser.h"
11
12 class CPDF_Page;
13 class CPDF_PageObjects;
14 class CPDF_TextObject;
15 class IPDF_LinkExtract;
16 class IPDF_ReflowedPage;
17 class IPDF_TextPage;
18 class IPDF_TextPageFind;
19
20 #define PDF2TXT_AUTO_ROTATE 1
21 #define PDF2TXT_AUTO_WIDTH 2
22 #define PDF2TXT_KEEP_COLUMN 4
23 #define PDF2TXT_USE_OCR 8
24 #define PDF2TXT_INCLUDE_INVISIBLE 16
25 void PDF_GetPageText(CFX_ByteStringArray& lines,
26                      CPDF_Document* pDoc,
27                      CPDF_Dictionary* pPage,
28                      int iMinWidth,
29                      FX_DWORD flags);
30 void PDF_GetPageText_Unicode(CFX_WideStringArray& lines,
31                              CPDF_Document* pDoc,
32                              CPDF_Dictionary* pPage,
33                              int iMinWidth,
34                              FX_DWORD flags);
35 void PDF_GetTextStream_Unicode(CFX_WideTextBuf& buffer,
36                                CPDF_Document* pDoc,
37                                CPDF_Dictionary* pPage,
38                                FX_DWORD flags);
39 CFX_WideString PDF_GetFirstTextLine_Unicode(CPDF_Document* pDoc,
40                                             CPDF_Dictionary* pPage);
41 #define CHAR_ERROR -1
42 #define CHAR_NORMAL 0
43 #define CHAR_GENERATED 1
44 #define CHAR_UNUNICODE 2
45 typedef struct {
46   FX_WCHAR m_Unicode;
47   FX_WCHAR m_Charcode;
48   int32_t m_Flag;
49   FX_FLOAT m_FontSize;
50   FX_FLOAT m_OriginX;
51   FX_FLOAT m_OriginY;
52   CFX_FloatRect m_CharBox;
53   CPDF_TextObject* m_pTextObj;
54   CFX_AffineMatrix m_Matrix;
55 } FPDF_CHAR_INFO;
56 typedef CFX_ArrayTemplate<CFX_FloatRect> CFX_RectArray;
57 #define FPDFTEXT_LRTB 0
58 #define FPDFTEXT_RLTB 1
59 #define FPDFTEXT_TBRL 2
60 #define FPDFTEXT_LEFT -1
61 #define FPDFTEXT_RIGHT 1
62 #define FPDFTEXT_UP -2
63 #define FPDFTEXT_DOWN 2
64 #define FPDFTEXT_WRITINGMODE_UNKNOW 0
65 #define FPDFTEXT_WRITINGMODE_LRTB 1
66 #define FPDFTEXT_WRITINGMODE_RLTB 2
67 #define FPDFTEXT_WRITINGMODE_TBRL 3
68 class CPDFText_ParseOptions {
69  public:
70   CPDFText_ParseOptions();
71   FX_BOOL m_bGetCharCodeOnly;
72   FX_BOOL m_bNormalizeObjs;
73   FX_BOOL m_bOutputHyphen;
74 };
75 class IPDF_TextPage {
76  public:
77   virtual ~IPDF_TextPage() {}
78   static IPDF_TextPage* CreateTextPage(const CPDF_Page* pPage,
79                                        CPDFText_ParseOptions ParserOptions);
80   static IPDF_TextPage* CreateTextPage(const CPDF_Page* pPage, int flags = 0);
81   static IPDF_TextPage* CreateTextPage(const CPDF_PageObjects* pObjs,
82                                        int flags = 0);
83   static IPDF_TextPage* CreateReflowTextPage(IPDF_ReflowedPage* pRefPage);
84
85   virtual void NormalizeObjects(FX_BOOL bNormalize) = 0;
86
87   virtual FX_BOOL ParseTextPage() = 0;
88
89   virtual FX_BOOL IsParsered() const = 0;
90
91  public:
92   virtual int CharIndexFromTextIndex(int TextIndex) const = 0;
93
94   virtual int TextIndexFromCharIndex(int CharIndex) const = 0;
95
96   virtual int CountChars() const = 0;
97
98   virtual void GetCharInfo(int index, FPDF_CHAR_INFO& info) const = 0;
99
100   virtual void GetRectArray(int start,
101                             int nCount,
102                             CFX_RectArray& rectArray) const = 0;
103
104   virtual int GetIndexAtPos(CPDF_Point point,
105                             FX_FLOAT xTolerance,
106                             FX_FLOAT yTolerance) const = 0;
107
108   virtual int GetIndexAtPos(FX_FLOAT x,
109                             FX_FLOAT y,
110                             FX_FLOAT xTolerance,
111                             FX_FLOAT yTolerance) const = 0;
112
113   virtual CFX_WideString GetTextByRect(const CFX_FloatRect& rect) const = 0;
114
115   virtual void GetRectsArrayByRect(const CFX_FloatRect& rect,
116                                    CFX_RectArray& resRectArray) const = 0;
117
118   virtual int CountRects(int start, int nCount) = 0;
119
120   virtual void GetRect(int rectIndex,
121                        FX_FLOAT& left,
122                        FX_FLOAT& top,
123                        FX_FLOAT& right,
124                        FX_FLOAT& bottom) const = 0;
125
126   virtual FX_BOOL GetBaselineRotate(int rectIndex, int& Rotate) = 0;
127
128   virtual FX_BOOL GetBaselineRotate(const CFX_FloatRect& rect, int& Rotate) = 0;
129
130   virtual int CountBoundedSegments(FX_FLOAT left,
131                                    FX_FLOAT top,
132                                    FX_FLOAT right,
133                                    FX_FLOAT bottom,
134                                    FX_BOOL bContains = FALSE) = 0;
135
136   virtual void GetBoundedSegment(int index, int& start, int& count) const = 0;
137
138   virtual int GetWordBreak(int index, int direction) const = 0;
139
140   virtual CFX_WideString GetPageText(int start = 0, int nCount = -1) const = 0;
141 };
142 #define FPDFTEXT_MATCHCASE 0x00000001
143 #define FPDFTEXT_MATCHWHOLEWORD 0x00000002
144 #define FPDFTEXT_CONSECUTIVE 0x00000004
145 class IPDF_TextPageFind {
146  public:
147   virtual ~IPDF_TextPageFind() {}
148
149   static IPDF_TextPageFind* CreatePageFind(const IPDF_TextPage* pTextPage);
150
151  public:
152   virtual FX_BOOL FindFirst(const CFX_WideString& findwhat,
153                             int flags,
154                             int startPos = 0) = 0;
155
156   virtual FX_BOOL FindNext() = 0;
157
158   virtual FX_BOOL FindPrev() = 0;
159
160   virtual void GetRectArray(CFX_RectArray& rects) const = 0;
161
162   virtual int GetCurOrder() const = 0;
163
164   virtual int GetMatchedCount() const = 0;
165 };
166 class IPDF_LinkExtract {
167  public:
168   virtual ~IPDF_LinkExtract() {}
169
170   static IPDF_LinkExtract* CreateLinkExtract();
171
172   virtual FX_BOOL ExtractLinks(const IPDF_TextPage* pTextPage) = 0;
173
174  public:
175   virtual int CountLinks() const = 0;
176
177   virtual CFX_WideString GetURL(int index) const = 0;
178
179   virtual void GetBoundedSegment(int index, int& start, int& count) const = 0;
180
181   virtual void GetRects(int index, CFX_RectArray& rects) const = 0;
182 };
183
184 #endif  // CORE_INCLUDE_FPDFTEXT_FPDF_TEXT_H_