Initial commit.
[pdfium.git] / core / include / fpdftext / fpdf_text.h
1 // Copyright 2014 PDFium Authors. All rights reserved.\r
2 // Use of this source code is governed by a BSD-style license that can be\r
3 // found in the LICENSE file.\r
4  \r
5 // Original code copyright 2014 Foxit Software Inc. http://www.foxitsoftware.com\r
6 \r
7 #ifndef _FPDF_TEXT_H_\r
8 #define _FPDF_TEXT_H_\r
9 #ifndef _FPDF_PARSER_\r
10 #include "../fpdfapi/fpdf_parser.h"\r
11 #endif\r
12 #ifndef _FPDF_PAGEOBJ_H_\r
13 #include "../fpdfapi/fpdf_pageobj.h"\r
14 #endif\r
15 #ifndef _FPDF_PAGE_\r
16 #include "../fpdfapi/fpdf_page.h"\r
17 #endif\r
18 class CPDF_PageObjects;\r
19 #define PDF2TXT_AUTO_ROTATE             1\r
20 #define PDF2TXT_AUTO_WIDTH              2\r
21 #define PDF2TXT_KEEP_COLUMN             4\r
22 #define PDF2TXT_USE_OCR                 8\r
23 #define PDF2TXT_INCLUDE_INVISIBLE       16\r
24 void PDF_GetPageText(CFX_ByteStringArray& lines, CPDF_Document* pDoc, CPDF_Dictionary* pPage,\r
25                      int iMinWidth, FX_DWORD flags);\r
26 void PDF_GetPageText_Unicode(CFX_WideStringArray& lines, CPDF_Document* pDoc, CPDF_Dictionary* pPage,\r
27                              int iMinWidth, FX_DWORD flags);\r
28 void PDF_GetTextStream_Unicode(CFX_WideTextBuf& buffer, CPDF_Document* pDoc, CPDF_Dictionary* pPage,\r
29                                FX_DWORD flags);\r
30 CFX_WideString PDF_GetFirstTextLine_Unicode(CPDF_Document* pDoc, CPDF_Dictionary* pPage);\r
31 class IPDF_TextPage;\r
32 class IPDF_LinkExtract;\r
33 class IPDF_TextPageFind;\r
34 #define CHAR_ERROR                      -1\r
35 #define CHAR_NORMAL                     0\r
36 #define CHAR_GENERATED          1\r
37 #define CHAR_UNUNICODE          2\r
38 typedef struct {\r
39     FX_WCHAR                    m_Unicode;\r
40     FX_WCHAR                    m_Charcode;\r
41     FX_INT32                    m_Flag;\r
42     FX_FLOAT                    m_FontSize;\r
43     FX_FLOAT                    m_OriginX;\r
44     FX_FLOAT                    m_OriginY;\r
45     CFX_FloatRect               m_CharBox;\r
46     CPDF_TextObject*    m_pTextObj;\r
47     CFX_AffineMatrix    m_Matrix;\r
48 } FPDF_CHAR_INFO;\r
49 typedef CFX_ArrayTemplate<CFX_FloatRect> CFX_RectArray;\r
50 #define FPDFTEXT_LRTB   0\r
51 #define FPDFTEXT_RLTB   1\r
52 #define FPDFTEXT_TBRL   2\r
53 #define FPDFTEXT_LEFT                   -1\r
54 #define FPDFTEXT_RIGHT                  1\r
55 #define FPDFTEXT_UP                             -2\r
56 #define FPDFTEXT_DOWN                   2\r
57 class IPDF_ReflowedPage;\r
58 #define FPDFTEXT_WRITINGMODE_UNKNOW     0\r
59 #define FPDFTEXT_WRITINGMODE_LRTB       1\r
60 #define FPDFTEXT_WRITINGMODE_RLTB       2\r
61 #define FPDFTEXT_WRITINGMODE_TBRL       3\r
62 class CPDFText_ParseOptions : public CFX_Object\r
63 {\r
64 public:\r
65 \r
66     CPDFText_ParseOptions();\r
67     FX_BOOL                     m_bGetCharCodeOnly;\r
68     FX_BOOL                     m_bNormalizeObjs;\r
69     FX_BOOL                     m_bOutputHyphen;\r
70 };\r
71 class IPDF_TextPage : public CFX_Object\r
72 {\r
73 public:\r
74 \r
75     virtual ~IPDF_TextPage() {}\r
76     static IPDF_TextPage*       CreateTextPage(const CPDF_Page* pPage, CPDFText_ParseOptions ParserOptions);\r
77     static IPDF_TextPage*       CreateTextPage(const CPDF_Page* pPage, int flags = 0);\r
78     static IPDF_TextPage*       CreateTextPage(const CPDF_PageObjects* pObjs, int flags = 0);\r
79     static IPDF_TextPage*       CreateReflowTextPage(IPDF_ReflowedPage* pRefPage);\r
80 \r
81     virtual void                        NormalizeObjects(FX_BOOL bNormalize) = 0;\r
82 \r
83     virtual FX_BOOL                     ParseTextPage() = 0;\r
84 \r
85 \r
86     virtual FX_BOOL                     IsParsered() const = 0;\r
87 public:\r
88 \r
89     virtual int CharIndexFromTextIndex(int TextIndex) const = 0;\r
90 \r
91     virtual int TextIndexFromCharIndex(int CharIndex) const = 0;\r
92 \r
93 \r
94     virtual int                         CountChars() const = 0;\r
95 \r
96     virtual     void                    GetCharInfo(int index, FPDF_CHAR_INFO & info) const = 0;\r
97 \r
98     virtual void                        GetRectArray(int start, int nCount, CFX_RectArray& rectArray) const = 0;\r
99 \r
100 \r
101 \r
102     virtual int                         GetIndexAtPos(CPDF_Point point, FX_FLOAT xTorelance, FX_FLOAT yTorelance) const = 0;\r
103 \r
104     virtual int                         GetIndexAtPos(FX_FLOAT x, FX_FLOAT y, FX_FLOAT xTorelance, FX_FLOAT yTorelance) const = 0;\r
105 \r
106     virtual     int                             GetOrderByDirection(int index, int direction) const = 0;\r
107 \r
108     virtual CFX_WideString      GetTextByRect(CFX_FloatRect rect) const = 0;\r
109 \r
110     virtual void                        GetRectsArrayByRect(CFX_FloatRect rect, CFX_RectArray& resRectArray) const = 0;\r
111 \r
112 \r
113     virtual int                         CountRects(int start, int nCount) = 0;\r
114 \r
115     virtual     void                    GetRect(int rectIndex, FX_FLOAT& left, FX_FLOAT& top, FX_FLOAT& right, FX_FLOAT &bottom) const = 0;\r
116 \r
117     virtual FX_BOOL                     GetBaselineRotate(int rectIndex, int& Rotate) = 0;\r
118 \r
119     virtual FX_BOOL                     GetBaselineRotate(CFX_FloatRect rect, int& Rotate) = 0;\r
120 \r
121     virtual     int                             CountBoundedSegments(FX_FLOAT left, FX_FLOAT top, FX_FLOAT right, FX_FLOAT bottom, FX_BOOL bContains = FALSE) = 0;\r
122 \r
123     virtual     void                    GetBoundedSegment(int index, int& start, int& count) const = 0;\r
124 \r
125 \r
126     virtual int                         GetWordBreak(int index, int direction) const = 0;\r
127 \r
128     virtual CFX_WideString      GetPageText(int start = 0, int nCount = -1 ) const = 0;\r
129 };\r
130 #define FPDFTEXT_MATCHCASE      0x00000001\r
131 #define FPDFTEXT_MATCHWHOLEWORD 0x00000002\r
132 #define FPDFTEXT_CONSECUTIVE    0x00000004\r
133 class IPDF_TextPageFind : public CFX_Object\r
134 {\r
135 public:\r
136 \r
137     virtual     ~IPDF_TextPageFind() {}\r
138 \r
139     static      IPDF_TextPageFind*      CreatePageFind(const IPDF_TextPage* pTextPage);\r
140 public:\r
141 \r
142     virtual     FX_BOOL                         FindFirst(CFX_WideString findwhat, int flags, int startPos = 0) = 0;\r
143 \r
144     virtual     FX_BOOL                         FindNext() = 0;\r
145 \r
146     virtual     FX_BOOL                         FindPrev() = 0;\r
147 \r
148     virtual void                                GetRectArray(CFX_RectArray& rects) const = 0;\r
149 \r
150     virtual int                                 GetCurOrder() const = 0;\r
151 \r
152     virtual int                                 GetMatchedCount() const = 0;\r
153 };\r
154 class IPDF_LinkExtract : public CFX_Object\r
155 {\r
156 public:\r
157 \r
158     virtual     ~IPDF_LinkExtract() {}\r
159 \r
160     static      IPDF_LinkExtract*       CreateLinkExtract();\r
161 \r
162     virtual FX_BOOL                             ExtractLinks(const IPDF_TextPage* pTextPage) = 0;\r
163 public:\r
164 \r
165     virtual int                                 CountLinks() const = 0;\r
166 \r
167     virtual CFX_WideString              GetURL(int index) const = 0;\r
168 \r
169     virtual     void                            GetBoundedSegment(int index, int& start, int& count) const = 0;\r
170 \r
171     virtual void                                GetRects(int index, CFX_RectArray& rects) const = 0;\r
172 };\r
173 #endif\r