_FETAL => _FATAL.
[pdfium.git] / core / src / fpdftext / fpdf_text_int.cpp
1 // Copyright 2014 PDFium Authors. All rights reserved.
2 // Use of this source code is governed by a BSD-style license that can be
3 // found in the LICENSE file.
4
5 // Original code copyright 2014 Foxit Software Inc. http://www.foxitsoftware.com
6
7 #include <ctype.h>
8 #include <algorithm>
9
10 #include "../../../third_party/base/nonstd_unique_ptr.h"
11 #include "../../include/fpdfapi/fpdf_module.h"
12 #include "../../include/fpdfapi/fpdf_page.h"
13 #include "../../include/fpdfapi/fpdf_pageobj.h"
14 #include "../../include/fpdfapi/fpdf_resource.h"
15 #include "../../include/fpdftext/fpdf_text.h"
16 #include "../../include/fxcrt/fx_arb.h"
17 #include "../../include/fxcrt/fx_ucd.h"
18 #include "text_int.h"
19
20 namespace {
21
22 FX_BOOL _IsIgnoreSpaceCharacter(FX_WCHAR curChar)
23 {
24     if(curChar < 255 ) {
25         return FALSE;
26     }
27     if ( (curChar >= 0x0600 && curChar <= 0x06FF)
28             || (curChar >= 0xFE70 && curChar <= 0xFEFF)
29             || (curChar >= 0xFB50 && curChar <= 0xFDFF)
30             || (curChar >= 0x0400 && curChar <= 0x04FF)
31             || (curChar >= 0x0500 && curChar <= 0x052F)
32             || (curChar >= 0xA640 && curChar <= 0xA69F)
33             || (curChar >= 0x2DE0 && curChar <= 0x2DFF)
34             || curChar == 8467
35             || (curChar >= 0x2000 && curChar <= 0x206F)) {
36         return FALSE;
37     }
38     return TRUE;
39 }
40
41 FX_FLOAT _NormalizeThreshold(FX_FLOAT threshold)
42 {
43     if (threshold < 300) {
44         return threshold / 2.0f;
45     } else if (threshold < 500) {
46         return threshold / 4.0f;
47     } else if (threshold < 700) {
48         return threshold / 5.0f;
49     }
50     return threshold / 6.0f;
51 }
52
53 FX_FLOAT _CalculateBaseSpace(const CPDF_TextObject* pTextObj,
54                              const CFX_AffineMatrix& matrix)
55 {
56     FX_FLOAT baseSpace = 0.0;
57     const int nItems = pTextObj->CountItems();
58     if (pTextObj->m_TextState.GetObject()->m_CharSpace && nItems >= 3) {
59         FX_BOOL bAllChar = TRUE;
60         FX_FLOAT spacing = matrix.TransformDistance(
61             pTextObj->m_TextState.GetObject()->m_CharSpace);
62         baseSpace = spacing;
63         for (int i = 0; i < nItems; i++) {
64             CPDF_TextObjectItem item;
65             pTextObj->GetItemInfo(i, &item);
66             if (item.m_CharCode == (FX_DWORD) - 1) {
67                 FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
68                 FX_FLOAT kerning = -fontsize_h * item.m_OriginX / 1000;
69                 baseSpace = std::min(baseSpace, kerning + spacing);
70                 bAllChar = FALSE;
71             }
72         }
73         if (baseSpace < 0.0 || (nItems == 3 && !bAllChar)) {
74             baseSpace = 0.0;
75         }
76     }
77     return baseSpace;
78 }
79
80 }  // namespace
81
82 CPDFText_ParseOptions::CPDFText_ParseOptions()
83     : m_bGetCharCodeOnly(FALSE), m_bNormalizeObjs(TRUE), m_bOutputHyphen(FALSE)
84 {
85 }
86 IPDF_TextPage* IPDF_TextPage::CreateTextPage(const CPDF_Page* pPage, CPDFText_ParseOptions ParserOptions)
87 {
88     CPDF_TextPage* pTextPageEx = FX_NEW CPDF_TextPage(pPage, ParserOptions);
89     return pTextPageEx;
90 }
91 IPDF_TextPage* IPDF_TextPage::CreateTextPage(const CPDF_Page* pPage, int flags)
92 {
93     CPDF_TextPage* pTextPage = FX_NEW CPDF_TextPage(pPage, flags);
94     return      pTextPage;
95 }
96 IPDF_TextPage*  IPDF_TextPage::CreateTextPage(const CPDF_PageObjects* pObjs, int flags)
97 {
98     CPDF_TextPage* pTextPage = FX_NEW CPDF_TextPage(pObjs, flags);
99     return      pTextPage;
100 }
101 IPDF_TextPageFind*      IPDF_TextPageFind::CreatePageFind(const IPDF_TextPage* pTextPage)
102 {
103     if (!pTextPage) {
104         return NULL;
105     }
106     return FX_NEW CPDF_TextPageFind(pTextPage);
107 }
108 IPDF_LinkExtract* IPDF_LinkExtract::CreateLinkExtract()
109 {
110     return FX_NEW CPDF_LinkExtract();
111 }
112 #define  TEXT_BLANK_CHAR                L' '
113 #define  TEXT_LINEFEED_CHAR             L'\n'
114 #define  TEXT_RETURN_CHAR               L'\r'
115 #define  TEXT_EMPTY                             L""
116 #define  TEXT_BLANK                             L" "
117 #define  TEXT_RETURN_LINEFEED   L"\r\n"
118 #define  TEXT_LINEFEED                  L"\n"
119 #define  TEXT_CHARRATIO_GAPDELTA        0.070
120 CPDF_TextPage::CPDF_TextPage(const CPDF_Page* pPage, int flags)
121     : m_charList(512),
122       m_TempCharList(50),
123       m_pPreTextObj(NULL),
124       m_IsParsered(FALSE),
125       m_TextlineDir(-1),
126       m_CurlineRect(0, 0, 0, 0)
127 {
128     m_pPage = pPage;
129     m_parserflag = flags;
130     m_TextBuf.EstimateSize(0, 10240);
131     pPage->GetDisplayMatrix(m_DisplayMatrix, 0, 0, (int) pPage->GetPageWidth(), (int)pPage->GetPageHeight(), 0);
132 }
133 CPDF_TextPage::CPDF_TextPage(const CPDF_Page* pPage, CPDFText_ParseOptions ParserOptions)
134     : m_ParseOptions(ParserOptions)
135     , m_charList(512)
136     , m_TempCharList(50)
137     , m_pPreTextObj(NULL)
138     , m_IsParsered(FALSE)
139     , m_TextlineDir(-1)
140     , m_CurlineRect(0, 0, 0, 0)
141 {
142     m_pPage = pPage;
143     m_parserflag = 0;
144     m_TextBuf.EstimateSize(0, 10240);
145     pPage->GetDisplayMatrix(m_DisplayMatrix, 0, 0, (int) pPage->GetPageWidth(), (int)pPage->GetPageHeight(), 0);
146 }
147 CPDF_TextPage::CPDF_TextPage(const CPDF_PageObjects* pPage, int flags)
148     : m_charList(512),
149       m_TempCharList(50),
150       m_pPreTextObj(NULL),
151       m_IsParsered(FALSE),
152       m_TextlineDir(-1),
153       m_CurlineRect(0, 0, 0, 0)
154 {
155     m_pPage = pPage;
156     m_parserflag = flags;
157     m_TextBuf.EstimateSize(0, 10240);
158     CFX_FloatRect pageRect = pPage->CalcBoundingBox();
159     m_DisplayMatrix = CFX_AffineMatrix(1, 0, 0, -1, pageRect.right, pageRect.top);
160 }
161 void CPDF_TextPage::NormalizeObjects(FX_BOOL bNormalize)
162 {
163     m_ParseOptions.m_bNormalizeObjs = bNormalize;
164 }
165 FX_BOOL CPDF_TextPage::IsControlChar(PAGECHAR_INFO* pCharInfo)
166 {
167     if(!pCharInfo) {
168         return FALSE;
169     }
170     switch(pCharInfo->m_Unicode) {
171         case 0x2:
172         case 0x3:
173         case 0x93:
174         case 0x94:
175         case 0x96:
176         case 0x97:
177         case 0x98:
178         case 0xfffe:
179             if(pCharInfo->m_Flag == FPDFTEXT_CHAR_HYPHEN) {
180                 return FALSE;
181             } else {
182                 return TRUE;
183             }
184         default:
185             return FALSE;
186     }
187 }
188 FX_BOOL CPDF_TextPage::ParseTextPage()
189 {
190     if (!m_pPage) {
191         m_IsParsered = FALSE;
192         return FALSE;
193     }
194     m_IsParsered = FALSE;
195     m_TextBuf.Clear();
196     m_charList.RemoveAll();
197     m_pPreTextObj = NULL;
198     ProcessObject();
199     m_IsParsered = TRUE;
200     if(!m_ParseOptions.m_bGetCharCodeOnly) {
201         m_CharIndex.RemoveAll();
202         int nCount = m_charList.GetSize();
203         if(nCount) {
204             m_CharIndex.Add(0);
205         }
206         for(int i = 0; i < nCount; i++) {
207             int indexSize = m_CharIndex.GetSize();
208             FX_BOOL bNormal = FALSE;
209             PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(i);
210             if(charinfo.m_Flag == FPDFTEXT_CHAR_GENERATED) {
211                 bNormal = TRUE;
212             }
213             else if(charinfo.m_Unicode == 0 || IsControlChar(&charinfo))
214                 bNormal = FALSE;
215             else {
216                 bNormal = TRUE;
217             }
218             if(bNormal) {
219                 if(indexSize % 2) {
220                     m_CharIndex.Add(1);
221                 } else {
222                     if(indexSize <= 0) {
223                         continue;
224                     }
225                     m_CharIndex.SetAt(indexSize - 1, m_CharIndex.GetAt(indexSize - 1) + 1);
226                 }
227             } else {
228                 if(indexSize % 2) {
229                     if(indexSize <= 0) {
230                         continue;
231                     }
232                     m_CharIndex.SetAt(indexSize - 1, i + 1);
233                 } else {
234                     m_CharIndex.Add(i + 1);
235                 }
236             }
237         }
238         int indexSize = m_CharIndex.GetSize();
239         if(indexSize % 2) {
240             m_CharIndex.RemoveAt(indexSize - 1);
241         }
242     }
243     return TRUE;
244 }
245 int     CPDF_TextPage::CountChars() const
246 {
247     if(m_ParseOptions.m_bGetCharCodeOnly) {
248         return m_TextBuf.GetSize();
249     }
250     return m_charList.GetSize();
251 }
252 int CPDF_TextPage::CharIndexFromTextIndex(int TextIndex) const
253 {
254     int indexSize = m_CharIndex.GetSize();
255     int count = 0;
256     for(int i = 0; i < indexSize; i += 2) {
257         count += m_CharIndex.GetAt(i + 1);
258         if(count > TextIndex) {
259             return      TextIndex - count + m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i);
260         }
261     }
262     return -1;
263 }
264 int CPDF_TextPage::TextIndexFromCharIndex(int CharIndex) const
265 {
266     int indexSize = m_CharIndex.GetSize();
267     int count = 0;
268     for(int i = 0; i < indexSize; i += 2) {
269         count += m_CharIndex.GetAt(i + 1);
270         if(m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i) > CharIndex) {
271             if(CharIndex - m_CharIndex.GetAt(i) < 0) {
272                 return -1;
273             }
274             return      CharIndex - m_CharIndex.GetAt(i) + count - m_CharIndex.GetAt(i + 1);
275         }
276     }
277     return -1;
278 }
279 void CPDF_TextPage::GetRectArray(int start, int nCount, CFX_RectArray& rectArray) const
280 {
281     if(m_ParseOptions.m_bGetCharCodeOnly) {
282         return;
283     }
284     if(start < 0 || nCount == 0) {
285         return;
286     }
287     if (!m_IsParsered)  {
288         return;
289     }
290     PAGECHAR_INFO               info_curchar;
291     CPDF_TextObject*    pCurObj = NULL;
292     CFX_FloatRect               rect;
293     int                                 curPos = start;
294     FX_BOOL                             flagNewRect = TRUE;
295     if (nCount + start > m_charList.GetSize() || nCount == -1) {
296         nCount = m_charList.GetSize() - start;
297     }
298     while (nCount--) {
299         info_curchar = *(PAGECHAR_INFO*)m_charList.GetAt(curPos++);
300         if (info_curchar.m_Flag == FPDFTEXT_CHAR_GENERATED) {
301             continue;
302         }
303         if(info_curchar.m_CharBox.Width() < 0.01 || info_curchar.m_CharBox.Height() < 0.01) {
304             continue;
305         }
306         if(!pCurObj) {
307             pCurObj = info_curchar.m_pTextObj;
308         }
309         if (pCurObj != info_curchar.m_pTextObj) {
310             rectArray.Add(rect);
311             pCurObj = info_curchar.m_pTextObj;
312             flagNewRect = TRUE;
313         }
314         if (flagNewRect) {
315             FX_FLOAT orgX = info_curchar.m_OriginX, orgY = info_curchar.m_OriginY;
316             CFX_AffineMatrix matrix, matrix_reverse;
317             info_curchar.m_pTextObj->GetTextMatrix(&matrix);
318             matrix.Concat(info_curchar.m_Matrix);
319             matrix_reverse.SetReverse(matrix);
320             matrix_reverse.Transform(orgX, orgY);
321             rect.left = info_curchar.m_CharBox.left;
322             rect.right = info_curchar.m_CharBox.right;
323             if (pCurObj->GetFont()->GetTypeDescent()) {
324                 rect.bottom = orgY + pCurObj->GetFont()->GetTypeDescent() * pCurObj->GetFontSize() / 1000;
325                 FX_FLOAT xPosTemp = orgX;
326                 matrix.Transform(xPosTemp, rect.bottom);
327             } else {
328                 rect.bottom = info_curchar.m_CharBox.bottom;
329             }
330             if (pCurObj->GetFont()->GetTypeAscent()) {
331                 rect.top = orgY + pCurObj->GetFont()->GetTypeAscent() * pCurObj->GetFontSize() / 1000;
332                 FX_FLOAT xPosTemp = orgX + GetCharWidth(info_curchar.m_CharCode, pCurObj->GetFont()) * pCurObj->GetFontSize() / 1000;
333                 matrix.Transform(xPosTemp, rect.top);
334             } else {
335                 rect.top = info_curchar.m_CharBox.top;
336             }
337             flagNewRect = FALSE;
338             rect = info_curchar.m_CharBox;
339             rect.Normalize();
340         } else {
341             info_curchar.m_CharBox.Normalize();
342             if (rect.left > info_curchar.m_CharBox.left) {
343                 rect.left = info_curchar.m_CharBox.left;
344             }
345             if (rect.right < info_curchar.m_CharBox.right) {
346                 rect.right = info_curchar.m_CharBox.right;
347             }
348             if ( rect.top < info_curchar.m_CharBox.top) {
349                 rect.top = info_curchar.m_CharBox.top;
350             }
351             if (rect.bottom > info_curchar.m_CharBox.bottom) {
352                 rect.bottom = info_curchar.m_CharBox.bottom;
353             }
354         }
355     }
356     rectArray.Add(rect);
357     return;
358 }
359 int CPDF_TextPage::GetIndexAtPos(CPDF_Point point , FX_FLOAT xTorelance, FX_FLOAT yTorelance) const
360 {
361     if(m_ParseOptions.m_bGetCharCodeOnly) {
362         return -3;
363     }
364     if (!m_IsParsered)  {
365         return  -3;
366     }
367     int pos = 0;
368     int NearPos = -1;
369     double xdif = 5000, ydif = 5000;
370     while(pos < m_charList.GetSize()) {
371         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)(m_charList.GetAt(pos));
372         CFX_FloatRect charrect = charinfo.m_CharBox;
373         if (charrect.Contains(point.x, point.y)) {
374             break;
375         }
376         if (xTorelance > 0 || yTorelance > 0) {
377             CFX_FloatRect charRectExt;
378             charrect.Normalize();
379             charRectExt.left = charrect.left - xTorelance / 2;
380             charRectExt.right = charrect.right + xTorelance / 2;
381             charRectExt.top = charrect.top + yTorelance / 2;
382             charRectExt.bottom = charrect.bottom - yTorelance / 2;
383             if (charRectExt.Contains(point.x, point.y)) {
384                 double curXdif, curYdif;
385                 curXdif = FXSYS_fabs(point.x - charrect.left) < FXSYS_fabs(point.x - charrect.right) ? FXSYS_fabs(point.x - charrect.left) : FXSYS_fabs(point.x - charrect.right);
386                 curYdif = FXSYS_fabs(point.y - charrect.bottom) < FXSYS_fabs(point.y - charrect.top     ) ? FXSYS_fabs(point.y - charrect.bottom) : FXSYS_fabs(point.y - charrect.top);
387                 if (curYdif + curXdif < xdif + ydif) {
388                     ydif = curYdif;
389                     xdif = curXdif;
390                     NearPos = pos;
391                 }
392             }
393         }
394         ++pos;
395     }
396     if (pos >= m_charList.GetSize()) {
397         pos = NearPos;
398     }
399     return pos;
400 }
401 CFX_WideString CPDF_TextPage::GetTextByRect(const CFX_FloatRect& rect) const
402 {
403     CFX_WideString strText;
404     if(m_ParseOptions.m_bGetCharCodeOnly || !m_IsParsered) {
405         return strText;
406     }
407     int nCount = m_charList.GetSize();
408     int pos = 0;
409     FX_FLOAT posy = 0;
410     FX_BOOL IsContainPreChar = FALSE;
411     FX_BOOL     ISAddLineFeed = FALSE;
412     while (pos < nCount) {
413         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(pos++);
414         if (IsRectIntersect(rect, charinfo.m_CharBox)) {
415             if (FXSYS_fabs(posy - charinfo.m_OriginY) > 0 && !IsContainPreChar && ISAddLineFeed) {
416                 posy = charinfo.m_OriginY;
417                 if (strText.GetLength() > 0) {
418                     strText += L"\r\n";
419                 }
420             }
421             IsContainPreChar = TRUE;
422             ISAddLineFeed = FALSE;
423             if (charinfo.m_Unicode) {
424                 strText += charinfo.m_Unicode;
425             }
426         } else if (charinfo.m_Unicode == 32) {
427             if (IsContainPreChar && charinfo.m_Unicode) {
428                 strText += charinfo.m_Unicode;
429                 IsContainPreChar = FALSE;
430                 ISAddLineFeed = FALSE;
431             }
432         } else {
433             IsContainPreChar = FALSE;
434             ISAddLineFeed = TRUE;
435         }
436     }
437     return strText;
438 }
439 void CPDF_TextPage::GetRectsArrayByRect(const CFX_FloatRect& rect, CFX_RectArray& resRectArray) const
440 {
441     if(m_ParseOptions.m_bGetCharCodeOnly) {
442         return;
443     }
444     if (!m_IsParsered)  {
445         return;
446     }
447     CFX_FloatRect               curRect;
448     FX_BOOL                             flagNewRect = TRUE;
449     CPDF_TextObject*    pCurObj = NULL;
450     int nCount = m_charList.GetSize();
451     int pos = 0;
452     while (pos < nCount) {
453         PAGECHAR_INFO info_curchar = *(PAGECHAR_INFO*)m_charList.GetAt(pos++);
454         if (info_curchar.m_Flag == FPDFTEXT_CHAR_GENERATED) {
455             continue;
456         }
457         if (IsRectIntersect(rect, info_curchar.m_CharBox)) {
458             if(!pCurObj) {
459                 pCurObj = info_curchar.m_pTextObj;
460             }
461             if (pCurObj != info_curchar.m_pTextObj) {
462                 resRectArray.Add(curRect);
463                 pCurObj = info_curchar.m_pTextObj;
464                 flagNewRect = TRUE;
465             }
466             if (flagNewRect) {
467                 curRect = info_curchar.m_CharBox;
468                 flagNewRect = FALSE;
469                 curRect.Normalize();
470             } else {
471                 info_curchar.m_CharBox.Normalize();
472                 if (curRect.left > info_curchar.m_CharBox.left) {
473                     curRect.left = info_curchar.m_CharBox.left;
474                 }
475                 if (curRect.right < info_curchar.m_CharBox.right) {
476                     curRect.right = info_curchar.m_CharBox.right;
477                 }
478                 if ( curRect.top < info_curchar.m_CharBox.top) {
479                     curRect.top = info_curchar.m_CharBox.top;
480                 }
481                 if (curRect.bottom > info_curchar.m_CharBox.bottom) {
482                     curRect.bottom = info_curchar.m_CharBox.bottom;
483                 }
484             }
485         }
486     }
487     resRectArray.Add(curRect);
488     return;
489 }
490 int     CPDF_TextPage::GetIndexAtPos(FX_FLOAT x, FX_FLOAT y, FX_FLOAT xTorelance, FX_FLOAT yTorelance) const
491 {
492     if(m_ParseOptions.m_bGetCharCodeOnly) {
493         return -3;
494     }
495     CPDF_Point point(x, y);
496     return GetIndexAtPos(point, xTorelance, yTorelance);
497 }
498 int CPDF_TextPage::GetOrderByDirection(int order, int direction) const
499 {
500     if(m_ParseOptions.m_bGetCharCodeOnly) {
501         return -3;
502     }
503     if (!m_IsParsered) {
504         return -3;
505     }
506     if (direction == FPDFTEXT_RIGHT || direction == FPDFTEXT_LEFT) {
507         order += direction;
508         while(order >= 0 && order < m_charList.GetSize()) {
509             PAGECHAR_INFO cinfo = *(PAGECHAR_INFO*)m_charList.GetAt(order);
510             if (cinfo.m_Flag != FPDFTEXT_CHAR_GENERATED) {
511                 break;
512             } else {
513                 if (cinfo.m_Unicode == TEXT_LINEFEED_CHAR || cinfo.m_Unicode == TEXT_RETURN_CHAR) {
514                     order += direction;
515                 } else {
516                     break;
517                 }
518             }
519         }
520         if (order >= m_charList.GetSize()) {
521             order = -2;
522         }
523         return order;
524     }
525     PAGECHAR_INFO charinfo;
526     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(order);
527     CPDF_Point curPos(charinfo.m_OriginX, charinfo.m_OriginY);
528     FX_FLOAT difPosY = 0.0, minXdif = 1000;
529     int minIndex = -2;
530     int index = order;
531     FX_FLOAT height = charinfo.m_CharBox.Height();
532     if (direction == FPDFTEXT_UP) {
533         minIndex = -1;
534         while (1) {
535             if (--index < 0)    {
536                 return -1;
537             }
538             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
539             if (FXSYS_fabs(charinfo.m_OriginY - curPos.y) > FX_MAX(height, charinfo.m_CharBox.Height()) / 2) {
540                 difPosY = charinfo.m_OriginY;
541                 minIndex = index;
542                 break;
543             }
544         }
545         FX_FLOAT PreXdif = charinfo.m_OriginX - curPos.x;
546         minXdif = PreXdif;
547         if (PreXdif == 0)       {
548             return index;
549         }
550         FX_FLOAT curXdif = 0;
551         while (--index >= 0) {
552             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
553             if (difPosY != charinfo.m_OriginY) {
554                 break;
555             }
556             curXdif = charinfo.m_OriginX - curPos.x;
557             if (curXdif == 0) {
558                 return index;
559             }
560             int signflag = 0;
561             if (curXdif > 0) {
562                 signflag = 1;
563             } else {
564                 signflag = -1;
565             }
566             if (signflag * PreXdif < 0) {
567                 if (FXSYS_fabs(PreXdif) < FXSYS_fabs(curXdif)) {
568                     return index + 1;
569                 } else {
570                     return index;
571                 }
572             }
573             if (FXSYS_fabs(curXdif) < FXSYS_fabs(minXdif)) {
574                 minIndex = index;
575                 minXdif = curXdif;
576             }
577             PreXdif = curXdif;
578             if (difPosY != charinfo.m_OriginY) {
579                 break;
580             }
581         }
582         return minIndex;
583     } else if(FPDFTEXT_DOWN) {
584         minIndex = -2;
585         while (1) {
586             if (++index > m_charList.GetSize() - 1)     {
587                 return minIndex;
588             }
589             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
590             if (FXSYS_fabs(charinfo.m_OriginY - curPos.y) > FX_MAX(height, charinfo.m_CharBox.Height()) / 2) {
591                 difPosY = charinfo.m_OriginY;
592                 minIndex = index;
593                 break;
594             }
595         }
596         FX_FLOAT PreXdif = charinfo.m_OriginX - curPos.x;
597         minXdif = PreXdif;
598         if (PreXdif == 0)       {
599             return index;
600         }
601         FX_FLOAT curXdif = 0;
602         while (++index < m_charList.GetSize()) {
603             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
604             if (difPosY != charinfo.m_OriginY) {
605                 break;
606             }
607             curXdif = charinfo.m_OriginX - curPos.x;
608             if (curXdif == 0) {
609                 return index;
610             }
611             int signflag = 0;
612             if (curXdif > 0) {
613                 signflag = 1;
614             } else {
615                 signflag = -1;
616             }
617             if (signflag * PreXdif < 0) {
618                 if (FXSYS_fabs(PreXdif) < FXSYS_fabs(curXdif)) {
619                     return index - 1;
620                 } else {
621                     return index;
622                 }
623             }
624             if (FXSYS_fabs(curXdif) < FXSYS_fabs(minXdif)) {
625                 minXdif = curXdif;
626                 minIndex = index;
627             }
628             PreXdif = curXdif;
629         }
630         return minIndex;
631     }
632 }
633 void CPDF_TextPage::GetCharInfo(int index, FPDF_CHAR_INFO & info) const
634 {
635     if(m_ParseOptions.m_bGetCharCodeOnly) {
636         return;
637     }
638     if (!m_IsParsered)  {
639         return;
640     }
641     if (index < 0 || index >= m_charList.GetSize())     {
642         return;
643     }
644     PAGECHAR_INFO charinfo;
645     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
646     info.m_Charcode = charinfo.m_CharCode;
647     info.m_OriginX = charinfo.m_OriginX;
648     info.m_OriginY = charinfo.m_OriginY;
649     info.m_Unicode = charinfo.m_Unicode;
650     info.m_Flag = charinfo.m_Flag;
651     info.m_CharBox = charinfo.m_CharBox;
652     info.m_pTextObj = charinfo.m_pTextObj;
653     if (charinfo.m_pTextObj && charinfo.m_pTextObj->GetFont()) {
654         info.m_FontSize = charinfo.m_pTextObj->GetFontSize();
655     }
656     info.m_Matrix.Copy(charinfo.m_Matrix);
657     return;
658 }
659 void CPDF_TextPage::CheckMarkedContentObject(int32_t& start, int32_t& nCount) const
660 {
661     PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start);
662     PAGECHAR_INFO charinfo2 = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - 1);
663     if (FPDFTEXT_CHAR_PIECE != charinfo.m_Flag && FPDFTEXT_CHAR_PIECE != charinfo2.m_Flag) {
664         return;
665     }
666     if (FPDFTEXT_CHAR_PIECE == charinfo.m_Flag) {
667         PAGECHAR_INFO charinfo1 = charinfo;
668         int startIndex = start;
669         while(FPDFTEXT_CHAR_PIECE == charinfo1.m_Flag && charinfo1.m_Index == charinfo.m_Index) {
670             startIndex--;
671             if (startIndex < 0) {
672                 break;
673             }
674             charinfo1 = *(PAGECHAR_INFO*)m_charList.GetAt(startIndex);
675         }
676         startIndex++;
677         start = startIndex;
678     }
679     if (FPDFTEXT_CHAR_PIECE == charinfo2.m_Flag) {
680         PAGECHAR_INFO charinfo3 = charinfo2;
681         int endIndex = start + nCount - 1;
682         while(FPDFTEXT_CHAR_PIECE == charinfo3.m_Flag && charinfo3.m_Index == charinfo2.m_Index) {
683             endIndex++;
684             if (endIndex >= m_charList.GetSize())       {
685                 break;
686             }
687             charinfo3 = *(PAGECHAR_INFO*)m_charList.GetAt(endIndex);
688         }
689         endIndex--;
690         nCount = endIndex - start + 1;
691     }
692 }
693 CFX_WideString CPDF_TextPage::GetPageText(int start , int nCount) const
694 {
695     if (!m_IsParsered || nCount == 0) {
696         return L"";
697     }
698     if (start < 0) {
699         start = 0;
700     }
701     if  (nCount == -1) {
702         nCount = m_charList.GetSize() - start;
703         return m_TextBuf.GetWideString().Mid(start, m_TextBuf.GetWideString().GetLength());
704     }
705     if(nCount <= 0 || m_charList.GetSize() <= 0) {
706         return L"";
707     }
708     if(nCount + start > m_charList.GetSize() - 1) {
709         nCount = m_charList.GetSize() - start;
710     }
711     if (nCount <= 0) {
712         return L"";
713     }
714     CheckMarkedContentObject(start, nCount);
715     int startindex = 0;
716     PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start);
717     int startOffset = 0;
718     while(charinfo.m_Index == -1) {
719         startOffset++;
720         if (startOffset > nCount || start + startOffset >= m_charList.GetSize())        {
721             return L"";
722         }
723         charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + startOffset);
724     }
725     startindex = charinfo.m_Index;
726     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - 1);
727     int nCountOffset = 0;
728     while (charinfo.m_Index == -1) {
729         nCountOffset++;
730         if (nCountOffset >= nCount) {
731             return L"";
732         }
733         charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - nCountOffset - 1);
734     }
735     nCount = start + nCount - nCountOffset - startindex;
736     if(nCount <= 0) {
737         return L"";
738     }
739     return m_TextBuf.GetWideString().Mid(startindex, nCount);
740 }
741 int CPDF_TextPage::CountRects(int start, int nCount)
742 {
743     if(m_ParseOptions.m_bGetCharCodeOnly) {
744         return -1;
745     }
746     if (!m_IsParsered)  {
747         return -1;
748     }
749     if (start < 0) {
750         return -1;
751     }
752     if (nCount == -1 || nCount + start > m_charList.GetSize() ) {
753         nCount = m_charList.GetSize() - start;
754     }
755     m_SelRects.RemoveAll();
756     GetRectArray(start, nCount, m_SelRects);
757     return m_SelRects.GetSize();
758 }
759 void CPDF_TextPage::GetRect(int rectIndex, FX_FLOAT& left, FX_FLOAT& top, FX_FLOAT& right, FX_FLOAT &bottom) const
760 {
761     if(m_ParseOptions.m_bGetCharCodeOnly) {
762         return ;
763     }
764     if (!m_IsParsered || rectIndex < 0 || rectIndex >= m_SelRects.GetSize()) {
765         return;
766     }
767     left = m_SelRects.GetAt(rectIndex).left;
768     top = m_SelRects.GetAt(rectIndex).top;
769     right = m_SelRects.GetAt(rectIndex).right;
770     bottom = m_SelRects.GetAt(rectIndex).bottom;
771 }
772 FX_BOOL CPDF_TextPage::GetBaselineRotate(int start, int end, int& Rotate)
773 {
774     if(m_ParseOptions.m_bGetCharCodeOnly) {
775         return FALSE;
776     }
777     if(end == start) {
778         return FALSE;
779     }
780     FX_FLOAT dx, dy;
781     FPDF_CHAR_INFO info1, info2;
782     GetCharInfo(start, info1);
783     GetCharInfo(end, info2);
784     while(info2.m_CharBox.Width() == 0 || info2.m_CharBox.Height() == 0) {
785         end--;
786         if(end <= start) {
787             return FALSE;
788         }
789         GetCharInfo(end, info2);
790     }
791     dx = (info2.m_OriginX - info1.m_OriginX);
792     dy = (info2.m_OriginY - info1.m_OriginY);
793     if(dx == 0) {
794         if(dy > 0) {
795             Rotate = 90;
796         } else if (dy < 0) {
797             Rotate = 270;
798         } else {
799             Rotate = 0;
800         }
801     } else {
802         float a = FXSYS_atan2(dy, dx);
803         Rotate = (int)(a * 180 / FX_PI + 0.5);
804     }
805     if(Rotate < 0) {
806         Rotate = -Rotate;
807     } else if(Rotate > 0) {
808         Rotate = 360 - Rotate;
809     }
810     return TRUE;
811 }
812 FX_BOOL CPDF_TextPage::GetBaselineRotate(const CFX_FloatRect& rect , int& Rotate)
813 {
814     if(m_ParseOptions.m_bGetCharCodeOnly) {
815         return FALSE;
816     }
817     int start, end, count, n = CountBoundedSegments(rect.left, rect.top, rect.right, rect.bottom, TRUE);
818     if(n < 1) {
819         return FALSE;
820     }
821     if(n > 1) {
822         GetBoundedSegment(n - 1, start, count);
823         end = start + count - 1;
824         GetBoundedSegment(0, start, count);
825     } else {
826         GetBoundedSegment(0, start, count);
827         end = start + count - 1;
828     }
829     return GetBaselineRotate(start, end, Rotate);
830 }
831 FX_BOOL CPDF_TextPage::GetBaselineRotate(int rectIndex, int& Rotate)
832 {
833     if(m_ParseOptions.m_bGetCharCodeOnly) {
834         return FALSE;
835     }
836     if (!m_IsParsered || rectIndex < 0 || rectIndex > m_SelRects.GetSize()) {
837         return FALSE;
838     }
839     CFX_FloatRect rect = m_SelRects.GetAt(rectIndex);
840     return GetBaselineRotate(rect , Rotate);
841 }
842 int     CPDF_TextPage::CountBoundedSegments(FX_FLOAT left, FX_FLOAT top, FX_FLOAT right, FX_FLOAT bottom, FX_BOOL bContains )
843 {
844     if(m_ParseOptions.m_bGetCharCodeOnly) {
845         return -1;
846     }
847     m_Segment.RemoveAll();
848     if (!m_IsParsered)  {
849         return -1;
850     }
851     CFX_FloatRect rect(left, bottom, right, top);
852     rect.Normalize();
853     int nCount = m_charList.GetSize();
854     int pos = 0;
855     FPDF_SEGMENT        segment;
856     segment.m_Start = 0;
857     segment.m_nCount = 0;
858     FX_BOOL             segmentStatus = 0;
859     FX_BOOL             IsContainPreChar = FALSE;
860     while (pos < nCount) {
861         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(pos);
862         if(bContains && rect.Contains(charinfo.m_CharBox)) {
863             if (segmentStatus == 0 || segmentStatus == 2) {
864                 segment.m_Start = pos;
865                 segment.m_nCount = 1;
866                 segmentStatus = 1;
867             } else if (segmentStatus == 1) {
868                 segment.m_nCount++;
869             }
870             IsContainPreChar = TRUE;
871         } else if (!bContains && (IsRectIntersect(rect, charinfo.m_CharBox) || rect.Contains(charinfo.m_OriginX, charinfo.m_OriginY))) {
872             if (segmentStatus == 0 || segmentStatus == 2) {
873                 segment.m_Start = pos;
874                 segment.m_nCount = 1;
875                 segmentStatus = 1;
876             } else if (segmentStatus == 1) {
877                 segment.m_nCount++;
878             }
879             IsContainPreChar = TRUE;
880         } else if (charinfo.m_Unicode == 32) {
881             if (IsContainPreChar == TRUE) {
882                 if (segmentStatus == 0 || segmentStatus == 2) {
883                     segment.m_Start = pos;
884                     segment.m_nCount = 1;
885                     segmentStatus = 1;
886                 } else if (segmentStatus == 1) {
887                     segment.m_nCount++;
888                 }
889                 IsContainPreChar = FALSE;
890             } else {
891                 if (segmentStatus == 1) {
892                     segmentStatus = 2;
893                     m_Segment.Add(segment);
894                     segment.m_Start = 0;
895                     segment.m_nCount = 0;
896                 }
897             }
898         } else {
899             if (segmentStatus == 1) {
900                 segmentStatus = 2;
901                 m_Segment.Add(segment);
902                 segment.m_Start = 0;
903                 segment.m_nCount = 0;
904             }
905             IsContainPreChar = FALSE;
906         }
907         pos++;
908     }
909     if (segmentStatus == 1) {
910         segmentStatus = 2;
911         m_Segment.Add(segment);
912         segment.m_Start = 0;
913         segment.m_nCount = 0;
914     }
915     return m_Segment.GetSize();
916 }
917 void CPDF_TextPage::GetBoundedSegment(int index, int& start, int& count) const
918 {
919     if(m_ParseOptions.m_bGetCharCodeOnly) {
920         return ;
921     }
922     if (index < 0 || index >= m_Segment.GetSize()) {
923         return;
924     }
925     start = m_Segment.GetAt(index).m_Start;
926     count = m_Segment.GetAt(index).m_nCount;
927 }
928 int CPDF_TextPage::GetWordBreak(int index, int direction) const
929 {
930     if(m_ParseOptions.m_bGetCharCodeOnly) {
931         return -1;
932     }
933     if (!m_IsParsered)  {
934         return -1;
935     }
936     if (direction != FPDFTEXT_LEFT && direction != FPDFTEXT_RIGHT) {
937         return -1;
938     }
939     if (index < 0 || index >= m_charList.GetSize()) {
940         return -1;
941     }
942     PAGECHAR_INFO charinfo;
943     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
944     if (charinfo.m_Index == -1 || charinfo.m_Flag == FPDFTEXT_CHAR_GENERATED)   {
945         return index;
946     }
947     if (!IsLetter(charinfo.m_Unicode)) {
948         return index;
949     }
950     int breakPos = index;
951     if (direction == FPDFTEXT_LEFT) {
952         while (--breakPos > 0) {
953             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(breakPos);
954             if (!IsLetter(charinfo.m_Unicode)) {
955                 return breakPos;
956             }
957         }
958         return breakPos;
959     } else if (direction == FPDFTEXT_RIGHT) {
960         while (++breakPos < m_charList.GetSize()) {
961             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(breakPos);
962             if (!IsLetter(charinfo.m_Unicode)) {
963                 return breakPos;
964             }
965         }
966         return breakPos;
967     }
968     return breakPos;
969 }
970 int32_t CPDF_TextPage::FindTextlineFlowDirection()
971 {
972     if (!m_pPage)       {
973         return -1;
974     }
975     const int32_t nPageWidth = (int32_t)((CPDF_Page*)m_pPage)->GetPageWidth();
976     const int32_t nPageHeight = (int32_t)((CPDF_Page*)m_pPage)->GetPageHeight();
977     CFX_ByteArray nHorizontalMask;
978     if (!nHorizontalMask.SetSize(nPageWidth)) {
979         return -1;
980     }
981     uint8_t* pDataH = nHorizontalMask.GetData();
982     CFX_ByteArray nVerticalMask;
983     if (!nVerticalMask.SetSize(nPageHeight)) {
984         return -1;
985     }
986     uint8_t* pDataV = nVerticalMask.GetData();
987     int32_t index = 0;
988     FX_FLOAT fLineHeight = 0.0f;
989     CPDF_PageObject* pPageObj = NULL;
990     FX_POSITION pos = NULL;
991     pos = m_pPage->GetFirstObjectPosition();
992     if(!pos) {
993         return -1;
994     }
995     while(pos) {
996         pPageObj = m_pPage->GetNextObject(pos);
997         if(NULL == pPageObj) {
998             continue;
999         }
1000         if(PDFPAGE_TEXT != pPageObj->m_Type) {
1001             continue;
1002         }
1003         int32_t minH = (int32_t)pPageObj->m_Left < 0 ? 0 : (int32_t)pPageObj->m_Left;
1004         int32_t maxH = (int32_t)pPageObj->m_Right > nPageWidth ? nPageWidth : (int32_t)pPageObj->m_Right;
1005         int32_t minV = (int32_t)pPageObj->m_Bottom < 0 ? 0 : (int32_t)pPageObj->m_Bottom;
1006         int32_t maxV = (int32_t)pPageObj->m_Top > nPageHeight ? nPageHeight : (int32_t)pPageObj->m_Top;
1007         if (minH >= maxH || minV >= maxV) {
1008             continue;
1009         }
1010         FXSYS_memset(pDataH + minH, 1, maxH - minH);
1011         FXSYS_memset(pDataV + minV, 1, maxV - minV);
1012         if (fLineHeight <= 0.0f) {
1013             fLineHeight = pPageObj->m_Top - pPageObj->m_Bottom;
1014         }
1015         pPageObj = NULL;
1016     }
1017     int32_t nStartH = 0;
1018     int32_t nEndH = 0;
1019     FX_FLOAT nSumH = 0.0f;
1020     for (index = 0; index < nPageWidth; index++)
1021         if(1 == nHorizontalMask[index]) {
1022             break;
1023         }
1024     nStartH = index;
1025     for (index = nPageWidth; index > 0; index--)
1026         if(1 == nHorizontalMask[index - 1]) {
1027             break;
1028         }
1029     nEndH = index;
1030     for (index = nStartH; index < nEndH; index++) {
1031         nSumH += nHorizontalMask[index];
1032     }
1033     nSumH /= nEndH - nStartH;
1034     int32_t nStartV = 0;
1035     int32_t nEndV = 0;
1036     FX_FLOAT nSumV = 0.0f;
1037     for (index = 0; index < nPageHeight; index++)
1038         if(1 == nVerticalMask[index]) {
1039             break;
1040         }
1041     nStartV = index;
1042     for (index = nPageHeight; index > 0; index--)
1043         if(1 == nVerticalMask[index - 1]) {
1044             break;
1045         }
1046     nEndV = index;
1047     for (index = nStartV; index < nEndV; index++) {
1048         nSumV += nVerticalMask[index];
1049     }
1050     nSumV /= nEndV - nStartV;
1051     if ((nEndV - nStartV) < (int32_t)(2 * fLineHeight)) {
1052         return 0;
1053     }
1054     if ((nEndH - nStartH) < (int32_t)(2 * fLineHeight)) {
1055         return 1;
1056     }
1057     if (nSumH > 0.8f) {
1058         return 0;
1059     }
1060     if (nSumH - nSumV > 0.0f) {
1061         return 0;
1062     }
1063     if (nSumV - nSumH > 0.0f) {
1064         return 1;
1065     }
1066     return -1;
1067 }
1068 void CPDF_TextPage::ProcessObject()
1069 {
1070     CPDF_PageObject*    pPageObj = NULL;
1071     if (!m_pPage)       {
1072         return;
1073     }
1074     FX_POSITION pos;
1075     pos = m_pPage->GetFirstObjectPosition();
1076     if (!pos)   {
1077         return;
1078     }
1079     m_TextlineDir = FindTextlineFlowDirection();
1080     int nCount = 0;
1081     while (pos) {
1082         pPageObj = m_pPage->GetNextObject(pos);
1083         if(pPageObj) {
1084             if(pPageObj->m_Type == PDFPAGE_TEXT) {
1085                 CFX_AffineMatrix matrix;
1086                 ProcessTextObject((CPDF_TextObject*)pPageObj, matrix, pos);
1087                 nCount++;
1088             } else if (pPageObj->m_Type == PDFPAGE_FORM) {
1089                 CFX_AffineMatrix formMatrix(1, 0, 0, 1, 0, 0);
1090                 ProcessFormObject((CPDF_FormObject*)pPageObj, formMatrix);
1091             }
1092         }
1093         pPageObj = NULL;
1094     }
1095     int count = m_LineObj.GetSize();
1096     for(int i = 0; i < count; i++) {
1097         ProcessTextObject(m_LineObj.GetAt(i));
1098     }
1099     m_LineObj.RemoveAll();
1100     CloseTempLine();
1101 }
1102 void CPDF_TextPage::ProcessFormObject(CPDF_FormObject* pFormObj, const CFX_AffineMatrix& formMatrix)
1103 {
1104     CPDF_PageObject*    pPageObj = NULL;
1105     FX_POSITION pos;
1106     if (!pFormObj)      {
1107         return;
1108     }
1109     pos = pFormObj->m_pForm->GetFirstObjectPosition();
1110     if (!pos)   {
1111         return;
1112     }
1113     CFX_AffineMatrix curFormMatrix;
1114     curFormMatrix.Copy(pFormObj->m_FormMatrix);
1115     curFormMatrix.Concat(formMatrix);
1116     while (pos) {
1117         pPageObj = pFormObj->m_pForm->GetNextObject(pos);
1118         if(pPageObj) {
1119             if(pPageObj->m_Type == PDFPAGE_TEXT) {
1120                 ProcessTextObject((CPDF_TextObject*)pPageObj, curFormMatrix, pos);
1121             } else if (pPageObj->m_Type == PDFPAGE_FORM) {
1122                 ProcessFormObject((CPDF_FormObject*)pPageObj, curFormMatrix);
1123             }
1124         }
1125         pPageObj = NULL;
1126     }
1127 }
1128 int CPDF_TextPage::GetCharWidth(FX_DWORD charCode, CPDF_Font* pFont) const
1129 {
1130     if(charCode == -1) {
1131         return 0;
1132     }
1133     int w = pFont->GetCharWidthF(charCode);
1134     if(w == 0) {
1135         CFX_ByteString str;
1136         pFont->AppendChar(str, charCode);
1137         w = pFont->GetStringWidth(str, 1);
1138         if(w == 0) {
1139             FX_RECT BBox;
1140             pFont->GetCharBBox(charCode, BBox);
1141             w = BBox.right - BBox.left;
1142         }
1143     }
1144     return w;
1145 }
1146 void CPDF_TextPage::OnPiece(IFX_BidiChar* pBidi, CFX_WideString& str)
1147 {
1148     int32_t start, count;
1149     int32_t ret = pBidi->GetBidiInfo(start, count);
1150     if(ret == 2) {
1151         for(int i = start + count - 1; i >= start; i--) {
1152             m_TextBuf.AppendChar(str.GetAt(i));
1153             m_charList.Add(*(PAGECHAR_INFO*)m_TempCharList.GetAt(i));
1154         }
1155     } else {
1156         int end = start + count ;
1157         for(int i = start; i < end; i++) {
1158             m_TextBuf.AppendChar(str.GetAt(i));
1159             m_charList.Add(*(PAGECHAR_INFO*)m_TempCharList.GetAt(i));
1160         }
1161     }
1162 }
1163 void CPDF_TextPage::AddCharInfoByLRDirection(CFX_WideString& str, int i)
1164 {
1165     PAGECHAR_INFO Info = *(PAGECHAR_INFO*)m_TempCharList.GetAt(i);
1166     FX_WCHAR wChar = str.GetAt(i);
1167     if(!IsControlChar(&Info)) {
1168         Info.m_Index = m_TextBuf.GetLength();
1169         if (wChar >= 0xFB00 && wChar <= 0xFB06) {
1170             FX_WCHAR* pDst = NULL;
1171             FX_STRSIZE nCount = FX_Unicode_GetNormalization(wChar, pDst);
1172             if (nCount >= 1) {
1173                 pDst = FX_Alloc(FX_WCHAR, nCount);
1174                 FX_Unicode_GetNormalization(wChar, pDst);
1175                 for (int nIndex = 0; nIndex < nCount; nIndex++) {
1176                     PAGECHAR_INFO Info2 = Info;
1177                     Info2.m_Unicode = pDst[nIndex];
1178                     Info2.m_Flag = FPDFTEXT_CHAR_PIECE;
1179                     m_TextBuf.AppendChar(Info2.m_Unicode);
1180                     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1181                         m_charList.Add(Info2);
1182                     }
1183                 }
1184                 FX_Free(pDst);
1185                 return;
1186             }
1187         }
1188         m_TextBuf.AppendChar(wChar);
1189     } else {
1190         Info.m_Index = -1;
1191     }
1192     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1193         m_charList.Add(Info);
1194     }
1195 }
1196 void CPDF_TextPage::AddCharInfoByRLDirection(CFX_WideString& str, int i)
1197 {
1198     PAGECHAR_INFO Info = *(PAGECHAR_INFO*)m_TempCharList.GetAt(i);
1199     if(!IsControlChar(&Info)) {
1200         Info.m_Index = m_TextBuf.GetLength();
1201         FX_WCHAR wChar = FX_GetMirrorChar(str.GetAt(i), TRUE, FALSE);
1202         FX_WCHAR* pDst = NULL;
1203         FX_STRSIZE nCount = FX_Unicode_GetNormalization(wChar, pDst);
1204         if (nCount >= 1) {
1205             pDst = FX_Alloc(FX_WCHAR, nCount);
1206             FX_Unicode_GetNormalization(wChar, pDst);
1207             for (int nIndex = 0; nIndex < nCount; nIndex++) {
1208                 PAGECHAR_INFO Info2 = Info;
1209                 Info2.m_Unicode = pDst[nIndex];
1210                 Info2.m_Flag = FPDFTEXT_CHAR_PIECE;
1211                 m_TextBuf.AppendChar(Info2.m_Unicode);
1212                 if( !m_ParseOptions.m_bGetCharCodeOnly) {
1213                     m_charList.Add(Info2);
1214                 }
1215             }
1216             FX_Free(pDst);
1217             return;
1218         } else {
1219             Info.m_Unicode = wChar;
1220         }
1221         m_TextBuf.AppendChar(Info.m_Unicode);
1222     } else {
1223         Info.m_Index = -1;
1224     }
1225     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1226         m_charList.Add(Info);
1227     }
1228 }
1229 void CPDF_TextPage::CloseTempLine()
1230 {
1231     int count1 = m_TempCharList.GetSize();
1232     if (count1 <= 0) {
1233         return;
1234     }
1235     nonstd::unique_ptr<IFX_BidiChar> pBidiChar(IFX_BidiChar::Create());
1236     CFX_WideString str = m_TempTextBuf.GetWideString();
1237     CFX_WordArray order;
1238     FX_BOOL bR2L = FALSE;
1239     int32_t start = 0, count = 0;
1240     int nR2L = 0, nL2R = 0;
1241     FX_BOOL bPrevSpace = FALSE;
1242     for (int i = 0; i < str.GetLength(); i++) {
1243         if(str.GetAt(i) == 32) {
1244             if(bPrevSpace) {
1245                 m_TempTextBuf.Delete(i, 1);
1246                 m_TempCharList.Delete(i);
1247                 str.Delete(i);
1248                 count1--;
1249                 i--;
1250                 continue;
1251             }
1252             bPrevSpace = TRUE;
1253         } else {
1254             bPrevSpace = FALSE;
1255         }
1256         if(pBidiChar->AppendChar(str.GetAt(i))) {
1257             int32_t ret = pBidiChar->GetBidiInfo(start, count);
1258             order.Add(start);
1259             order.Add(count);
1260             order.Add(ret);
1261             if(!bR2L) {
1262                 if(ret == 2) {
1263                     nR2L++;
1264                 } else if (ret == 1) {
1265                     nL2R++;
1266                 }
1267             }
1268         }
1269     }
1270     if(pBidiChar->EndChar()) {
1271         int32_t ret = pBidiChar->GetBidiInfo(start, count);
1272         order.Add(start);
1273         order.Add(count);
1274         order.Add(ret);
1275         if(!bR2L) {
1276             if(ret == 2) {
1277                 nR2L++;
1278             } else if(ret == 1) {
1279                 nL2R++;
1280             }
1281         }
1282     }
1283     if(nR2L > 0 && nR2L >= nL2R) {
1284         bR2L = TRUE;
1285     }
1286     if (m_parserflag == FPDFTEXT_RLTB || bR2L) {
1287         int count = order.GetSize();
1288         for(int i = count - 1; i > 0; i -= 3) {
1289             int ret = order.GetAt(i);
1290             int start = order.GetAt(i - 2);
1291             int count1 = order.GetAt(i - 1);
1292             if(ret == 2 || ret == 0) {
1293                 for(int j = start + count1 - 1; j >= start; j--) {
1294                     AddCharInfoByRLDirection(str, j);
1295                 }
1296             } else {
1297                 int j = i;
1298                 FX_BOOL bSymbol = FALSE;
1299                 while(j > 0 && order.GetAt(j) != 2) {
1300                     bSymbol = !order.GetAt(j);
1301                     j -= 3;
1302                 }
1303                 int end = start + count1 ;
1304                 int n = 0;
1305                 if(bSymbol) {
1306                     n = j + 6;
1307                 } else {
1308                     n = j + 3;
1309                 }
1310                 if(n >= i) {
1311                     for(int m = start; m < end; m++) {
1312                         AddCharInfoByLRDirection(str, m);
1313                     }
1314                 } else {
1315                     j = i;
1316                     i = n;
1317                     for(; n <= j; n += 3) {
1318                         int start = order.GetAt(n - 2);
1319                         int count1 = order.GetAt(n - 1);
1320                         int end = start + count1 ;
1321                         for(int m = start; m < end; m++) {
1322                             AddCharInfoByLRDirection(str, m);
1323                         }
1324                     }
1325                 }
1326             }
1327         }
1328     } else {
1329         int count = order.GetSize();
1330         FX_BOOL bL2R = FALSE;
1331         for(int i = 0; i < count; i += 3) {
1332             int ret = order.GetAt(i + 2);
1333             int start = order.GetAt(i);
1334             int count1 = order.GetAt(i + 1);
1335             if(ret == 2 || (i == 0 && ret == 0 && !bL2R)) {
1336                 int j = i + 3;
1337                 while(bR2L && j < count) {
1338                     if(order.GetAt(j + 2) == 1) {
1339                         break;
1340                     } else {
1341                         j += 3;
1342                     }
1343                 }
1344                 if(j == 3) {
1345                     i = -3;
1346                     bL2R = TRUE;
1347                     continue;
1348                 }
1349                 int end = m_TempCharList.GetSize() - 1;
1350                 if(j < count) {
1351                     end = order.GetAt(j) - 1;
1352                 }
1353                 i = j - 3;
1354                 for(int n = end; n >= start; n--) {
1355                     AddCharInfoByRLDirection(str, n);
1356                 }
1357             } else {
1358                 int end = start + count1 ;
1359                 for(int n = start; n < end; n++) {
1360                     AddCharInfoByLRDirection(str, n);
1361                 }
1362             }
1363         }
1364     }
1365     order.RemoveAll();
1366     m_TempCharList.RemoveAll();
1367     m_TempTextBuf.Delete(0, m_TempTextBuf.GetLength());
1368 }
1369 void CPDF_TextPage::ProcessTextObject(CPDF_TextObject*  pTextObj, const CFX_AffineMatrix& formMatrix, FX_POSITION ObjPos)
1370 {
1371     CFX_FloatRect re(pTextObj->m_Left, pTextObj->m_Bottom, pTextObj->m_Right, pTextObj->m_Top);
1372     if(FXSYS_fabs(pTextObj->m_Right - pTextObj->m_Left) < 0.01f ) {
1373         return;
1374     }
1375     int count = m_LineObj.GetSize();
1376     PDFTEXT_Obj Obj;
1377     Obj.m_pTextObj = pTextObj;
1378     Obj.m_formMatrix = formMatrix;
1379     if(count == 0) {
1380         m_LineObj.Add(Obj);
1381         return;
1382     }
1383     if (IsSameAsPreTextObject(pTextObj, ObjPos)) {
1384         return;
1385     }
1386     PDFTEXT_Obj prev_Obj = m_LineObj.GetAt(count - 1);
1387     CPDF_TextObjectItem item;
1388     int nItem = prev_Obj.m_pTextObj->CountItems();
1389     prev_Obj.m_pTextObj->GetItemInfo(nItem - 1, &item);
1390     FX_FLOAT prev_width = GetCharWidth(item.m_CharCode, prev_Obj.m_pTextObj->GetFont()) * prev_Obj.m_pTextObj->GetFontSize() / 1000;
1391     CFX_AffineMatrix prev_matrix;
1392     prev_Obj.m_pTextObj->GetTextMatrix(&prev_matrix);
1393     prev_width = FXSYS_fabs(prev_width);
1394     prev_matrix.Concat(prev_Obj.m_formMatrix);
1395     prev_width = prev_matrix.TransformDistance(prev_width);
1396     pTextObj->GetItemInfo(0, &item);
1397     FX_FLOAT this_width = GetCharWidth(item.m_CharCode, pTextObj->GetFont()) * pTextObj->GetFontSize() / 1000;
1398     this_width = FXSYS_fabs(this_width);
1399     CFX_AffineMatrix this_matrix;
1400     pTextObj->GetTextMatrix(&this_matrix);
1401     this_width = FXSYS_fabs(this_width);
1402     this_matrix.Concat(formMatrix);
1403     this_width = this_matrix.TransformDistance(this_width);
1404     FX_FLOAT threshold = prev_width > this_width ? prev_width / 4 : this_width / 4;
1405     FX_FLOAT prev_x = prev_Obj.m_pTextObj->GetPosX(), prev_y = prev_Obj.m_pTextObj->GetPosY();
1406     prev_Obj.m_formMatrix.Transform(prev_x, prev_y);
1407     m_DisplayMatrix.Transform(prev_x, prev_y);
1408     FX_FLOAT this_x = pTextObj->GetPosX(), this_y = pTextObj->GetPosY();
1409     formMatrix.Transform(this_x, this_y);
1410     m_DisplayMatrix.Transform(this_x, this_y);
1411     if (FXSYS_fabs(this_y - prev_y) > threshold * 2) {
1412         for(int i = 0; i < count; i++) {
1413             ProcessTextObject(m_LineObj.GetAt(i));
1414         }
1415         m_LineObj.RemoveAll();
1416         m_LineObj.Add(Obj);
1417         return;
1418     }
1419     int i = 0;
1420     if(m_ParseOptions.m_bNormalizeObjs) {
1421         for(i = count - 1; i >= 0; i--) {
1422             PDFTEXT_Obj prev_Obj = m_LineObj.GetAt(i);
1423             CFX_AffineMatrix prev_matrix;
1424             prev_Obj.m_pTextObj->GetTextMatrix(&prev_matrix);
1425             FX_FLOAT Prev_x = prev_Obj.m_pTextObj->GetPosX(), Prev_y = prev_Obj.m_pTextObj->GetPosY();
1426             prev_Obj.m_formMatrix.Transform(Prev_x, Prev_y);
1427             m_DisplayMatrix.Transform(Prev_x, Prev_y);
1428             if(this_x >= Prev_x) {
1429                 if(i == count - 1) {
1430                     m_LineObj.Add(Obj);
1431                 } else {
1432                     m_LineObj.InsertAt(i + 1, Obj);
1433                 }
1434                 break;
1435             }
1436         }
1437         if(i < 0) {
1438             m_LineObj.InsertAt(0, Obj);
1439         }
1440     } else {
1441         m_LineObj.Add(Obj);
1442     }
1443 }
1444 int32_t CPDF_TextPage::PreMarkedContent(PDFTEXT_Obj Obj)
1445 {
1446     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1447     CPDF_ContentMarkData* pMarkData = (CPDF_ContentMarkData*)pTextObj->m_ContentMark.GetObject();
1448     if(!pMarkData) {
1449         return FPDFTEXT_MC_PASS;
1450     }
1451     int nContentMark = pMarkData->CountItems();
1452     if (nContentMark < 1) {
1453         return FPDFTEXT_MC_PASS;
1454     }
1455     CFX_WideString actText;
1456     FX_BOOL bExist = FALSE;
1457     CPDF_Dictionary* pDict = NULL;
1458     int n = 0;
1459     for (n = 0; n < nContentMark; n++) {
1460         CPDF_ContentMarkItem& item = pMarkData->GetItem(n);
1461         CFX_ByteString tagStr = (CFX_ByteString)item.GetName();
1462         pDict = (CPDF_Dictionary*)item.GetParam();
1463         CPDF_String* temp = (CPDF_String*)(pDict ? pDict->GetElement(FX_BSTRC("ActualText")) : NULL);
1464         if (temp) {
1465             bExist = TRUE;
1466             actText = temp->GetUnicodeText();
1467         }
1468     }
1469     if (!bExist) {
1470         return FPDFTEXT_MC_PASS;
1471     }
1472     if (m_pPreTextObj) {
1473         if (CPDF_ContentMarkData* pPreMarkData = (CPDF_ContentMarkData*)m_pPreTextObj->m_ContentMark.GetObject()) {
1474             if (pPreMarkData->CountItems() == n) {
1475                 CPDF_ContentMarkItem& item = pPreMarkData->GetItem(n - 1);
1476                 if (pDict == item.GetParam()) {
1477                     return FPDFTEXT_MC_DONE;
1478                 }
1479             }
1480         }
1481     }
1482     CPDF_Font*  pFont = pTextObj->GetFont();
1483     FX_STRSIZE nItems = actText.GetLength();
1484     if (nItems < 1) {
1485         return FPDFTEXT_MC_PASS;
1486     }
1487     bExist = FALSE;
1488     for (FX_STRSIZE i = 0; i < nItems; i++) {
1489         FX_WCHAR wChar = actText.GetAt(i);
1490         if (-1 == pFont->CharCodeFromUnicode(wChar)) {
1491             continue;
1492         } else {
1493             bExist = TRUE;
1494             break;
1495         }
1496     }
1497     if (!bExist) {
1498         return FPDFTEXT_MC_PASS;
1499     }
1500     bExist = FALSE;
1501     for (FX_STRSIZE i = 0; i < nItems; i++) {
1502         FX_WCHAR wChar = actText.GetAt(i);
1503         if ((wChar > 0x80 && wChar < 0xFFFD) || (wChar <= 0x80 && isprint(wChar))) {
1504             bExist = TRUE;
1505             break;
1506         }
1507     }
1508     if (!bExist) {
1509         return FPDFTEXT_MC_DONE;
1510     }
1511     return FPDFTEXT_MC_DELAY;
1512 }
1513 void CPDF_TextPage::ProcessMarkedContent(PDFTEXT_Obj Obj)
1514 {
1515     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1516     CPDF_ContentMarkData* pMarkData = (CPDF_ContentMarkData*)pTextObj->m_ContentMark.GetObject();
1517     if(!pMarkData) {
1518         return;
1519     }
1520     int nContentMark = pMarkData->CountItems();
1521     if (nContentMark < 1) {
1522         return;
1523     }
1524     CFX_WideString actText;
1525     CPDF_Dictionary* pDict = NULL;
1526     int n = 0;
1527     for (n = 0; n < nContentMark; n++) {
1528         CPDF_ContentMarkItem& item = pMarkData->GetItem(n);
1529         CFX_ByteString tagStr = (CFX_ByteString)item.GetName();
1530         pDict = (CPDF_Dictionary*)item.GetParam();
1531         CPDF_String* temp = (CPDF_String*)pDict->GetElement(FX_BSTRC("ActualText"));
1532         if (temp) {
1533             actText = temp->GetUnicodeText();
1534         }
1535     }
1536     FX_STRSIZE nItems = actText.GetLength();
1537     if (nItems < 1) {
1538         return;
1539     }
1540     CPDF_Font*  pFont = pTextObj->GetFont();
1541     CFX_AffineMatrix formMatrix = Obj.m_formMatrix;
1542     CFX_AffineMatrix matrix;
1543     pTextObj->GetTextMatrix(&matrix);
1544     matrix.Concat(formMatrix);
1545     FX_FLOAT fPosX = pTextObj->GetPosX();
1546     FX_FLOAT fPosY = pTextObj->GetPosY();
1547     int nCharInfoIndex = m_TextBuf.GetLength();
1548     CFX_FloatRect charBox;
1549     charBox.top = pTextObj->m_Top;
1550     charBox.left = pTextObj->m_Left;
1551     charBox.right = pTextObj->m_Right;
1552     charBox.bottom = pTextObj->m_Bottom;
1553     for (FX_STRSIZE k = 0; k < nItems; k++) {
1554         FX_WCHAR wChar = actText.GetAt(k);
1555         if (wChar <= 0x80 && !isprint(wChar)) {
1556             wChar = 0x20;
1557         }
1558         if (wChar >= 0xFFFD) {
1559             continue;
1560         }
1561         PAGECHAR_INFO charinfo;
1562         charinfo.m_OriginX = fPosX;
1563         charinfo.m_OriginY = fPosY;
1564         charinfo.m_Index = nCharInfoIndex;
1565         charinfo.m_Unicode = wChar;
1566         charinfo.m_CharCode = pFont->CharCodeFromUnicode(wChar);
1567         charinfo.m_Flag = FPDFTEXT_CHAR_PIECE;
1568         charinfo.m_pTextObj = pTextObj;
1569         charinfo.m_CharBox.top = charBox.top;
1570         charinfo.m_CharBox.left = charBox.left;
1571         charinfo.m_CharBox.right = charBox.right;
1572         charinfo.m_CharBox.bottom = charBox.bottom;
1573         charinfo.m_Matrix.Copy(matrix);
1574         m_TempTextBuf.AppendChar(wChar);
1575         m_TempCharList.Add(charinfo);
1576     }
1577 }
1578 void CPDF_TextPage::FindPreviousTextObject(void)
1579 {
1580     if (m_TempCharList.GetSize() < 1 && m_charList.GetSize() < 1) {
1581         return;
1582     }
1583     PAGECHAR_INFO preChar;
1584     if (m_TempCharList.GetSize() >= 1) {
1585         preChar = *(PAGECHAR_INFO*)m_TempCharList.GetAt(m_TempCharList.GetSize() - 1);
1586     } else {
1587         preChar = *(PAGECHAR_INFO*)m_charList.GetAt(m_charList.GetSize() - 1);
1588     }
1589     if (preChar.m_pTextObj) {
1590         m_pPreTextObj = preChar.m_pTextObj;
1591     }
1592 }
1593 void CPDF_TextPage::ProcessTextObject(PDFTEXT_Obj Obj)
1594 {
1595     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1596     if(FXSYS_fabs(pTextObj->m_Right - pTextObj->m_Left) < 0.01f ) {
1597         return;
1598     }
1599     CFX_AffineMatrix formMatrix = Obj.m_formMatrix;
1600     CPDF_Font*  pFont = pTextObj->GetFont();
1601     CFX_AffineMatrix matrix;
1602     pTextObj->GetTextMatrix(&matrix);
1603     matrix.Concat(formMatrix);
1604     int32_t bPreMKC = PreMarkedContent(Obj);
1605     if (FPDFTEXT_MC_DONE == bPreMKC) {
1606         m_pPreTextObj = pTextObj;
1607         m_perMatrix.Copy(formMatrix);
1608         return;
1609     }
1610     int result = 0;
1611     if (m_pPreTextObj) {
1612         result = ProcessInsertObject(pTextObj, formMatrix);
1613         if (2 == result) {
1614             m_CurlineRect = CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top);
1615         } else {
1616             m_CurlineRect.Union(CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top));
1617         }
1618         PAGECHAR_INFO generateChar;
1619         if (result == 1) {
1620             if (GenerateCharInfo(TEXT_BLANK_CHAR, generateChar)) {
1621                 if (!formMatrix.IsIdentity()) {
1622                     generateChar.m_Matrix.Copy(formMatrix);
1623                 }
1624                 m_TempTextBuf.AppendChar(TEXT_BLANK_CHAR);
1625                 m_TempCharList.Add(generateChar);
1626             }
1627         } else if(result == 2) {
1628             CloseTempLine();
1629             if(m_TextBuf.GetSize()) {
1630                 if(m_ParseOptions.m_bGetCharCodeOnly) {
1631                     m_TextBuf.AppendChar(TEXT_RETURN_CHAR);
1632                     m_TextBuf.AppendChar(TEXT_LINEFEED_CHAR);
1633                 } else {
1634                     if(GenerateCharInfo(TEXT_RETURN_CHAR, generateChar)) {
1635                         m_TextBuf.AppendChar(TEXT_RETURN_CHAR);
1636                         if (!formMatrix.IsIdentity()) {
1637                             generateChar.m_Matrix.Copy(formMatrix);
1638                         }
1639                         m_charList.Add(generateChar);
1640                     }
1641                     if(GenerateCharInfo(TEXT_LINEFEED_CHAR, generateChar)) {
1642                         m_TextBuf.AppendChar(TEXT_LINEFEED_CHAR);
1643                         if (!formMatrix.IsIdentity()) {
1644                             generateChar.m_Matrix.Copy(formMatrix);
1645                         }
1646                         m_charList.Add(generateChar);
1647                     }
1648                 }
1649             }
1650         } else if (result == 3 && !m_ParseOptions.m_bOutputHyphen) {
1651             int32_t nChars = pTextObj->CountChars();
1652             if (nChars == 1) {
1653                 CPDF_TextObjectItem item;
1654                 pTextObj->GetCharInfo(0, &item);
1655                 CFX_WideString wstrItem = pTextObj->GetFont()->UnicodeFromCharCode(item.m_CharCode);
1656                 if(wstrItem.IsEmpty()) {
1657                     wstrItem += (FX_WCHAR)item.m_CharCode;
1658                 }
1659                 FX_WCHAR curChar = wstrItem.GetAt(0);
1660                 if (0x2D == curChar || 0xAD == curChar) {
1661                     return;
1662                 }
1663             }
1664             while (m_TempTextBuf.GetSize() > 0 && m_TempTextBuf.GetWideString().GetAt(m_TempTextBuf.GetLength() - 1) == 0x20) {
1665                 m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1666                 m_TempCharList.Delete(m_TempCharList.GetSize() - 1);
1667             }
1668             PAGECHAR_INFO* cha = (PAGECHAR_INFO*)m_TempCharList.GetAt(m_TempCharList.GetSize() - 1);
1669             m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1670             cha->m_Unicode = 0x2;
1671             cha->m_Flag = FPDFTEXT_CHAR_HYPHEN;
1672             m_TempTextBuf.AppendChar(0xfffe);
1673         }
1674     } else {
1675         m_CurlineRect = CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top);
1676     }
1677     if (FPDFTEXT_MC_DELAY == bPreMKC) {
1678         ProcessMarkedContent(Obj);
1679         m_pPreTextObj = pTextObj;
1680         m_perMatrix.Copy(formMatrix);
1681         return;
1682     }
1683     m_pPreTextObj = pTextObj;
1684     m_perMatrix.Copy(formMatrix);
1685     int nItems = pTextObj->CountItems();
1686     FX_FLOAT baseSpace = _CalculateBaseSpace(pTextObj, matrix);
1687
1688     FX_BOOL bIsBidiAndMirrosInverse = FALSE;
1689     IFX_BidiChar* BidiChar = IFX_BidiChar::Create();
1690     int32_t nR2L = 0;
1691     int32_t nL2R = 0;
1692     int32_t start = 0, count = 0;
1693     CPDF_TextObjectItem item;
1694     for (int32_t i = 0; i < nItems; i++) {
1695         pTextObj->GetItemInfo(i, &item);
1696         if (item.m_CharCode == (FX_DWORD)-1) {
1697             continue;
1698         }
1699         CFX_WideString wstrItem = pFont->UnicodeFromCharCode(item.m_CharCode);
1700         FX_WCHAR wChar = wstrItem.GetAt(0);
1701         if ((wstrItem.IsEmpty() || wChar == 0) && item.m_CharCode) {
1702             wChar = (FX_WCHAR)item.m_CharCode;
1703         }
1704         if (!wChar) {
1705             continue;
1706         }
1707         if (BidiChar && BidiChar->AppendChar(wChar)) {
1708             int32_t ret = BidiChar->GetBidiInfo(start, count);
1709             if (ret == 2) {
1710                 nR2L++;
1711             }
1712             else if (ret == 1) {
1713                 nL2R++;
1714             }
1715         }
1716     }
1717     if (BidiChar && BidiChar->EndChar()) {
1718         int32_t ret = BidiChar->GetBidiInfo(start, count);
1719         if (ret == 2) {
1720             nR2L++;
1721         }
1722         else if (ret == 1) {
1723             nL2R++;
1724         }
1725     }
1726     FX_BOOL bR2L = FALSE;
1727     if (nR2L > 0 && nR2L >= nL2R) {
1728         bR2L = TRUE;
1729     }
1730     bIsBidiAndMirrosInverse = bR2L && (matrix.a * matrix.d - matrix.b * matrix.c) < 0;
1731     int32_t iBufStartAppend = m_TempTextBuf.GetLength();
1732     int32_t iCharListStartAppend = m_TempCharList.GetSize();
1733
1734     FX_FLOAT spacing = 0;
1735     for (int i = 0; i < nItems; i++) {
1736         CPDF_TextObjectItem item;
1737         PAGECHAR_INFO charinfo;
1738         charinfo.m_OriginX = 0;
1739         charinfo.m_OriginY = 0;
1740         pTextObj->GetItemInfo(i, &item);
1741         if (item.m_CharCode == (FX_DWORD) - 1) {
1742             CFX_WideString str = m_TempTextBuf.GetWideString();
1743             if(str.IsEmpty()) {
1744                 str = m_TextBuf.GetWideString();
1745             }
1746             if (str.IsEmpty() || str.GetAt(str.GetLength() - 1) == TEXT_BLANK_CHAR) {
1747                 continue;
1748             }
1749             FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
1750             spacing = -fontsize_h * item.m_OriginX / 1000;
1751             continue;
1752         }
1753         FX_FLOAT charSpace = pTextObj->m_TextState.GetObject()->m_CharSpace;
1754         if (charSpace > 0.001) {
1755             spacing += matrix.TransformDistance(charSpace);
1756         } else if(charSpace < -0.001) {
1757             spacing -= matrix.TransformDistance(FXSYS_fabs(charSpace));
1758         }
1759         spacing -= baseSpace;
1760         if (spacing && i > 0) {
1761             int last_width = 0;
1762             FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
1763             FX_DWORD space_charcode = pFont->CharCodeFromUnicode(' ');
1764             FX_FLOAT threshold = 0;
1765             if (space_charcode != -1) {
1766                 threshold = fontsize_h * pFont->GetCharWidthF(space_charcode) / 1000 ;
1767             }
1768             if (threshold > fontsize_h / 3) {
1769                 threshold = 0;
1770             } else {
1771                 threshold /= 2;
1772             }
1773             if (threshold == 0) {
1774                 threshold = fontsize_h;
1775                 int this_width = FXSYS_abs(GetCharWidth(item.m_CharCode, pFont));
1776                 threshold = this_width > last_width ? (FX_FLOAT)this_width : (FX_FLOAT)last_width;
1777                 threshold = _NormalizeThreshold(threshold);
1778                 threshold = fontsize_h * threshold / 1000;
1779             }
1780             if (threshold && (spacing && spacing >= threshold) ) {
1781                 charinfo.m_Unicode = TEXT_BLANK_CHAR;
1782                 charinfo.m_Flag = FPDFTEXT_CHAR_GENERATED;
1783                 charinfo.m_pTextObj = pTextObj;
1784                 charinfo.m_Index = m_TextBuf.GetLength();
1785                 m_TempTextBuf.AppendChar(TEXT_BLANK_CHAR);
1786                 charinfo.m_CharCode = -1;
1787                 charinfo.m_Matrix.Copy(formMatrix);
1788                 matrix.Transform(item.m_OriginX, item.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1789                 charinfo.m_CharBox = CFX_FloatRect(charinfo.m_OriginX, charinfo.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1790                 m_TempCharList.Add(charinfo);
1791             }
1792             if (item.m_CharCode == (FX_DWORD) - 1) {
1793                 continue;
1794             }
1795         }
1796         spacing = 0;
1797         CFX_WideString wstrItem = pFont->UnicodeFromCharCode(item.m_CharCode);
1798         FX_BOOL bNoUnicode = FALSE;
1799         FX_WCHAR wChar = wstrItem.GetAt(0);
1800         if ((wstrItem.IsEmpty() || wChar == 0) && item.m_CharCode) {
1801             if(wstrItem.IsEmpty()) {
1802                 wstrItem += (FX_WCHAR)item.m_CharCode;
1803             } else {
1804                 wstrItem.SetAt(0, (FX_WCHAR)item.m_CharCode);
1805             }
1806             bNoUnicode = TRUE;
1807         }
1808         charinfo.m_Index = -1;
1809         charinfo.m_CharCode = item.m_CharCode;
1810         if(bNoUnicode) {
1811             charinfo.m_Flag = FPDFTEXT_CHAR_UNUNICODE;
1812         } else {
1813             charinfo.m_Flag = FPDFTEXT_CHAR_NORMAL;
1814         }
1815         charinfo.m_pTextObj = pTextObj;
1816         charinfo.m_OriginX = 0, charinfo.m_OriginY = 0;
1817         matrix.Transform(item.m_OriginX, item.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1818         FX_RECT rect(0, 0, 0, 0);
1819         rect.Intersect(0, 0, 0, 0);
1820         charinfo.m_pTextObj->GetFont()->GetCharBBox(charinfo.m_CharCode, rect);
1821         charinfo.m_CharBox.top = rect.top * pTextObj->GetFontSize() / 1000 + item.m_OriginY;
1822         charinfo.m_CharBox.left = rect.left * pTextObj->GetFontSize() / 1000 + item.m_OriginX;
1823         charinfo.m_CharBox.right = rect.right * pTextObj->GetFontSize() / 1000 + item.m_OriginX;
1824         charinfo.m_CharBox.bottom = rect.bottom * pTextObj->GetFontSize() / 1000 + item.m_OriginY;
1825         if (fabsf(charinfo.m_CharBox.top - charinfo.m_CharBox.bottom) < 0.01f) {
1826             charinfo.m_CharBox.top = charinfo.m_CharBox.bottom + pTextObj->GetFontSize();
1827         }
1828         if (fabsf(charinfo.m_CharBox.right - charinfo.m_CharBox.left) < 0.01f) {
1829             charinfo.m_CharBox.right = charinfo.m_CharBox.left + pTextObj->GetCharWidth(charinfo.m_CharCode);
1830         }
1831         matrix.TransformRect(charinfo.m_CharBox);
1832         charinfo.m_Matrix.Copy(matrix);
1833         if (wstrItem.IsEmpty()) {
1834             charinfo.m_Unicode = 0;
1835             m_TempCharList.Add(charinfo);
1836             m_TempTextBuf.AppendChar(0xfffe);
1837             continue;
1838         } else {
1839             int nTotal = wstrItem.GetLength();
1840             FX_BOOL bDel = FALSE;
1841             const int count = std::min(m_TempCharList.GetSize(), 7);
1842             FX_FLOAT threshold = charinfo.m_Matrix.TransformXDistance((FX_FLOAT)TEXT_CHARRATIO_GAPDELTA * pTextObj->GetFontSize());
1843             for (int n = m_TempCharList.GetSize();
1844                  n > m_TempCharList.GetSize() - count;
1845                  n--) {
1846                 PAGECHAR_INFO* charinfo1 = (PAGECHAR_INFO*)m_TempCharList.GetAt(n - 1);
1847                 if(charinfo1->m_CharCode == charinfo.m_CharCode &&
1848                         charinfo1->m_pTextObj->GetFont() == charinfo.m_pTextObj->GetFont()  &&
1849                         FXSYS_fabs(charinfo1->m_OriginX - charinfo.m_OriginX) < threshold  &&
1850                         FXSYS_fabs(charinfo1->m_OriginY - charinfo.m_OriginY) < threshold) {
1851                     bDel = TRUE;
1852                     break;
1853                 }
1854             }
1855             if(!bDel) {
1856                 for (int nIndex = 0; nIndex < nTotal; nIndex++) {
1857                     charinfo.m_Unicode = wstrItem.GetAt(nIndex);
1858                     if (charinfo.m_Unicode) {
1859                         charinfo.m_Index = m_TextBuf.GetLength();
1860                         m_TempTextBuf.AppendChar(charinfo.m_Unicode);
1861                     } else {
1862                         m_TempTextBuf.AppendChar(0xfffe);
1863                     }
1864                     m_TempCharList.Add(charinfo);
1865                 }
1866             } else if(i == 0) {
1867                 CFX_WideString str = m_TempTextBuf.GetWideString();
1868                 if (!str.IsEmpty() && str.GetAt(str.GetLength() - 1) == TEXT_BLANK_CHAR) {
1869                     m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1870                     m_TempCharList.Delete(m_TempCharList.GetSize() - 1);
1871                 }
1872             }
1873         }
1874     }
1875     if (bIsBidiAndMirrosInverse) {
1876         int32_t i, j;
1877         i = iCharListStartAppend;
1878         j = m_TempCharList.GetSize() - 1;
1879         for (; i < j; i++, j--) {
1880             std::swap(m_TempCharList[i], m_TempCharList[j]);
1881             std::swap(m_TempCharList[i].m_Index, m_TempCharList[j].m_Index);
1882         }
1883         FX_WCHAR * pTempBuffer = m_TempTextBuf.GetBuffer();
1884         i = iBufStartAppend;
1885         j = m_TempTextBuf.GetLength() - 1;
1886         for (; i < j; i++, j--) {
1887             std::swap(pTempBuffer[i], pTempBuffer[j]);
1888         }
1889     }
1890 }
1891 int32_t CPDF_TextPage::GetTextObjectWritingMode(const CPDF_TextObject* pTextObj)
1892 {
1893     int32_t nChars = pTextObj->CountChars();
1894     if (nChars == 1) {
1895         return m_TextlineDir;
1896     }
1897     CPDF_TextObjectItem first, last;
1898     pTextObj->GetCharInfo(0, &first);
1899     pTextObj->GetCharInfo(nChars - 1, &last);
1900     CFX_Matrix textMatrix;
1901     pTextObj->GetTextMatrix(&textMatrix);
1902     textMatrix.TransformPoint(first.m_OriginX, first.m_OriginY);
1903     textMatrix.TransformPoint(last.m_OriginX, last.m_OriginY);
1904     FX_FLOAT dX = FXSYS_fabs(last.m_OriginX - first.m_OriginX);
1905     FX_FLOAT dY = FXSYS_fabs(last.m_OriginY - first.m_OriginY);
1906     if (dX <= 0.0001f && dY <= 0.0001f) {
1907         return -1;
1908     }
1909     CFX_VectorF v;
1910     v.Set(dX, dY);
1911     v.Normalize();
1912     if (v.y <= 0.0872f) {
1913         if (v.x <= 0.0872f) {
1914             return m_TextlineDir;
1915         }
1916         return 0;
1917     } else if (v.x <= 0.0872f) {
1918         return 1;
1919     }
1920     return m_TextlineDir;
1921 }
1922 FX_BOOL CPDF_TextPage::IsHyphen(FX_WCHAR curChar)
1923 {
1924     CFX_WideString strCurText = m_TempTextBuf.GetWideString();
1925     if(strCurText.GetLength() == 0) {
1926         strCurText = m_TextBuf.GetWideString();
1927     }
1928     FX_STRSIZE nCount = strCurText.GetLength();
1929     int nIndex = nCount - 1;
1930     FX_WCHAR wcTmp = strCurText.GetAt(nIndex);
1931     while(wcTmp == 0x20 && nIndex <= nCount - 1 && nIndex >= 0) {
1932         wcTmp = strCurText.GetAt(--nIndex);
1933     }
1934     if (0x2D == wcTmp || 0xAD == wcTmp) {
1935         if (--nIndex > 0) {
1936             FX_WCHAR preChar = strCurText.GetAt((nIndex));
1937             if (((preChar >= L'A' && preChar <= L'Z') || (preChar >= L'a' && preChar <= L'z'))
1938                     && ((curChar >= L'A' && curChar <= L'Z') || (curChar >= L'a' && curChar <= L'z'))) {
1939                 return TRUE;
1940             }
1941         }
1942         int size = m_TempCharList.GetSize();
1943         PAGECHAR_INFO preChar;
1944         if (size) {
1945             preChar = (PAGECHAR_INFO)m_TempCharList[size - 1];
1946         } else {
1947             size = m_charList.GetSize();
1948             if(size == 0) {
1949                 return FALSE;
1950             }
1951             preChar = (PAGECHAR_INFO)m_charList[size - 1];
1952         }
1953         if (FPDFTEXT_CHAR_PIECE == preChar.m_Flag)
1954             if (0xAD == preChar.m_Unicode || 0x2D == preChar.m_Unicode) {
1955                 return TRUE;
1956             }
1957     }
1958     return FALSE;
1959 }
1960 int CPDF_TextPage::ProcessInsertObject(const CPDF_TextObject* pObj, const CFX_AffineMatrix& formMatrix)
1961 {
1962     FindPreviousTextObject();
1963     FX_BOOL bNewline = FALSE;
1964     int WritingMode = GetTextObjectWritingMode(pObj);
1965     if(WritingMode == -1) {
1966         WritingMode = GetTextObjectWritingMode(m_pPreTextObj);
1967     }
1968     CFX_FloatRect this_rect(pObj->m_Left, pObj->m_Bottom, pObj->m_Right, pObj->m_Top);
1969     CFX_FloatRect prev_rect(m_pPreTextObj->m_Left, m_pPreTextObj->m_Bottom, m_pPreTextObj->m_Right, m_pPreTextObj->m_Top);
1970     CPDF_TextObjectItem PrevItem, item;
1971     int nItem = m_pPreTextObj->CountItems();
1972     m_pPreTextObj->GetItemInfo(nItem - 1, &PrevItem);
1973     pObj->GetItemInfo(0, &item);
1974     CFX_WideString wstrItem = pObj->GetFont()->UnicodeFromCharCode(item.m_CharCode);
1975     if(wstrItem.IsEmpty()) {
1976         wstrItem += (FX_WCHAR)item.m_CharCode;
1977     }
1978     FX_WCHAR curChar = wstrItem.GetAt(0);
1979     if(WritingMode == 0) {
1980         if(this_rect.Height() > 4.5 && prev_rect.Height() > 4.5) {
1981             FX_FLOAT top = this_rect.top < prev_rect.top ? this_rect.top : prev_rect.top;
1982             FX_FLOAT bottom = this_rect.bottom > prev_rect.bottom ? this_rect.bottom : prev_rect.bottom;
1983             if(bottom >= top) {
1984                 if(IsHyphen(curChar)) {
1985                     return 3;
1986                 }
1987                 return 2;
1988             }
1989         }
1990     } else if (WritingMode == 1) {
1991         if(this_rect.Width() > pObj->GetFontSize() * 0.1f && prev_rect.Width() > m_pPreTextObj->GetFontSize() * 0.1f) {
1992             FX_FLOAT left = this_rect.left > m_CurlineRect.left ? this_rect.left : m_CurlineRect.left;
1993             FX_FLOAT right = this_rect.right < m_CurlineRect.right ? this_rect.right : m_CurlineRect.right;
1994             if(right <= left) {
1995                 if(IsHyphen(curChar)) {
1996                     return 3;
1997                 }
1998                 return 2;
1999             }
2000         }
2001     }
2002     FX_FLOAT last_pos = PrevItem.m_OriginX;
2003     int nLastWidth = GetCharWidth(PrevItem.m_CharCode, m_pPreTextObj->GetFont());
2004     FX_FLOAT last_width = nLastWidth * m_pPreTextObj->GetFontSize() / 1000;
2005     last_width = FXSYS_fabs(last_width);
2006     int nThisWidth = GetCharWidth(item.m_CharCode, pObj->GetFont());
2007     FX_FLOAT this_width = nThisWidth * pObj->GetFontSize() / 1000;
2008     this_width = FXSYS_fabs(this_width);
2009     FX_FLOAT threshold = last_width > this_width ? last_width / 4 : this_width / 4;
2010     CFX_AffineMatrix prev_matrix, prev_reverse;
2011     m_pPreTextObj->GetTextMatrix(&prev_matrix);
2012     prev_matrix.Concat(m_perMatrix);
2013     prev_reverse.SetReverse(prev_matrix);
2014     FX_FLOAT x = pObj->GetPosX();
2015     FX_FLOAT y = pObj->GetPosY();
2016     formMatrix.Transform(x, y);
2017     prev_reverse.Transform(x, y);
2018     if(last_width < this_width) {
2019         threshold = prev_reverse.TransformDistance(threshold);
2020     }
2021     CFX_FloatRect rect1(m_pPreTextObj->m_Left, pObj->m_Bottom, m_pPreTextObj->m_Right, pObj->m_Top);
2022     CFX_FloatRect rect2(m_pPreTextObj->m_Left, m_pPreTextObj->m_Bottom, m_pPreTextObj->m_Right, m_pPreTextObj->m_Top);
2023     CFX_FloatRect rect3 = rect1;
2024     rect1.Intersect(rect2);
2025     if (WritingMode == 0) {
2026         if ((rect1.IsEmpty() && rect2.Height() > 5 && rect3.Height() > 5)
2027                 || ((y > threshold * 2 || y < threshold * -3) && (FXSYS_fabs(y) < 1 ? FXSYS_fabs(x) < FXSYS_fabs(y) : TRUE))) {
2028             bNewline = TRUE;
2029             if(nItem > 1 ) {
2030                 CPDF_TextObjectItem tempItem;
2031                 m_pPreTextObj->GetItemInfo(0, &tempItem);
2032                 CFX_AffineMatrix m;
2033                 m_pPreTextObj->GetTextMatrix(&m);
2034                 if(PrevItem.m_OriginX > tempItem.m_OriginX &&
2035                         m_DisplayMatrix.a > 0.9 && m_DisplayMatrix.b < 0.1 &&
2036                         m_DisplayMatrix.c < 0.1 && m_DisplayMatrix.d < -0.9
2037                         && m.b < 0.1 && m.c < 0.1 ) {
2038                     CFX_FloatRect re(0, m_pPreTextObj->m_Bottom, 1000, m_pPreTextObj->m_Top);
2039                     if(re.Contains(pObj->GetPosX(), pObj->GetPosY())) {
2040                         bNewline = FALSE;
2041                     } else {
2042                         CFX_FloatRect re(0, pObj->m_Bottom, 1000, pObj->m_Top);
2043                         if(re.Contains(m_pPreTextObj->GetPosX(), m_pPreTextObj->GetPosY())) {
2044                             bNewline = FALSE;
2045                         }
2046                     }
2047                 }
2048             }
2049         }
2050     }
2051     if(bNewline) {
2052         if(IsHyphen(curChar)) {
2053             return 3;
2054         }
2055         return 2;
2056     }
2057     int32_t nChars = pObj->CountChars();
2058     if (nChars == 1 && ( 0x2D == curChar || 0xAD == curChar))
2059         if (IsHyphen(curChar)) {
2060             return 3;
2061         }
2062     CFX_WideString PrevStr = m_pPreTextObj->GetFont()->UnicodeFromCharCode(PrevItem.m_CharCode);
2063     FX_WCHAR preChar = PrevStr.GetAt(PrevStr.GetLength() - 1);
2064     CFX_AffineMatrix matrix;
2065     pObj->GetTextMatrix(&matrix);
2066     matrix.Concat(formMatrix);
2067     threshold = (FX_FLOAT)(nLastWidth > nThisWidth ? nLastWidth : nThisWidth);
2068     threshold = threshold > 400 ? (threshold < 700 ? threshold / 4 :  (threshold > 800 ? threshold / 6 : threshold / 5)) : (threshold / 2);
2069     if(nLastWidth >= nThisWidth) {
2070         threshold *= FXSYS_fabs(m_pPreTextObj->GetFontSize());
2071     } else {
2072         threshold *= FXSYS_fabs(pObj->GetFontSize());
2073         threshold = matrix.TransformDistance(threshold);
2074         threshold = prev_reverse.TransformDistance(threshold);
2075     }
2076     threshold /= 1000;
2077     if((threshold < 1.4881 && threshold > 1.4879)
2078             || (threshold < 1.39001 && threshold > 1.38999)) {
2079         threshold *= 1.5;
2080     }
2081     if (FXSYS_fabs(last_pos + last_width - x) > threshold && curChar != L' ' && preChar != L' ')
2082         if (curChar != L' ' && preChar != L' ') {
2083             if((x - last_pos - last_width) > threshold || (last_pos - x - last_width) > threshold) {
2084                 return 1;
2085             }
2086             if(x < 0 && (last_pos - x - last_width) > threshold) {
2087                 return 1;
2088             }
2089             if((x - last_pos - last_width) > this_width || (x - last_pos - this_width) > last_width ) {
2090                 return 1;
2091             }
2092         }
2093     return 0;
2094 }
2095 FX_BOOL CPDF_TextPage::IsSameTextObject(CPDF_TextObject* pTextObj1, CPDF_TextObject* pTextObj2)
2096 {
2097     if (!pTextObj1 || !pTextObj2) {
2098         return FALSE;
2099     }
2100     CFX_FloatRect rcPreObj(pTextObj2->m_Left, pTextObj2->m_Bottom, pTextObj2->m_Right, pTextObj2->m_Top);
2101     CFX_FloatRect rcCurObj(pTextObj1->m_Left, pTextObj1->m_Bottom, pTextObj1->m_Right, pTextObj1->m_Top);
2102     if (rcPreObj.IsEmpty() && rcCurObj.IsEmpty() && !m_ParseOptions.m_bGetCharCodeOnly) {
2103         FX_FLOAT dbXdif = FXSYS_fabs(rcPreObj.left - rcCurObj.left);
2104         int nCount = m_charList.GetSize();
2105         if (nCount >= 2) {
2106             PAGECHAR_INFO perCharTemp = (PAGECHAR_INFO)m_charList[nCount - 2];
2107             FX_FLOAT dbSpace = perCharTemp.m_CharBox.Width();
2108             if (dbXdif > dbSpace) {
2109                 return FALSE;
2110             }
2111         }
2112     }
2113     if (!rcPreObj.IsEmpty() || !rcCurObj.IsEmpty()) {
2114         rcPreObj.Intersect(rcCurObj);
2115         if (rcPreObj.IsEmpty()) {
2116             return FALSE;
2117         }
2118         if (FXSYS_fabs(rcPreObj.Width() - rcCurObj.Width()) > rcCurObj.Width() / 2) {
2119             return FALSE;
2120         }
2121         if (pTextObj2->GetFontSize() != pTextObj1->GetFontSize()) {
2122             return FALSE;
2123         }
2124     }
2125     int nPreCount = pTextObj2->CountItems();
2126     int nCurCount = pTextObj1->CountItems();
2127     if (nPreCount != nCurCount) {
2128         return FALSE;
2129     }
2130     CPDF_TextObjectItem itemPer, itemCur;
2131     for (int i = 0; i < nPreCount; i++) {
2132         pTextObj2->GetItemInfo(i, &itemPer);
2133         pTextObj1->GetItemInfo(i, &itemCur);
2134         if (itemCur.m_CharCode != itemPer.m_CharCode) {
2135             return FALSE;
2136         }
2137     }
2138     if(FXSYS_fabs(pTextObj1->GetPosX() - pTextObj2->GetPosX()) > GetCharWidth(itemPer.m_CharCode, pTextObj2->GetFont())*pTextObj2->GetFontSize() / 1000 * 0.9 ||
2139             FXSYS_fabs(pTextObj1->GetPosY() - pTextObj2->GetPosY()) >
2140             FX_MAX(FX_MAX(rcPreObj.Height() , rcPreObj.Width()), pTextObj2->GetFontSize()) / 8) {
2141         return FALSE;
2142     }
2143     return TRUE;
2144 }
2145 FX_BOOL CPDF_TextPage::IsSameAsPreTextObject(CPDF_TextObject* pTextObj, FX_POSITION ObjPos)
2146 {
2147     if (!pTextObj) {
2148         return FALSE;
2149     }
2150     int i = 0;
2151     if (!ObjPos) {
2152         ObjPos = m_pPage->GetLastObjectPosition();
2153     }
2154     CPDF_PageObject* pObj = m_pPage->GetPrevObject(ObjPos);
2155     while (i < 5 && ObjPos) {
2156         pObj = m_pPage->GetPrevObject(ObjPos);
2157         if(pObj == pTextObj) {
2158             continue;
2159         }
2160         if(pObj->m_Type != PDFPAGE_TEXT) {
2161             continue;
2162         }
2163         if(IsSameTextObject((CPDF_TextObject*)pObj, pTextObj)) {
2164             return TRUE;
2165         }
2166         i++;
2167     }
2168     return FALSE;
2169 }
2170 FX_BOOL CPDF_TextPage::GenerateCharInfo(FX_WCHAR unicode, PAGECHAR_INFO& info)
2171 {
2172     int size = m_TempCharList.GetSize();
2173     PAGECHAR_INFO preChar;
2174     if (size) {
2175         preChar = (PAGECHAR_INFO)m_TempCharList[size - 1];
2176     } else {
2177         size = m_charList.GetSize();
2178         if(size == 0) {
2179             return FALSE;
2180         }
2181         preChar = (PAGECHAR_INFO)m_charList[size - 1];
2182     }
2183     info.m_Index = m_TextBuf.GetLength();
2184     info.m_Unicode = unicode;
2185     info.m_pTextObj = NULL;
2186     info.m_CharCode = -1;
2187     info.m_Flag = FPDFTEXT_CHAR_GENERATED;
2188     int preWidth = 0;
2189     if (preChar.m_pTextObj && preChar.m_CharCode != (FX_DWORD) - 1) {
2190         preWidth = GetCharWidth(preChar.m_CharCode, preChar.m_pTextObj->GetFont());
2191     }
2192     FX_FLOAT fs = 0;
2193     if(preChar.m_pTextObj) {
2194         fs = preChar.m_pTextObj->GetFontSize();
2195     } else {
2196         fs = preChar.m_CharBox.Height();
2197     }
2198     if(!fs) {
2199         fs = 1;
2200     }
2201     info.m_OriginX = preChar.m_OriginX + preWidth * (fs) / 1000;
2202     info.m_OriginY = preChar.m_OriginY;
2203     info.m_CharBox = CFX_FloatRect(info.m_OriginX, info.m_OriginY, info.m_OriginX, info.m_OriginY);
2204     return TRUE;
2205 }
2206 FX_BOOL CPDF_TextPage::IsRectIntersect(const CFX_FloatRect& rect1, const CFX_FloatRect& rect2)
2207 {
2208     CFX_FloatRect rect = rect1;
2209     rect.Intersect(rect2);
2210     return !rect.IsEmpty();
2211 }
2212 FX_BOOL CPDF_TextPage::IsLetter(FX_WCHAR unicode)
2213 {
2214     if (unicode < L'A') {
2215         return FALSE;
2216     }
2217     if (unicode > L'Z' && unicode < L'a') {
2218         return FALSE;
2219     }
2220     if (unicode > L'z') {
2221         return FALSE;
2222     }
2223     return TRUE;
2224 }
2225 CPDF_TextPageFind::CPDF_TextPageFind(const IPDF_TextPage* pTextPage)
2226     : m_pTextPage(pTextPage),
2227       m_flags(0),
2228       m_findNextStart(-1),
2229       m_findPreStart(-1),
2230       m_bMatchCase(FALSE),
2231       m_bMatchWholeWord(FALSE),
2232       m_resStart(0),
2233       m_resEnd(-1),
2234       m_IsFind(FALSE)
2235 {
2236     m_strText = m_pTextPage->GetPageText();
2237     int nCount = pTextPage->CountChars();
2238     if(nCount) {
2239         m_CharIndex.Add(0);
2240     }
2241     for(int i = 0; i < nCount; i++) {
2242         FPDF_CHAR_INFO info;
2243         pTextPage->GetCharInfo(i, info);
2244         int indexSize = m_CharIndex.GetSize();
2245         if(info.m_Flag == CHAR_NORMAL || info.m_Flag == CHAR_GENERATED) {
2246             if(indexSize % 2) {
2247                 m_CharIndex.Add(1);
2248             } else {
2249                 if(indexSize <= 0) {
2250                     continue;
2251                 }
2252                 m_CharIndex.SetAt(indexSize - 1, m_CharIndex.GetAt(indexSize - 1) + 1);
2253             }
2254         } else {
2255             if(indexSize % 2) {
2256                 if(indexSize <= 0) {
2257                     continue;
2258                 }
2259                 m_CharIndex.SetAt(indexSize - 1, i + 1);
2260             } else {
2261                 m_CharIndex.Add(i + 1);
2262             }
2263         }
2264     }
2265     int indexSize = m_CharIndex.GetSize();
2266     if(indexSize % 2) {
2267         m_CharIndex.RemoveAt(indexSize - 1);
2268     }
2269 }
2270 int CPDF_TextPageFind::GetCharIndex(int index) const
2271 {
2272     return m_pTextPage->CharIndexFromTextIndex(index);
2273     int indexSize = m_CharIndex.GetSize();
2274     int count = 0;
2275     for(int i = 0; i < indexSize; i += 2) {
2276         count += m_CharIndex.GetAt(i + 1);
2277         if(count > index) {
2278             return      index - count + m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i);
2279         }
2280     }
2281     return -1;
2282 }
2283 FX_BOOL CPDF_TextPageFind::FindFirst(const CFX_WideString& findwhat, int flags, int startPos)
2284 {
2285     if (!m_pTextPage) {
2286         return FALSE;
2287     }
2288     if (m_strText.IsEmpty() || m_bMatchCase != (flags & FPDFTEXT_MATCHCASE)) {
2289         m_strText = m_pTextPage->GetPageText();
2290     }
2291     CFX_WideString findwhatStr = findwhat;
2292     m_findWhat = findwhatStr;
2293     m_flags = flags;
2294     m_bMatchCase = flags & FPDFTEXT_MATCHCASE;
2295     if (m_strText.IsEmpty()) {
2296         m_IsFind = FALSE;
2297         return TRUE;
2298     }
2299     FX_STRSIZE len = findwhatStr.GetLength();
2300     if (!m_bMatchCase) {
2301         findwhatStr.MakeLower();
2302         m_strText.MakeLower();
2303     }
2304     m_bMatchWholeWord = flags & FPDFTEXT_MATCHWHOLEWORD;
2305     m_findNextStart = startPos;
2306     if (startPos == -1) {
2307         m_findPreStart = m_strText.GetLength() - 1;
2308     } else {
2309         m_findPreStart = startPos;
2310     }
2311     m_csFindWhatArray.RemoveAll();
2312     int i = 0;
2313     while(i < len) {
2314         if(findwhatStr.GetAt(i) != ' ') {
2315             break;
2316         }
2317         i++;
2318     }
2319     if(i < len) {
2320         ExtractFindWhat(findwhatStr);
2321     } else {
2322         m_csFindWhatArray.Add(findwhatStr);
2323     }
2324     if(m_csFindWhatArray.GetSize() <= 0) {
2325         return FALSE;
2326     }
2327     m_IsFind = TRUE;
2328     m_resStart = 0;
2329     m_resEnd = -1;
2330     return TRUE;
2331 }
2332 FX_BOOL CPDF_TextPageFind::FindNext()
2333 {
2334     if (!m_pTextPage) {
2335         return FALSE;
2336     }
2337     m_resArray.RemoveAll();
2338     if(m_findNextStart == -1) {
2339         return FALSE;
2340     }
2341     if(m_strText.IsEmpty()) {
2342         m_IsFind = FALSE;
2343         return m_IsFind;
2344     }
2345     int strLen = m_strText.GetLength();
2346     if (m_findNextStart > strLen - 1) {
2347         m_IsFind = FALSE;
2348         return m_IsFind;
2349     }
2350     int nCount = m_csFindWhatArray.GetSize();
2351     int nResultPos = 0;
2352     int nStartPos = 0;
2353     nStartPos = m_findNextStart;
2354     FX_BOOL bSpaceStart = FALSE;
2355     for(int iWord = 0; iWord < nCount; iWord++) {
2356         CFX_WideString csWord = m_csFindWhatArray[iWord];
2357         if(csWord.IsEmpty()) {
2358             if(iWord == nCount - 1) {
2359                 FX_WCHAR strInsert = m_strText.GetAt(nStartPos);
2360                 if(strInsert == TEXT_LINEFEED_CHAR || strInsert == TEXT_BLANK_CHAR || strInsert == TEXT_RETURN_CHAR || strInsert == 160) {
2361                     nResultPos = nStartPos + 1;
2362                     break;
2363                 }
2364                 iWord = -1;
2365             } else if(iWord == 0) {
2366                 bSpaceStart = TRUE;
2367             }
2368             continue;
2369         }
2370         int endIndex;
2371         nResultPos = m_strText.Find(csWord.c_str(), nStartPos);
2372         if (nResultPos == -1) {
2373             m_IsFind = FALSE;
2374             return m_IsFind;
2375         }
2376         endIndex = nResultPos + csWord.GetLength() - 1;
2377         if(iWord == 0) {
2378             m_resStart = nResultPos;
2379         }
2380         FX_BOOL bMatch = TRUE;
2381         if(iWord != 0 && !bSpaceStart) {
2382             int PreResEndPos = nStartPos;
2383             int curChar = csWord.GetAt(0);
2384             CFX_WideString lastWord = m_csFindWhatArray[iWord - 1];
2385             int lastChar = lastWord.GetAt(lastWord.GetLength() - 1);
2386             if(nStartPos == nResultPos && !(_IsIgnoreSpaceCharacter(lastChar) || _IsIgnoreSpaceCharacter(curChar))) {
2387                 bMatch = FALSE;
2388             }
2389             for(int d = PreResEndPos; d < nResultPos; d++) {
2390                 FX_WCHAR strInsert = m_strText.GetAt(d);
2391                 if(strInsert != TEXT_LINEFEED_CHAR && strInsert != TEXT_BLANK_CHAR && strInsert != TEXT_RETURN_CHAR && strInsert != 160) {
2392                     bMatch = FALSE;
2393                     break;
2394                 }
2395             }
2396         } else if(bSpaceStart) {
2397             if(nResultPos > 0) {
2398                 FX_WCHAR strInsert = m_strText.GetAt(nResultPos - 1);
2399                 if(strInsert != TEXT_LINEFEED_CHAR && strInsert != TEXT_BLANK_CHAR && strInsert != TEXT_RETURN_CHAR && strInsert != 160) {
2400                     bMatch = FALSE;
2401                     m_resStart = nResultPos;
2402                 } else {
2403                     m_resStart = nResultPos - 1;
2404                 }
2405             }
2406         }
2407         if(m_bMatchWholeWord && bMatch) {
2408             bMatch = IsMatchWholeWord(m_strText, nResultPos, endIndex);
2409         }
2410         nStartPos = endIndex + 1;
2411         if(!bMatch) {
2412             iWord = -1;
2413             if(bSpaceStart) {
2414                 nStartPos = m_resStart + m_csFindWhatArray[1].GetLength();
2415             } else {
2416                 nStartPos = m_resStart + m_csFindWhatArray[0].GetLength();
2417             }
2418         }
2419     }
2420     m_resEnd = nResultPos + m_csFindWhatArray[m_csFindWhatArray.GetSize() - 1].GetLength() - 1;
2421     m_IsFind = TRUE;
2422     int resStart = GetCharIndex(m_resStart);
2423     int resEnd = GetCharIndex(m_resEnd);
2424     m_pTextPage->GetRectArray(resStart, resEnd - resStart + 1, m_resArray);
2425     if(m_flags & FPDFTEXT_CONSECUTIVE) {
2426         m_findNextStart = m_resStart + 1;
2427         m_findPreStart = m_resEnd - 1;
2428     } else {
2429         m_findNextStart = m_resEnd + 1;
2430         m_findPreStart = m_resStart - 1;
2431     }
2432     return m_IsFind;
2433 }
2434 FX_BOOL CPDF_TextPageFind::FindPrev()
2435 {
2436     if (!m_pTextPage) {
2437         return FALSE;
2438     }
2439     m_resArray.RemoveAll();
2440     if(m_strText.IsEmpty() || m_findPreStart < 0) {
2441         m_IsFind = FALSE;
2442         return m_IsFind;
2443     }
2444     CPDF_TextPageFind findEngine(m_pTextPage);
2445     FX_BOOL ret = findEngine.FindFirst(m_findWhat, m_flags);
2446     if(!ret) {
2447         m_IsFind = FALSE;
2448         return m_IsFind;
2449     }
2450     int order = -1, MatchedCount = 0;
2451     while(ret) {
2452         ret = findEngine.FindNext();
2453         if(ret) {
2454             int order1 = findEngine.GetCurOrder() ;
2455             int MatchedCount1 = findEngine.GetMatchedCount();
2456             if(((order1 + MatchedCount1) - 1) > m_findPreStart) {
2457                 break;
2458             }
2459             order = order1;
2460             MatchedCount = MatchedCount1;
2461         }
2462     }
2463     if(order == -1) {
2464         m_IsFind = FALSE;
2465         return m_IsFind;
2466     }
2467     m_resStart = m_pTextPage->TextIndexFromCharIndex(order);
2468     m_resEnd = m_pTextPage->TextIndexFromCharIndex(order + MatchedCount - 1);
2469     m_IsFind = TRUE;
2470     m_pTextPage->GetRectArray(order, MatchedCount, m_resArray);
2471     if(m_flags & FPDFTEXT_CONSECUTIVE) {
2472         m_findNextStart = m_resStart + 1;
2473         m_findPreStart = m_resEnd - 1;
2474     } else {
2475         m_findNextStart = m_resEnd + 1;
2476         m_findPreStart = m_resStart - 1;
2477     }
2478     return m_IsFind;
2479 }
2480 void CPDF_TextPageFind::ExtractFindWhat(const CFX_WideString& findwhat)
2481 {
2482     if(findwhat.IsEmpty()) {
2483         return ;
2484     }
2485     int index = 0;
2486     while(1) {
2487         CFX_WideString csWord = TEXT_EMPTY;
2488         int ret = ExtractSubString(csWord, findwhat.c_str(), index, TEXT_BLANK_CHAR);
2489         if(csWord.IsEmpty()) {
2490             if(ret) {
2491                 m_csFindWhatArray.Add(CFX_WideString(L""));
2492                 index++;
2493                 continue;
2494             } else {
2495                 break;
2496             }
2497         }
2498         int pos = 0;
2499         while(pos < csWord.GetLength()) {
2500             CFX_WideString curStr = csWord.Mid(pos, 1);
2501             FX_WCHAR curChar = csWord.GetAt(pos);
2502             if (_IsIgnoreSpaceCharacter(curChar)) {
2503                 if (pos > 0 && curChar == 0x2019) {
2504                     pos++;
2505                     continue;
2506                 }
2507                 if (pos > 0 ) {
2508                     CFX_WideString preStr = csWord.Mid(0, pos);
2509                     m_csFindWhatArray.Add(preStr);
2510                 }
2511                 m_csFindWhatArray.Add(curStr);
2512                 if (pos == csWord.GetLength() - 1) {
2513                     csWord.Empty();
2514                     break;
2515                 }
2516                 csWord = csWord.Right(csWord.GetLength() - pos - 1);
2517                 pos = 0;
2518                 continue;
2519             }
2520             pos++;
2521         }
2522         if (!csWord.IsEmpty()) {
2523             m_csFindWhatArray.Add(csWord);
2524         }
2525         index++;
2526     }
2527 }
2528 FX_BOOL CPDF_TextPageFind::IsMatchWholeWord(const CFX_WideString& csPageText, int startPos, int endPos)
2529 {
2530     int char_left = 0;
2531     int char_right = 0;
2532     int char_count = endPos - startPos + 1;
2533     if(char_count < 1) {
2534         return FALSE;
2535     }
2536     if (char_count == 1 && csPageText.GetAt(startPos) > 255) {
2537         return TRUE;
2538     }
2539     if(startPos - 1 >= 0 ) {
2540         char_left = csPageText.GetAt(startPos - 1);
2541     }
2542     if(startPos + char_count < csPageText.GetLength()) {
2543         char_right = csPageText.GetAt(startPos + char_count);
2544     }
2545     if ((char_left > 'A' && char_left < 'a') || (char_left > 'a' && char_left < 'z') || (char_left > 0xfb00 && char_left < 0xfb06) || (char_left >= '0' && char_left <= '9') ||
2546             (char_right > 'A' && char_right < 'a') || (char_right > 'a' && char_right < 'z') || (char_right > 0xfb00 && char_right < 0xfb06) || (char_right >= '0' && char_right <= '9')) {
2547         return FALSE;
2548     }
2549     if(!(('A' > char_left || char_left > 'Z')  && ('a' > char_left || char_left > 'z')
2550             && ('A' > char_right || char_right > 'Z')  && ('a' > char_right || char_right > 'z'))) {
2551         return FALSE;
2552     }
2553     if (char_count > 0) {
2554         if (csPageText.GetAt(startPos) >= L'0' && csPageText.GetAt(startPos) <= L'9' && char_left >= L'0' && char_left <= L'9') {
2555             return FALSE;
2556         }
2557         if (csPageText.GetAt(endPos) >= L'0' && csPageText.GetAt(endPos) <= L'9' && char_right >= L'0' && char_right <= L'9') {
2558             return FALSE;
2559         }
2560     }
2561     return TRUE;
2562 }
2563 FX_BOOL CPDF_TextPageFind::ExtractSubString(CFX_WideString& rString, const FX_WCHAR* lpszFullString,
2564         int iSubString, FX_WCHAR chSep)
2565 {
2566     if (lpszFullString == NULL) {
2567         return FALSE;
2568     }
2569     while (iSubString--) {
2570         lpszFullString = FXSYS_wcschr(lpszFullString, chSep);
2571         if (lpszFullString == NULL) {
2572             rString.Empty();
2573             return FALSE;
2574         }
2575         lpszFullString++;
2576         while(*lpszFullString == chSep) {
2577             lpszFullString++;
2578         }
2579     }
2580     const FX_WCHAR* lpchEnd = FXSYS_wcschr(lpszFullString, chSep);
2581     int nLen = (lpchEnd == NULL) ?
2582                (int)FXSYS_wcslen(lpszFullString) : (int)(lpchEnd - lpszFullString);
2583     ASSERT(nLen >= 0);
2584     FXSYS_memcpy(rString.GetBuffer(nLen), lpszFullString, nLen * sizeof(FX_WCHAR));
2585     rString.ReleaseBuffer();
2586     return TRUE;
2587 }
2588 CFX_WideString CPDF_TextPageFind::MakeReverse(const CFX_WideString& str)
2589 {
2590     CFX_WideString str2;
2591     str2.Empty();
2592     int nlen = str.GetLength();
2593     for(int i = nlen - 1; i >= 0; i--) {
2594         str2 += str.GetAt(i);
2595     }
2596     return str2;
2597 }
2598 void CPDF_TextPageFind::GetRectArray(CFX_RectArray& rects) const
2599 {
2600     rects.Copy(m_resArray);
2601 }
2602 int     CPDF_TextPageFind::GetCurOrder() const
2603 {
2604     return GetCharIndex(m_resStart);
2605 }
2606 int     CPDF_TextPageFind::GetMatchedCount()const
2607 {
2608     int resStart = GetCharIndex(m_resStart);
2609     int resEnd = GetCharIndex(m_resEnd);
2610     return resEnd - resStart + 1;
2611 }
2612 CPDF_LinkExtract::CPDF_LinkExtract()
2613     : m_pTextPage(NULL),
2614       m_IsParserd(FALSE)
2615 {
2616 }
2617 CPDF_LinkExtract::~CPDF_LinkExtract()
2618 {
2619     DeleteLinkList();
2620 }
2621 FX_BOOL CPDF_LinkExtract::ExtractLinks(const IPDF_TextPage* pTextPage)
2622 {
2623     if (!pTextPage || !pTextPage->IsParsered()) {
2624         return FALSE;
2625     }
2626     m_pTextPage = (const CPDF_TextPage*)pTextPage;
2627     m_strPageText = m_pTextPage->GetPageText(0, -1);
2628     DeleteLinkList();
2629     if (m_strPageText.IsEmpty()) {
2630         return FALSE;
2631     }
2632     parserLink();
2633     m_IsParserd = TRUE;
2634     return TRUE;
2635 }
2636 void CPDF_LinkExtract::DeleteLinkList()
2637 {
2638     while (m_LinkList.GetSize()) {
2639         CPDF_LinkExt* linkinfo = NULL;
2640         linkinfo = m_LinkList.GetAt(0);
2641         m_LinkList.RemoveAt(0);
2642         delete linkinfo;
2643     }
2644     m_LinkList.RemoveAll();
2645 }
2646 int CPDF_LinkExtract::CountLinks() const
2647 {
2648     if (!m_IsParserd)   {
2649         return -1;
2650     }
2651     return m_LinkList.GetSize();
2652 }
2653 void CPDF_LinkExtract::parserLink()
2654 {
2655     int start = 0, pos = 0;
2656     int TotalChar = m_pTextPage->CountChars();
2657     while (pos < TotalChar) {
2658         FPDF_CHAR_INFO pageChar;
2659         m_pTextPage->GetCharInfo(pos, pageChar);
2660         if (pageChar.m_Flag == CHAR_GENERATED || pageChar.m_Unicode == 0x20 || pos == TotalChar - 1) {
2661             int nCount = pos - start;
2662             if(pos == TotalChar - 1) {
2663                 nCount++;
2664             }
2665             CFX_WideString strBeCheck;
2666             strBeCheck = m_pTextPage->GetPageText(start, nCount);
2667             if (strBeCheck.GetLength() > 5) {
2668                 while(strBeCheck.GetLength() > 0) {
2669                     FX_WCHAR ch = strBeCheck.GetAt(strBeCheck.GetLength() - 1);
2670                     if (ch == L')' || ch == L',' || ch == L'>' || ch == L'.') {
2671                         strBeCheck = strBeCheck.Mid(0, strBeCheck.GetLength() - 1);
2672                         nCount--;
2673                     } else {
2674                         break;
2675                     }
2676                 }
2677                 if (nCount > 5 && (CheckWebLink(strBeCheck) || CheckMailLink(strBeCheck))) {
2678                     if (!AppendToLinkList(start, nCount, strBeCheck)) {
2679                         break;
2680                     }
2681                 }
2682             }
2683             start = ++pos;
2684         } else {
2685             pos++;
2686         }
2687     }
2688 }
2689 FX_BOOL CPDF_LinkExtract::CheckWebLink(CFX_WideString& strBeCheck)
2690 {
2691     CFX_WideString str = strBeCheck;
2692     str.MakeLower();
2693     if (str.Find(L"http://www.") != -1) {
2694         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"http://www."));
2695         return TRUE;
2696     } else if (str.Find(L"http://") != -1) {
2697         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"http://"));
2698         return TRUE;
2699     } else if (str.Find(L"https://www.") != -1) {
2700         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"https://www."));
2701         return TRUE;
2702     } else if (str.Find(L"https://") != -1) {
2703         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"https://"));
2704         return TRUE;
2705     } else if (str.Find(L"www.") != -1) {
2706         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"www."));
2707         strBeCheck = L"http://" + strBeCheck;
2708         return TRUE;
2709     } else {
2710         return FALSE;
2711     }
2712 }
2713 FX_BOOL CPDF_LinkExtract::CheckMailLink(CFX_WideString& str)
2714 {
2715     str.MakeLower();
2716     int aPos = str.Find(L'@');
2717     if (aPos < 1) {
2718         return FALSE;
2719     }
2720     if (str.GetAt(aPos - 1) == L'.' || str.GetAt(aPos - 1) == L'_') {
2721         return FALSE;
2722     }
2723     int i;
2724     for (i = aPos - 1; i >= 0; i--) {
2725         FX_WCHAR ch = str.GetAt(i);
2726         if (ch == L'_' || ch == L'.' || (ch >= L'a' && ch <= L'z') || (ch >= L'0' && ch <= L'9')) {
2727             continue;
2728         } else {
2729             if (i == aPos - 1) {
2730                 return FALSE;
2731             }
2732             str = str.Right(str.GetLength() - i - 1);
2733             break;
2734         }
2735     }
2736     aPos = str.Find(L'@');
2737     if (aPos < 1) {
2738         return FALSE;
2739     }
2740     CFX_WideString strtemp = L"";
2741     for (i = 0; i < aPos; i++) {
2742         FX_WCHAR wch = str.GetAt(i);
2743         if (wch >= L'a' && wch <= L'z') {
2744             break;
2745         } else {
2746             strtemp = str.Right(str.GetLength() - i + 1);
2747         }
2748     }
2749     if (strtemp != L"") {
2750         str = strtemp;
2751     }
2752     aPos = str.Find(L'@');
2753     if (aPos < 1) {
2754         return FALSE;
2755     }
2756     str.TrimRight(L'.');
2757     strtemp = str;
2758     int ePos = str.Find(L'.');
2759     if (ePos == -1) {
2760         return FALSE;
2761     }
2762     while (ePos != -1) {
2763         strtemp = strtemp.Right(strtemp.GetLength() - ePos - 1);
2764         ePos = strtemp.Find('.');
2765     }
2766     ePos = strtemp.GetLength();
2767     for (i = 0; i < ePos; i++) {
2768         FX_WCHAR wch = str.GetAt(i);
2769         if ((wch >= L'a' && wch <= L'z') || (wch >= L'0' && wch <= L'9')) {
2770             continue;
2771         } else {
2772             str = str.Left(str.GetLength() - ePos + i + 1);
2773             ePos = ePos - i - 1;
2774             break;
2775         }
2776     }
2777     int nLen = str.GetLength();
2778     for (i = aPos + 1; i < nLen - ePos; i++) {
2779         FX_WCHAR wch = str.GetAt(i);
2780         if (wch == L'-' || wch == L'.' || (wch >= L'a' && wch <= L'z') || (wch >= L'0' && wch <= L'9')) {
2781             continue;
2782         } else {
2783             return FALSE;
2784         }
2785     }
2786     if (str.Find(L"mailto:") == -1) {
2787         str = L"mailto:" + str;
2788     }
2789     return TRUE;
2790 }
2791 FX_BOOL CPDF_LinkExtract::AppendToLinkList(int start, int count, const CFX_WideString& strUrl)
2792 {
2793     CPDF_LinkExt* linkInfo = NULL;
2794     linkInfo = FX_NEW CPDF_LinkExt;
2795     if (!linkInfo) {
2796         return FALSE;
2797     }
2798     linkInfo->m_strUrl = strUrl;
2799     linkInfo->m_Start = start;
2800     linkInfo->m_Count = count;
2801     m_LinkList.Add(linkInfo);
2802     return TRUE;
2803 }
2804 CFX_WideString CPDF_LinkExtract::GetURL(int index) const
2805 {
2806     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2807         return L"";
2808     }
2809     CPDF_LinkExt* link = NULL;
2810     link = m_LinkList.GetAt(index);
2811     if (!link) {
2812         return L"";
2813     }
2814     return link->m_strUrl;
2815 }
2816 void CPDF_LinkExtract::GetBoundedSegment(int index, int& start, int& count) const
2817 {
2818     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2819         return ;
2820     }
2821     CPDF_LinkExt* link = NULL;
2822     link = m_LinkList.GetAt(index);
2823     if (!link) {
2824         return ;
2825     }
2826     start = link->m_Start;
2827     count = link->m_Count;
2828 }
2829 void CPDF_LinkExtract::GetRects(int index, CFX_RectArray& rects) const
2830 {
2831     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2832         return;
2833     }
2834     CPDF_LinkExt* link = NULL;
2835     link = m_LinkList.GetAt(index);
2836     if (!link) {
2837         return ;
2838     }
2839     m_pTextPage->GetRectArray(link->m_Start, link->m_Count, rects);
2840 }