Cleanup: Refactor some code into its own function in fpdf_text_int.cpp.
[pdfium.git] / core / src / fpdftext / fpdf_text_int.cpp
1 // Copyright 2014 PDFium Authors. All rights reserved.
2 // Use of this source code is governed by a BSD-style license that can be
3 // found in the LICENSE file.
4  
5 // Original code copyright 2014 Foxit Software Inc. http://www.foxitsoftware.com
6
7 #include "../../include/fpdfapi/fpdf_resource.h"
8 #include "../../include/fpdfapi/fpdf_pageobj.h"
9 #include "../../include/fpdftext/fpdf_text.h"
10 #include "../../include/fpdfapi/fpdf_page.h"
11 #include "../../include/fpdfapi/fpdf_module.h"
12 #include <ctype.h>
13 #include <algorithm>
14 #include "text_int.h"
15
16 namespace {
17
18 FX_BOOL _IsIgnoreSpaceCharacter(FX_WCHAR curChar)
19 {
20     if(curChar < 255 ) {
21         return FALSE;
22     }
23     if ( (curChar >= 0x0600 && curChar <= 0x06FF)
24             || (curChar >= 0xFE70 && curChar <= 0xFEFF)
25             || (curChar >= 0xFB50 && curChar <= 0xFDFF)
26             || (curChar >= 0x0400 && curChar <= 0x04FF)
27             || (curChar >= 0x0500 && curChar <= 0x052F)
28             || (curChar >= 0xA640 && curChar <= 0xA69F)
29             || (curChar >= 0x2DE0 && curChar <= 0x2DFF)
30             || curChar == 8467
31             || (curChar >= 0x2000 && curChar <= 0x206F)) {
32         return FALSE;
33     }
34     return TRUE;
35 }
36
37 FX_FLOAT _NormalizeThreshold(FX_FLOAT threshold)
38 {
39     if (threshold < 300) {
40         return threshold / 2.0;
41     } else if (threshold < 500) {
42         return threshold / 4.0;
43     } else if (threshold < 700) {
44         return threshold / 5.0;
45     }
46     return threshold / 6.0;
47 }
48
49 FX_FLOAT _CalculateBaseSpace(const CPDF_TextObject* pTextObj,
50                              const CFX_AffineMatrix& matrix)
51 {
52     FX_FLOAT baseSpace = 0.0;
53     const int nItems = pTextObj->CountItems();
54     if (pTextObj->m_TextState.GetObject()->m_CharSpace && nItems >= 3) {
55         FX_BOOL bAllChar = TRUE;
56         FX_FLOAT spacing = matrix.TransformDistance(
57             pTextObj->m_TextState.GetObject()->m_CharSpace);
58         baseSpace = spacing;
59         for (int i = 0; i < nItems; i++) {
60             CPDF_TextObjectItem item;
61             pTextObj->GetItemInfo(i, &item);
62             if (item.m_CharCode == (FX_DWORD) - 1) {
63                 FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
64                 FX_FLOAT kerning = -fontsize_h * item.m_OriginX / 1000;
65                 baseSpace = std::min(baseSpace, kerning + spacing);
66                 bAllChar = FALSE;
67             }
68         }
69         if (baseSpace < 0.0 || (nItems == 3 && !bAllChar)) {
70             baseSpace = 0.0;
71         }
72     }
73     return baseSpace;
74 }
75
76 }  // namespace
77
78 CPDFText_ParseOptions::CPDFText_ParseOptions()
79     : m_bGetCharCodeOnly(FALSE), m_bNormalizeObjs(TRUE), m_bOutputHyphen(FALSE)
80 {
81 }
82 IPDF_TextPage* IPDF_TextPage::CreateTextPage(const CPDF_Page* pPage, CPDFText_ParseOptions ParserOptions)
83 {
84     CPDF_TextPage* pTextPageEx = FX_NEW CPDF_TextPage(pPage, ParserOptions);
85     return pTextPageEx;
86 }
87 IPDF_TextPage* IPDF_TextPage::CreateTextPage(const CPDF_Page* pPage, int flags)
88 {
89     CPDF_TextPage* pTextPage = FX_NEW CPDF_TextPage(pPage, flags);
90     return      pTextPage;
91 }
92 IPDF_TextPage*  IPDF_TextPage::CreateTextPage(const CPDF_PageObjects* pObjs, int flags)
93 {
94     CPDF_TextPage* pTextPage = FX_NEW CPDF_TextPage(pObjs, flags);
95     return      pTextPage;
96 }
97 IPDF_TextPageFind*      IPDF_TextPageFind::CreatePageFind(const IPDF_TextPage* pTextPage)
98 {
99     if (!pTextPage) {
100         return NULL;
101     }
102     return FX_NEW CPDF_TextPageFind(pTextPage);
103 }
104 IPDF_LinkExtract* IPDF_LinkExtract::CreateLinkExtract()
105 {
106     return FX_NEW CPDF_LinkExtract();
107 }
108 #define  TEXT_BLANK_CHAR                L' '
109 #define  TEXT_LINEFEED_CHAR             L'\n'
110 #define  TEXT_RETURN_CHAR               L'\r'
111 #define  TEXT_EMPTY                             L""
112 #define  TEXT_BLANK                             L" "
113 #define  TEXT_RETURN_LINEFEED   L"\r\n"
114 #define  TEXT_LINEFEED                  L"\n"
115 #define  TEXT_CHARRATIO_GAPDELTA        0.070
116 CPDF_TextPage::CPDF_TextPage(const CPDF_Page* pPage, int flags)
117     : m_charList(512),
118       m_TempCharList(50),
119       m_pPreTextObj(NULL),
120       m_IsParsered(FALSE),
121       m_TextlineDir(-1),
122       m_CurlineRect(0, 0, 0, 0)
123 {
124     m_pPage = pPage;
125     m_parserflag = flags;
126     m_TextBuf.EstimateSize(0, 10240);
127     pPage->GetDisplayMatrix(m_DisplayMatrix, 0, 0, (int) pPage->GetPageWidth(), (int)pPage->GetPageHeight(), 0);
128 }
129 CPDF_TextPage::CPDF_TextPage(const CPDF_Page* pPage, CPDFText_ParseOptions ParserOptions)
130     : m_ParseOptions(ParserOptions)
131     , m_charList(512)
132     , m_TempCharList(50)
133     , m_pPreTextObj(NULL)
134     , m_IsParsered(FALSE)
135     , m_TextlineDir(-1)
136     , m_CurlineRect(0, 0, 0, 0)
137 {
138     m_pPage = pPage;
139     m_parserflag = 0;
140     m_TextBuf.EstimateSize(0, 10240);
141     pPage->GetDisplayMatrix(m_DisplayMatrix, 0, 0, (int) pPage->GetPageWidth(), (int)pPage->GetPageHeight(), 0);
142 }
143 CPDF_TextPage::CPDF_TextPage(const CPDF_PageObjects* pPage, int flags)
144     : m_charList(512),
145       m_TempCharList(50),
146       m_pPreTextObj(NULL),
147       m_IsParsered(FALSE),
148       m_TextlineDir(-1),
149       m_CurlineRect(0, 0, 0, 0)
150 {
151     m_pPage = pPage;
152     m_parserflag = flags;
153     m_TextBuf.EstimateSize(0, 10240);
154     CFX_FloatRect pageRect = pPage->CalcBoundingBox();
155     m_DisplayMatrix = CFX_AffineMatrix(1, 0, 0, -1, pageRect.right, pageRect.top);
156 }
157 void CPDF_TextPage::NormalizeObjects(FX_BOOL bNormalize)
158 {
159     m_ParseOptions.m_bNormalizeObjs = bNormalize;
160 }
161 FX_BOOL CPDF_TextPage::IsControlChar(PAGECHAR_INFO* pCharInfo)
162 {
163     if(!pCharInfo) {
164         return FALSE;
165     }
166     switch(pCharInfo->m_Unicode) {
167         case 0x2:
168         case 0x3:
169         case 0x93:
170         case 0x94:
171         case 0x96:
172         case 0x97:
173         case 0x98:
174         case 0xfffe:
175             if(pCharInfo->m_Flag == FPDFTEXT_CHAR_HYPHEN) {
176                 return FALSE;
177             } else {
178                 return TRUE;
179             }
180         default:
181             return FALSE;
182     }
183 }
184 FX_BOOL CPDF_TextPage::ParseTextPage()
185 {
186     if (!m_pPage) {
187         m_IsParsered = FALSE;
188         return FALSE;
189     }
190     m_IsParsered = FALSE;
191     m_TextBuf.Clear();
192     m_charList.RemoveAll();
193     m_pPreTextObj = NULL;
194     ProcessObject();
195     m_IsParsered = TRUE;
196     if(!m_ParseOptions.m_bGetCharCodeOnly) {
197         m_CharIndex.RemoveAll();
198         int nCount = m_charList.GetSize();
199         if(nCount) {
200             m_CharIndex.Add(0);
201         }
202         for(int i = 0; i < nCount; i++) {
203             int indexSize = m_CharIndex.GetSize();
204             FX_BOOL bNormal = FALSE;
205             PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(i);
206             if(charinfo.m_Flag == FPDFTEXT_CHAR_GENERATED) {
207                 bNormal = TRUE;
208             }
209             else if(charinfo.m_Unicode == 0 || IsControlChar(&charinfo))
210                 bNormal = FALSE;
211             else {
212                 bNormal = TRUE;
213             }
214             if(bNormal) {
215                 if(indexSize % 2) {
216                     m_CharIndex.Add(1);
217                 } else {
218                     if(indexSize <= 0) {
219                         continue;
220                     }
221                     m_CharIndex.SetAt(indexSize - 1, m_CharIndex.GetAt(indexSize - 1) + 1);
222                 }
223             } else {
224                 if(indexSize % 2) {
225                     if(indexSize <= 0) {
226                         continue;
227                     }
228                     m_CharIndex.SetAt(indexSize - 1, i + 1);
229                 } else {
230                     m_CharIndex.Add(i + 1);
231                 }
232             }
233         }
234         int indexSize = m_CharIndex.GetSize();
235         if(indexSize % 2) {
236             m_CharIndex.RemoveAt(indexSize - 1);
237         }
238     }
239     return TRUE;
240 }
241 int     CPDF_TextPage::CountChars() const
242 {
243     if(m_ParseOptions.m_bGetCharCodeOnly) {
244         return m_TextBuf.GetSize();
245     }
246     return m_charList.GetSize();
247 }
248 int CPDF_TextPage::CharIndexFromTextIndex(int TextIndex) const
249 {
250     int indexSize = m_CharIndex.GetSize();
251     int count = 0;
252     for(int i = 0; i < indexSize; i += 2) {
253         count += m_CharIndex.GetAt(i + 1);
254         if(count > TextIndex) {
255             return      TextIndex - count + m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i);
256         }
257     }
258     return -1;
259 }
260 int CPDF_TextPage::TextIndexFromCharIndex(int CharIndex) const
261 {
262     int indexSize = m_CharIndex.GetSize();
263     int count = 0;
264     for(int i = 0; i < indexSize; i += 2) {
265         count += m_CharIndex.GetAt(i + 1);
266         if(m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i) > CharIndex) {
267             if(CharIndex - m_CharIndex.GetAt(i) < 0) {
268                 return -1;
269             }
270             return      CharIndex - m_CharIndex.GetAt(i) + count - m_CharIndex.GetAt(i + 1);
271         }
272     }
273     return -1;
274 }
275 void CPDF_TextPage::GetRectArray(int start, int nCount, CFX_RectArray& rectArray) const
276 {
277     if(m_ParseOptions.m_bGetCharCodeOnly) {
278         return;
279     }
280     if(start < 0 || nCount == 0) {
281         return;
282     }
283     if (!m_IsParsered)  {
284         return;
285     }
286     PAGECHAR_INFO               info_curchar;
287     CPDF_TextObject*    pCurObj = NULL;
288     CFX_FloatRect               rect;
289     int                                 curPos = start;
290     FX_BOOL                             flagNewRect = TRUE;
291     if (nCount + start > m_charList.GetSize() || nCount == -1) {
292         nCount = m_charList.GetSize() - start;
293     }
294     while (nCount--) {
295         info_curchar = *(PAGECHAR_INFO*)m_charList.GetAt(curPos++);
296         if (info_curchar.m_Flag == FPDFTEXT_CHAR_GENERATED) {
297             continue;
298         }
299         if(info_curchar.m_CharBox.Width() < 0.01 || info_curchar.m_CharBox.Height() < 0.01) {
300             continue;
301         }
302         if(!pCurObj) {
303             pCurObj = info_curchar.m_pTextObj;
304         }
305         if (pCurObj != info_curchar.m_pTextObj) {
306             rectArray.Add(rect);
307             pCurObj = info_curchar.m_pTextObj;
308             flagNewRect = TRUE;
309         }
310         if (flagNewRect) {
311             FX_FLOAT orgX = info_curchar.m_OriginX, orgY = info_curchar.m_OriginY;
312             CFX_AffineMatrix matrix, matrix_reverse;
313             info_curchar.m_pTextObj->GetTextMatrix(&matrix);
314             matrix.Concat(info_curchar.m_Matrix);
315             matrix_reverse.SetReverse(matrix);
316             matrix_reverse.Transform(orgX, orgY);
317             rect.left = info_curchar.m_CharBox.left;
318             rect.right = info_curchar.m_CharBox.right;
319             if (pCurObj->GetFont()->GetTypeDescent()) {
320                 rect.bottom = orgY + pCurObj->GetFont()->GetTypeDescent() * pCurObj->GetFontSize() / 1000;
321                 FX_FLOAT xPosTemp = orgX;
322                 matrix.Transform(xPosTemp, rect.bottom);
323             } else {
324                 rect.bottom = info_curchar.m_CharBox.bottom;
325             }
326             if (pCurObj->GetFont()->GetTypeAscent()) {
327                 rect.top = orgY + pCurObj->GetFont()->GetTypeAscent() * pCurObj->GetFontSize() / 1000;
328                 FX_FLOAT xPosTemp = orgX + GetCharWidth(info_curchar.m_CharCode, pCurObj->GetFont()) * pCurObj->GetFontSize() / 1000;
329                 matrix.Transform(xPosTemp, rect.top);
330             } else {
331                 rect.top = info_curchar.m_CharBox.top;
332             }
333             flagNewRect = FALSE;
334             rect = info_curchar.m_CharBox;
335             rect.Normalize();
336         } else {
337             info_curchar.m_CharBox.Normalize();
338             if (rect.left > info_curchar.m_CharBox.left) {
339                 rect.left = info_curchar.m_CharBox.left;
340             }
341             if (rect.right < info_curchar.m_CharBox.right) {
342                 rect.right = info_curchar.m_CharBox.right;
343             }
344             if ( rect.top < info_curchar.m_CharBox.top) {
345                 rect.top = info_curchar.m_CharBox.top;
346             }
347             if (rect.bottom > info_curchar.m_CharBox.bottom) {
348                 rect.bottom = info_curchar.m_CharBox.bottom;
349             }
350         }
351     }
352     rectArray.Add(rect);
353     return;
354 }
355 int CPDF_TextPage::GetIndexAtPos(CPDF_Point point , FX_FLOAT xTorelance, FX_FLOAT yTorelance) const
356 {
357     if(m_ParseOptions.m_bGetCharCodeOnly) {
358         return -3;
359     }
360     if (!m_IsParsered)  {
361         return  -3;
362     }
363     int pos = 0;
364     int NearPos = -1;
365     double xdif = 5000, ydif = 5000;
366     while(pos < m_charList.GetSize()) {
367         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)(m_charList.GetAt(pos));
368         CFX_FloatRect charrect = charinfo.m_CharBox;
369         if (charrect.Contains(point.x, point.y)) {
370             break;
371         }
372         if (xTorelance > 0 || yTorelance > 0) {
373             CFX_FloatRect charRectExt;
374             charrect.Normalize();
375             charRectExt.left = charrect.left - xTorelance / 2;
376             charRectExt.right = charrect.right + xTorelance / 2;
377             charRectExt.top = charrect.top + yTorelance / 2;
378             charRectExt.bottom = charrect.bottom - yTorelance / 2;
379             if (charRectExt.Contains(point.x, point.y)) {
380                 double curXdif, curYdif;
381                 curXdif = FXSYS_fabs(point.x - charrect.left) < FXSYS_fabs(point.x - charrect.right) ? FXSYS_fabs(point.x - charrect.left) : FXSYS_fabs(point.x - charrect.right);
382                 curYdif = FXSYS_fabs(point.y - charrect.bottom) < FXSYS_fabs(point.y - charrect.top     ) ? FXSYS_fabs(point.y - charrect.bottom) : FXSYS_fabs(point.y - charrect.top);
383                 if (curYdif + curXdif < xdif + ydif) {
384                     ydif = curYdif;
385                     xdif = curXdif;
386                     NearPos = pos;
387                 }
388             }
389         }
390         ++pos;
391     }
392     if (pos >= m_charList.GetSize()) {
393         pos = NearPos;
394     }
395     return pos;
396 }
397 CFX_WideString CPDF_TextPage::GetTextByRect(const CFX_FloatRect& rect) const
398 {
399     CFX_WideString strText;
400     if(m_ParseOptions.m_bGetCharCodeOnly || !m_IsParsered) {
401         return strText;
402     }
403     int nCount = m_charList.GetSize();
404     int pos = 0;
405     FX_FLOAT posy = 0;
406     FX_BOOL IsContainPreChar = FALSE;
407     FX_BOOL     ISAddLineFeed = FALSE;
408     while (pos < nCount) {
409         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(pos++);
410         if (IsRectIntersect(rect, charinfo.m_CharBox)) {
411             if (FXSYS_fabs(posy - charinfo.m_OriginY) > 0 && !IsContainPreChar && ISAddLineFeed) {
412                 posy = charinfo.m_OriginY;
413                 if (strText.GetLength() > 0) {
414                     strText += L"\r\n";
415                 }
416             }
417             IsContainPreChar = TRUE;
418             ISAddLineFeed = FALSE;
419             if (charinfo.m_Unicode) {
420                 strText += charinfo.m_Unicode;
421             }
422         } else if (charinfo.m_Unicode == 32) {
423             if (IsContainPreChar && charinfo.m_Unicode) {
424                 strText += charinfo.m_Unicode;
425                 IsContainPreChar = FALSE;
426                 ISAddLineFeed = FALSE;
427             }
428         } else {
429             IsContainPreChar = FALSE;
430             ISAddLineFeed = TRUE;
431         }
432     }
433     return strText;
434 }
435 void CPDF_TextPage::GetRectsArrayByRect(const CFX_FloatRect& rect, CFX_RectArray& resRectArray) const
436 {
437     if(m_ParseOptions.m_bGetCharCodeOnly) {
438         return;
439     }
440     if (!m_IsParsered)  {
441         return;
442     }
443     CFX_FloatRect               curRect;
444     FX_BOOL                             flagNewRect = TRUE;
445     CPDF_TextObject*    pCurObj = NULL;
446     int nCount = m_charList.GetSize();
447     int pos = 0;
448     while (pos < nCount) {
449         PAGECHAR_INFO info_curchar = *(PAGECHAR_INFO*)m_charList.GetAt(pos++);
450         if (info_curchar.m_Flag == FPDFTEXT_CHAR_GENERATED) {
451             continue;
452         }
453         if (IsRectIntersect(rect, info_curchar.m_CharBox)) {
454             if(!pCurObj) {
455                 pCurObj = info_curchar.m_pTextObj;
456             }
457             if (pCurObj != info_curchar.m_pTextObj) {
458                 resRectArray.Add(curRect);
459                 pCurObj = info_curchar.m_pTextObj;
460                 flagNewRect = TRUE;
461             }
462             if (flagNewRect) {
463                 curRect = info_curchar.m_CharBox;
464                 flagNewRect = FALSE;
465                 curRect.Normalize();
466             } else {
467                 info_curchar.m_CharBox.Normalize();
468                 if (curRect.left > info_curchar.m_CharBox.left) {
469                     curRect.left = info_curchar.m_CharBox.left;
470                 }
471                 if (curRect.right < info_curchar.m_CharBox.right) {
472                     curRect.right = info_curchar.m_CharBox.right;
473                 }
474                 if ( curRect.top < info_curchar.m_CharBox.top) {
475                     curRect.top = info_curchar.m_CharBox.top;
476                 }
477                 if (curRect.bottom > info_curchar.m_CharBox.bottom) {
478                     curRect.bottom = info_curchar.m_CharBox.bottom;
479                 }
480             }
481         }
482     }
483     resRectArray.Add(curRect);
484     return;
485 }
486 int     CPDF_TextPage::GetIndexAtPos(FX_FLOAT x, FX_FLOAT y, FX_FLOAT xTorelance, FX_FLOAT yTorelance) const
487 {
488     if(m_ParseOptions.m_bGetCharCodeOnly) {
489         return -3;
490     }
491     CPDF_Point point(x, y);
492     return GetIndexAtPos(point, xTorelance, yTorelance);
493 }
494 int CPDF_TextPage::GetOrderByDirection(int order, int direction) const
495 {
496     if(m_ParseOptions.m_bGetCharCodeOnly) {
497         return -3;
498     }
499     if (!m_IsParsered) {
500         return -3;
501     }
502     if (direction == FPDFTEXT_RIGHT || direction == FPDFTEXT_LEFT) {
503         order += direction;
504         while(order >= 0 && order < m_charList.GetSize()) {
505             PAGECHAR_INFO cinfo = *(PAGECHAR_INFO*)m_charList.GetAt(order);
506             if (cinfo.m_Flag != FPDFTEXT_CHAR_GENERATED) {
507                 break;
508             } else {
509                 if (cinfo.m_Unicode == TEXT_LINEFEED_CHAR || cinfo.m_Unicode == TEXT_RETURN_CHAR) {
510                     order += direction;
511                 } else {
512                     break;
513                 }
514             }
515         }
516         if (order >= m_charList.GetSize()) {
517             order = -2;
518         }
519         return order;
520     }
521     PAGECHAR_INFO charinfo;
522     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(order);
523     CPDF_Point curPos(charinfo.m_OriginX, charinfo.m_OriginY);
524     FX_FLOAT difPosY = 0.0, minXdif = 1000;
525     int minIndex = -2;
526     int index = order;
527     FX_FLOAT height = charinfo.m_CharBox.Height();
528     if (direction == FPDFTEXT_UP) {
529         minIndex = -1;
530         while (1) {
531             if (--index < 0)    {
532                 return -1;
533             }
534             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
535             if (FXSYS_fabs(charinfo.m_OriginY - curPos.y) > FX_MAX(height, charinfo.m_CharBox.Height()) / 2) {
536                 difPosY = charinfo.m_OriginY;
537                 minIndex = index;
538                 break;
539             }
540         }
541         FX_FLOAT PreXdif = charinfo.m_OriginX - curPos.x;
542         minXdif = PreXdif;
543         if (PreXdif == 0)       {
544             return index;
545         }
546         FX_FLOAT curXdif = 0;
547         while (--index >= 0) {
548             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
549             if (difPosY != charinfo.m_OriginY) {
550                 break;
551             }
552             curXdif = charinfo.m_OriginX - curPos.x;
553             if (curXdif == 0) {
554                 return index;
555             }
556             int signflag = 0;
557             if (curXdif > 0) {
558                 signflag = 1;
559             } else {
560                 signflag = -1;
561             }
562             if (signflag * PreXdif < 0) {
563                 if (FXSYS_fabs(PreXdif) < FXSYS_fabs(curXdif)) {
564                     return index + 1;
565                 } else {
566                     return index;
567                 }
568             }
569             if (FXSYS_fabs(curXdif) < FXSYS_fabs(minXdif)) {
570                 minIndex = index;
571                 minXdif = curXdif;
572             }
573             PreXdif = curXdif;
574             if (difPosY != charinfo.m_OriginY) {
575                 break;
576             }
577         }
578         return minIndex;
579     } else if(FPDFTEXT_DOWN) {
580         minIndex = -2;
581         while (1) {
582             if (++index > m_charList.GetSize() - 1)     {
583                 return minIndex;
584             }
585             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
586             if (FXSYS_fabs(charinfo.m_OriginY - curPos.y) > FX_MAX(height, charinfo.m_CharBox.Height()) / 2) {
587                 difPosY = charinfo.m_OriginY;
588                 minIndex = index;
589                 break;
590             }
591         }
592         FX_FLOAT PreXdif = charinfo.m_OriginX - curPos.x;
593         minXdif = PreXdif;
594         if (PreXdif == 0)       {
595             return index;
596         }
597         FX_FLOAT curXdif = 0;
598         while (++index < m_charList.GetSize()) {
599             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
600             if (difPosY != charinfo.m_OriginY) {
601                 break;
602             }
603             curXdif = charinfo.m_OriginX - curPos.x;
604             if (curXdif == 0) {
605                 return index;
606             }
607             int signflag = 0;
608             if (curXdif > 0) {
609                 signflag = 1;
610             } else {
611                 signflag = -1;
612             }
613             if (signflag * PreXdif < 0) {
614                 if (FXSYS_fabs(PreXdif) < FXSYS_fabs(curXdif)) {
615                     return index - 1;
616                 } else {
617                     return index;
618                 }
619             }
620             if (FXSYS_fabs(curXdif) < FXSYS_fabs(minXdif)) {
621                 minXdif = curXdif;
622                 minIndex = index;
623             }
624             PreXdif = curXdif;
625         }
626         return minIndex;
627     }
628 }
629 void CPDF_TextPage::GetCharInfo(int index, FPDF_CHAR_INFO & info) const
630 {
631     if(m_ParseOptions.m_bGetCharCodeOnly) {
632         return;
633     }
634     if (!m_IsParsered)  {
635         return;
636     }
637     if (index < 0 || index >= m_charList.GetSize())     {
638         return;
639     }
640     PAGECHAR_INFO charinfo;
641     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
642     info.m_Charcode = charinfo.m_CharCode;
643     info.m_OriginX = charinfo.m_OriginX;
644     info.m_OriginY = charinfo.m_OriginY;
645     info.m_Unicode = charinfo.m_Unicode;
646     info.m_Flag = charinfo.m_Flag;
647     info.m_CharBox = charinfo.m_CharBox;
648     info.m_pTextObj = charinfo.m_pTextObj;
649     if (charinfo.m_pTextObj && charinfo.m_pTextObj->GetFont()) {
650         info.m_FontSize = charinfo.m_pTextObj->GetFontSize();
651     }
652     info.m_Matrix.Copy(charinfo.m_Matrix);
653     return;
654 }
655 void CPDF_TextPage::CheckMarkedContentObject(FX_INT32& start, FX_INT32& nCount) const
656 {
657     PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start);
658     PAGECHAR_INFO charinfo2 = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - 1);
659     if (FPDFTEXT_CHAR_PIECE != charinfo.m_Flag && FPDFTEXT_CHAR_PIECE != charinfo2.m_Flag) {
660         return;
661     }
662     if (FPDFTEXT_CHAR_PIECE == charinfo.m_Flag) {
663         PAGECHAR_INFO charinfo1 = charinfo;
664         int startIndex = start;
665         while(FPDFTEXT_CHAR_PIECE == charinfo1.m_Flag && charinfo1.m_Index == charinfo.m_Index) {
666             startIndex--;
667             if (startIndex < 0) {
668                 break;
669             }
670             charinfo1 = *(PAGECHAR_INFO*)m_charList.GetAt(startIndex);
671         }
672         startIndex++;
673         start = startIndex;
674     }
675     if (FPDFTEXT_CHAR_PIECE == charinfo2.m_Flag) {
676         PAGECHAR_INFO charinfo3 = charinfo2;
677         int endIndex = start + nCount - 1;
678         while(FPDFTEXT_CHAR_PIECE == charinfo3.m_Flag && charinfo3.m_Index == charinfo2.m_Index) {
679             endIndex++;
680             if (endIndex >= m_charList.GetSize())       {
681                 break;
682             }
683             charinfo3 = *(PAGECHAR_INFO*)m_charList.GetAt(endIndex);
684         }
685         endIndex--;
686         nCount = endIndex - start + 1;
687     }
688 }
689 CFX_WideString CPDF_TextPage::GetPageText(int start , int nCount) const
690 {
691     if (!m_IsParsered || nCount == 0) {
692         return L"";
693     }
694     if (start < 0) {
695         start = 0;
696     }
697     if  (nCount == -1) {
698         nCount = m_charList.GetSize() - start;
699         return m_TextBuf.GetWideString().Mid(start, m_TextBuf.GetWideString().GetLength());
700     }
701     if(nCount <= 0 || m_charList.GetSize() <= 0) {
702         return L"";
703     }
704     if(nCount + start > m_charList.GetSize() - 1) {
705         nCount = m_charList.GetSize() - start;
706     }
707     if (nCount <= 0) {
708         return L"";
709     }
710     CheckMarkedContentObject(start, nCount);
711     int startindex = 0;
712     PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start);
713     int startOffset = 0;
714     while(charinfo.m_Index == -1) {
715         startOffset++;
716         if (startOffset > nCount || start + startOffset >= m_charList.GetSize())        {
717             return L"";
718         }
719         charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + startOffset);
720     }
721     startindex = charinfo.m_Index;
722     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - 1);
723     int nCountOffset = 0;
724     while (charinfo.m_Index == -1) {
725         nCountOffset++;
726         if (nCountOffset >= nCount) {
727             return L"";
728         }
729         charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - nCountOffset - 1);
730     }
731     nCount = start + nCount - nCountOffset - startindex;
732     if(nCount <= 0) {
733         return L"";
734     }
735     return m_TextBuf.GetWideString().Mid(startindex, nCount);
736 }
737 int CPDF_TextPage::CountRects(int start, int nCount)
738 {
739     if(m_ParseOptions.m_bGetCharCodeOnly) {
740         return -1;
741     }
742     if (!m_IsParsered)  {
743         return -1;
744     }
745     if (start < 0) {
746         return -1;
747     }
748     if (nCount == -1 || nCount + start > m_charList.GetSize() ) {
749         nCount = m_charList.GetSize() - start;
750     }
751     m_SelRects.RemoveAll();
752     GetRectArray(start, nCount, m_SelRects);
753     return m_SelRects.GetSize();
754 }
755 void CPDF_TextPage::GetRect(int rectIndex, FX_FLOAT& left, FX_FLOAT& top, FX_FLOAT& right, FX_FLOAT &bottom) const
756 {
757     if(m_ParseOptions.m_bGetCharCodeOnly) {
758         return ;
759     }
760     if (!m_IsParsered || rectIndex < 0 || rectIndex >= m_SelRects.GetSize()) {
761         return;
762     }
763     left = m_SelRects.GetAt(rectIndex).left;
764     top = m_SelRects.GetAt(rectIndex).top;
765     right = m_SelRects.GetAt(rectIndex).right;
766     bottom = m_SelRects.GetAt(rectIndex).bottom;
767 }
768 FX_BOOL CPDF_TextPage::GetBaselineRotate(int start, int end, int& Rotate)
769 {
770     if(m_ParseOptions.m_bGetCharCodeOnly) {
771         return FALSE;
772     }
773     if(end == start) {
774         return FALSE;
775     }
776     FX_FLOAT dx, dy;
777     FPDF_CHAR_INFO info1, info2;
778     GetCharInfo(start, info1);
779     GetCharInfo(end, info2);
780     while(info2.m_CharBox.Width() == 0 || info2.m_CharBox.Height() == 0) {
781         end--;
782         if(end <= start) {
783             return FALSE;
784         }
785         GetCharInfo(end, info2);
786     }
787     dx = (info2.m_OriginX - info1.m_OriginX);
788     dy = (info2.m_OriginY - info1.m_OriginY);
789     if(dx == 0) {
790         if(dy > 0) {
791             Rotate = 90;
792         } else if (dy < 0) {
793             Rotate = 270;
794         } else {
795             Rotate = 0;
796         }
797     } else {
798         float a = FXSYS_atan2(dy, dx);
799         Rotate = (int)(a * 180 / FX_PI + 0.5);
800     }
801     if(Rotate < 0) {
802         Rotate = -Rotate;
803     } else if(Rotate > 0) {
804         Rotate = 360 - Rotate;
805     }
806     return TRUE;
807 }
808 FX_BOOL CPDF_TextPage::GetBaselineRotate(const CFX_FloatRect& rect , int& Rotate)
809 {
810     if(m_ParseOptions.m_bGetCharCodeOnly) {
811         return FALSE;
812     }
813     int start, end, count, n = CountBoundedSegments(rect.left, rect.top, rect.right, rect.bottom, TRUE);
814     if(n < 1) {
815         return FALSE;
816     }
817     if(n > 1) {
818         GetBoundedSegment(n - 1, start, count);
819         end = start + count - 1;
820         GetBoundedSegment(0, start, count);
821     } else {
822         GetBoundedSegment(0, start, count);
823         end = start + count - 1;
824     }
825     return GetBaselineRotate(start, end, Rotate);
826 }
827 FX_BOOL CPDF_TextPage::GetBaselineRotate(int rectIndex, int& Rotate)
828 {
829     if(m_ParseOptions.m_bGetCharCodeOnly) {
830         return FALSE;
831     }
832     if (!m_IsParsered || rectIndex < 0 || rectIndex > m_SelRects.GetSize()) {
833         return FALSE;
834     }
835     CFX_FloatRect rect = m_SelRects.GetAt(rectIndex);
836     return GetBaselineRotate(rect , Rotate);
837 }
838 int     CPDF_TextPage::CountBoundedSegments(FX_FLOAT left, FX_FLOAT top, FX_FLOAT right, FX_FLOAT bottom, FX_BOOL bContains )
839 {
840     if(m_ParseOptions.m_bGetCharCodeOnly) {
841         return -1;
842     }
843     m_Segment.RemoveAll();
844     if (!m_IsParsered)  {
845         return -1;
846     }
847     CFX_FloatRect rect(left, bottom, right, top);
848     rect.Normalize();
849     int nCount = m_charList.GetSize();
850     int pos = 0;
851     FPDF_SEGMENT        segment;
852     segment.m_Start = 0;
853     segment.m_nCount = 0;
854     FX_BOOL             segmentStatus = 0;
855     FX_BOOL             IsContainPreChar = FALSE;
856     while (pos < nCount) {
857         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(pos);
858         if(bContains && rect.Contains(charinfo.m_CharBox)) {
859             if (segmentStatus == 0 || segmentStatus == 2) {
860                 segment.m_Start = pos;
861                 segment.m_nCount = 1;
862                 segmentStatus = 1;
863             } else if (segmentStatus == 1) {
864                 segment.m_nCount++;
865             }
866             IsContainPreChar = TRUE;
867         } else if (!bContains && (IsRectIntersect(rect, charinfo.m_CharBox) || rect.Contains(charinfo.m_OriginX, charinfo.m_OriginY))) {
868             if (segmentStatus == 0 || segmentStatus == 2) {
869                 segment.m_Start = pos;
870                 segment.m_nCount = 1;
871                 segmentStatus = 1;
872             } else if (segmentStatus == 1) {
873                 segment.m_nCount++;
874             }
875             IsContainPreChar = TRUE;
876         } else if (charinfo.m_Unicode == 32) {
877             if (IsContainPreChar == TRUE) {
878                 if (segmentStatus == 0 || segmentStatus == 2) {
879                     segment.m_Start = pos;
880                     segment.m_nCount = 1;
881                     segmentStatus = 1;
882                 } else if (segmentStatus == 1) {
883                     segment.m_nCount++;
884                 }
885                 IsContainPreChar = FALSE;
886             } else {
887                 if (segmentStatus == 1) {
888                     segmentStatus = 2;
889                     m_Segment.Add(segment);
890                     segment.m_Start = 0;
891                     segment.m_nCount = 0;
892                 }
893             }
894         } else {
895             if (segmentStatus == 1) {
896                 segmentStatus = 2;
897                 m_Segment.Add(segment);
898                 segment.m_Start = 0;
899                 segment.m_nCount = 0;
900             }
901             IsContainPreChar = FALSE;
902         }
903         pos++;
904     }
905     if (segmentStatus == 1) {
906         segmentStatus = 2;
907         m_Segment.Add(segment);
908         segment.m_Start = 0;
909         segment.m_nCount = 0;
910     }
911     return m_Segment.GetSize();
912 }
913 void CPDF_TextPage::GetBoundedSegment(int index, int& start, int& count) const
914 {
915     if(m_ParseOptions.m_bGetCharCodeOnly) {
916         return ;
917     }
918     if (index < 0 || index >= m_Segment.GetSize()) {
919         return;
920     }
921     start = m_Segment.GetAt(index).m_Start;
922     count = m_Segment.GetAt(index).m_nCount;
923 }
924 int CPDF_TextPage::GetWordBreak(int index, int direction) const
925 {
926     if(m_ParseOptions.m_bGetCharCodeOnly) {
927         return -1;
928     }
929     if (!m_IsParsered)  {
930         return -1;
931     }
932     if (direction != FPDFTEXT_LEFT && direction != FPDFTEXT_RIGHT) {
933         return -1;
934     }
935     if (index < 0 || index >= m_charList.GetSize()) {
936         return -1;
937     }
938     PAGECHAR_INFO charinfo;
939     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
940     if (charinfo.m_Index == -1 || charinfo.m_Flag == FPDFTEXT_CHAR_GENERATED)   {
941         return index;
942     }
943     if (!IsLetter(charinfo.m_Unicode)) {
944         return index;
945     }
946     int breakPos = index;
947     if (direction == FPDFTEXT_LEFT) {
948         while (--breakPos > 0) {
949             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(breakPos);
950             if (!IsLetter(charinfo.m_Unicode)) {
951                 return breakPos;
952             }
953         }
954         return breakPos;
955     } else if (direction == FPDFTEXT_RIGHT) {
956         while (++breakPos < m_charList.GetSize()) {
957             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(breakPos);
958             if (!IsLetter(charinfo.m_Unicode)) {
959                 return breakPos;
960             }
961         }
962         return breakPos;
963     }
964     return breakPos;
965 }
966 FX_INT32 CPDF_TextPage::FindTextlineFlowDirection()
967 {
968     if (!m_pPage)       {
969         return -1;
970     }
971     const FX_INT32 nPageWidth = (FX_INT32)((CPDF_Page*)m_pPage)->GetPageWidth();
972     const FX_INT32 nPageHeight = (FX_INT32)((CPDF_Page*)m_pPage)->GetPageHeight();
973     CFX_ByteArray nHorizontalMask;
974     if (!nHorizontalMask.SetSize(nPageWidth)) {
975         return -1;
976     }
977     FX_BYTE* pDataH = nHorizontalMask.GetData();
978     CFX_ByteArray nVerticalMask;
979     if (!nVerticalMask.SetSize(nPageHeight)) {
980         return -1;
981     }
982     FX_BYTE* pDataV = nVerticalMask.GetData();
983     FX_INT32 index = 0;
984     FX_FLOAT fLineHeight = 0.0f;
985     CPDF_PageObject* pPageObj = NULL;
986     FX_POSITION pos = NULL;
987     pos = m_pPage->GetFirstObjectPosition();
988     if(!pos) {
989         return -1;
990     }
991     while(pos) {
992         pPageObj = m_pPage->GetNextObject(pos);
993         if(NULL == pPageObj) {
994             continue;
995         }
996         if(PDFPAGE_TEXT != pPageObj->m_Type) {
997             continue;
998         }
999         FX_INT32 minH = (FX_INT32)pPageObj->m_Left < 0 ? 0 : (FX_INT32)pPageObj->m_Left;
1000         FX_INT32 maxH = (FX_INT32)pPageObj->m_Right > nPageWidth ? nPageWidth : (FX_INT32)pPageObj->m_Right;
1001         FX_INT32 minV = (FX_INT32)pPageObj->m_Bottom < 0 ? 0 : (FX_INT32)pPageObj->m_Bottom;
1002         FX_INT32 maxV = (FX_INT32)pPageObj->m_Top > nPageHeight ? nPageHeight : (FX_INT32)pPageObj->m_Top;
1003         if (minH >= maxH || minV >= maxV) {
1004             continue;
1005         }
1006         FXSYS_memset8(pDataH + minH, 1, maxH - minH);
1007         FXSYS_memset8(pDataV + minV, 1, maxV - minV);
1008         if (fLineHeight <= 0.0f) {
1009             fLineHeight = pPageObj->m_Top - pPageObj->m_Bottom;
1010         }
1011         pPageObj = NULL;
1012     }
1013     FX_INT32 nStartH = 0;
1014     FX_INT32 nEndH = 0;
1015     FX_FLOAT nSumH = 0.0f;
1016     for (index = 0; index < nPageWidth; index++)
1017         if(1 == nHorizontalMask[index]) {
1018             break;
1019         }
1020     nStartH = index;
1021     for (index = nPageWidth; index > 0; index--)
1022         if(1 == nHorizontalMask[index - 1]) {
1023             break;
1024         }
1025     nEndH = index;
1026     for (index = nStartH; index < nEndH; index++) {
1027         nSumH += nHorizontalMask[index];
1028     }
1029     nSumH /= nEndH - nStartH;
1030     FX_INT32 nStartV = 0;
1031     FX_INT32 nEndV = 0;
1032     FX_FLOAT nSumV = 0.0f;
1033     for (index = 0; index < nPageHeight; index++)
1034         if(1 == nVerticalMask[index]) {
1035             break;
1036         }
1037     nStartV = index;
1038     for (index = nPageHeight; index > 0; index--)
1039         if(1 == nVerticalMask[index - 1]) {
1040             break;
1041         }
1042     nEndV = index;
1043     for (index = nStartV; index < nEndV; index++) {
1044         nSumV += nVerticalMask[index];
1045     }
1046     nSumV /= nEndV - nStartV;
1047     if ((nEndV - nStartV) < (FX_INT32)(2 * fLineHeight)) {
1048         return 0;
1049     }
1050     if ((nEndH - nStartH) < (FX_INT32)(2 * fLineHeight)) {
1051         return 1;
1052     }
1053     if (nSumH > 0.8f) {
1054         return 0;
1055     }
1056     if (nSumH - nSumV > 0.0f) {
1057         return 0;
1058     }
1059     if (nSumV - nSumH > 0.0f) {
1060         return 1;
1061     }
1062     return -1;
1063 }
1064 void CPDF_TextPage::ProcessObject()
1065 {
1066     CPDF_PageObject*    pPageObj = NULL;
1067     if (!m_pPage)       {
1068         return;
1069     }
1070     FX_POSITION pos;
1071     pos = m_pPage->GetFirstObjectPosition();
1072     if (!pos)   {
1073         return;
1074     }
1075     m_TextlineDir = FindTextlineFlowDirection();
1076     int nCount = 0;
1077     while (pos) {
1078         pPageObj = m_pPage->GetNextObject(pos);
1079         if(pPageObj) {
1080             if(pPageObj->m_Type == PDFPAGE_TEXT) {
1081                 CFX_AffineMatrix matrix;
1082                 ProcessTextObject((CPDF_TextObject*)pPageObj, matrix, pos);
1083                 nCount++;
1084             } else if (pPageObj->m_Type == PDFPAGE_FORM) {
1085                 CFX_AffineMatrix formMatrix(1, 0, 0, 1, 0, 0);
1086                 ProcessFormObject((CPDF_FormObject*)pPageObj, formMatrix);
1087             }
1088         }
1089         pPageObj = NULL;
1090     }
1091     int count = m_LineObj.GetSize();
1092     for(int i = 0; i < count; i++) {
1093         ProcessTextObject(m_LineObj.GetAt(i));
1094     }
1095     m_LineObj.RemoveAll();
1096     CloseTempLine();
1097 }
1098 void CPDF_TextPage::ProcessFormObject(CPDF_FormObject* pFormObj, const CFX_AffineMatrix& formMatrix)
1099 {
1100     CPDF_PageObject*    pPageObj = NULL;
1101     FX_POSITION pos;
1102     if (!pFormObj)      {
1103         return;
1104     }
1105     pos = pFormObj->m_pForm->GetFirstObjectPosition();
1106     if (!pos)   {
1107         return;
1108     }
1109     CFX_AffineMatrix curFormMatrix;
1110     curFormMatrix.Copy(pFormObj->m_FormMatrix);
1111     curFormMatrix.Concat(formMatrix);
1112     while (pos) {
1113         pPageObj = pFormObj->m_pForm->GetNextObject(pos);
1114         if(pPageObj) {
1115             if(pPageObj->m_Type == PDFPAGE_TEXT) {
1116                 ProcessTextObject((CPDF_TextObject*)pPageObj, curFormMatrix, pos);
1117             } else if (pPageObj->m_Type == PDFPAGE_FORM) {
1118                 ProcessFormObject((CPDF_FormObject*)pPageObj, curFormMatrix);
1119             }
1120         }
1121         pPageObj = NULL;
1122     }
1123 }
1124 int CPDF_TextPage::GetCharWidth(FX_DWORD charCode, CPDF_Font* pFont) const
1125 {
1126     if(charCode == -1) {
1127         return 0;
1128     }
1129     int w = pFont->GetCharWidthF(charCode);
1130     if(w == 0) {
1131         CFX_ByteString str;
1132         pFont->AppendChar(str, charCode);
1133         w = pFont->GetStringWidth(str, 1);
1134         if(w == 0) {
1135             FX_RECT BBox;
1136             pFont->GetCharBBox(charCode, BBox);
1137             w = BBox.right - BBox.left;
1138         }
1139     }
1140     return w;
1141 }
1142 void CPDF_TextPage::OnPiece(IFX_BidiChar* pBidi, CFX_WideString& str)
1143 {
1144     FX_INT32 start, count;
1145     FX_INT32 ret = pBidi->GetBidiInfo(start, count);
1146     if(ret == 2) {
1147         for(int i = start + count - 1; i >= start; i--) {
1148             m_TextBuf.AppendChar(str.GetAt(i));
1149             m_charList.Add(*(PAGECHAR_INFO*)m_TempCharList.GetAt(i));
1150         }
1151     } else {
1152         int end = start + count ;
1153         for(int i = start; i < end; i++) {
1154             m_TextBuf.AppendChar(str.GetAt(i));
1155             m_charList.Add(*(PAGECHAR_INFO*)m_TempCharList.GetAt(i));
1156         }
1157     }
1158 }
1159 void CPDF_TextPage::AddCharInfoByLRDirection(CFX_WideString& str, int i)
1160 {
1161     PAGECHAR_INFO Info = *(PAGECHAR_INFO*)m_TempCharList.GetAt(i);
1162     FX_WCHAR wChar = str.GetAt(i);
1163     if(!IsControlChar(&Info)) {
1164         Info.m_Index = m_TextBuf.GetLength();
1165         if (wChar >= 0xFB00 && wChar <= 0xFB06) {
1166             FX_LPWSTR pDst = NULL;
1167             FX_STRSIZE nCount = FX_Unicode_GetNormalization(wChar, pDst);
1168             if (nCount >= 1) {
1169                 pDst = FX_Alloc(FX_WCHAR, nCount);
1170                 if (!pDst) {
1171                     return;
1172                 }
1173                 FX_Unicode_GetNormalization(wChar, pDst);
1174                 for (int nIndex = 0; nIndex < nCount; nIndex++) {
1175                     PAGECHAR_INFO Info2 = Info;
1176                     Info2.m_Unicode = pDst[nIndex];
1177                     Info2.m_Flag = FPDFTEXT_CHAR_PIECE;
1178                     m_TextBuf.AppendChar(Info2.m_Unicode);
1179                     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1180                         m_charList.Add(Info2);
1181                     }
1182                 }
1183                 FX_Free(pDst);
1184                 return;
1185             }
1186         }
1187         m_TextBuf.AppendChar(wChar);
1188     } else {
1189         Info.m_Index = -1;
1190     }
1191     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1192         m_charList.Add(Info);
1193     }
1194 }
1195 void CPDF_TextPage::AddCharInfoByRLDirection(CFX_WideString& str, int i)
1196 {
1197     PAGECHAR_INFO Info = *(PAGECHAR_INFO*)m_TempCharList.GetAt(i);
1198     if(!IsControlChar(&Info)) {
1199         Info.m_Index = m_TextBuf.GetLength();
1200         FX_WCHAR wChar = FX_GetMirrorChar(str.GetAt(i), TRUE, FALSE);
1201         FX_LPWSTR pDst = NULL;
1202         FX_STRSIZE nCount = FX_Unicode_GetNormalization(wChar, pDst);
1203         if (nCount >= 1) {
1204             pDst = FX_Alloc(FX_WCHAR, nCount);
1205             if (!pDst) {
1206                 return;
1207             }
1208             FX_Unicode_GetNormalization(wChar, pDst);
1209             for (int nIndex = 0; nIndex < nCount; nIndex++) {
1210                 PAGECHAR_INFO Info2 = Info;
1211                 Info2.m_Unicode = pDst[nIndex];
1212                 Info2.m_Flag = FPDFTEXT_CHAR_PIECE;
1213                 m_TextBuf.AppendChar(Info2.m_Unicode);
1214                 if( !m_ParseOptions.m_bGetCharCodeOnly) {
1215                     m_charList.Add(Info2);
1216                 }
1217             }
1218             FX_Free(pDst);
1219             return;
1220         } else {
1221             Info.m_Unicode = wChar;
1222         }
1223         m_TextBuf.AppendChar(Info.m_Unicode);
1224     } else {
1225         Info.m_Index = -1;
1226     }
1227     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1228         m_charList.Add(Info);
1229     }
1230 }
1231 void CPDF_TextPage::CloseTempLine()
1232 {
1233     int count1 = m_TempCharList.GetSize();
1234     if (count1 <= 0) {
1235         return;
1236     }
1237     IFX_BidiChar* BidiChar = IFX_BidiChar::Create();
1238     CFX_WideString str = m_TempTextBuf.GetWideString();
1239     CFX_WordArray order;
1240     FX_BOOL bR2L = FALSE;
1241     FX_INT32 start = 0, count = 0;
1242     int nR2L = 0, nL2R = 0;
1243     FX_BOOL bPrevSpace = FALSE;
1244     for (int i = 0; i < str.GetLength(); i++) {
1245         if(str.GetAt(i) == 32) {
1246             if(bPrevSpace) {
1247                 m_TempTextBuf.Delete(i, 1);
1248                 m_TempCharList.Delete(i);
1249                 str.Delete(i);
1250                 count1--;
1251                 i--;
1252                 continue;
1253             }
1254             bPrevSpace = TRUE;
1255         } else {
1256             bPrevSpace = FALSE;
1257         }
1258         if(BidiChar && BidiChar->AppendChar(str.GetAt(i))) {
1259             FX_INT32 ret = BidiChar->GetBidiInfo(start, count);
1260             order.Add(start);
1261             order.Add(count);
1262             order.Add(ret);
1263             if(!bR2L) {
1264                 if(ret == 2) {
1265                     nR2L++;
1266                 } else if (ret == 1) {
1267                     nL2R++;
1268                 }
1269             }
1270         }
1271     }
1272     if(BidiChar && BidiChar->EndChar()) {
1273         FX_INT32 ret = BidiChar->GetBidiInfo(start, count);
1274         order.Add(start);
1275         order.Add(count);
1276         order.Add(ret);
1277         if(!bR2L) {
1278             if(ret == 2) {
1279                 nR2L++;
1280             } else if(ret == 1) {
1281                 nL2R++;
1282             }
1283         }
1284     }
1285     if(nR2L > 0 && nR2L >= nL2R) {
1286         bR2L = TRUE;
1287     }
1288     if(this->m_parserflag == FPDFTEXT_RLTB || bR2L) {
1289         int count = order.GetSize();
1290         for(int i = count - 1; i > 0; i -= 3) {
1291             int ret = order.GetAt(i);
1292             int start = order.GetAt(i - 2);
1293             int count1 = order.GetAt(i - 1);
1294             if(ret == 2 || ret == 0) {
1295                 for(int j = start + count1 - 1; j >= start; j--) {
1296                     AddCharInfoByRLDirection(str, j);
1297                 }
1298             } else {
1299                 int j = i;
1300                 FX_BOOL bSymbol = FALSE;
1301                 while(j > 0 && order.GetAt(j) != 2) {
1302                     bSymbol = !order.GetAt(j);
1303                     j -= 3;
1304                 }
1305                 int end = start + count1 ;
1306                 int n = 0;
1307                 if(bSymbol) {
1308                     n = j + 6;
1309                 } else {
1310                     n = j + 3;
1311                 }
1312                 if(n >= i) {
1313                     for(int m = start; m < end; m++) {
1314                         AddCharInfoByLRDirection(str, m);
1315                     }
1316                 } else {
1317                     j = i;
1318                     i = n;
1319                     for(; n <= j; n += 3) {
1320                         int start = order.GetAt(n - 2);
1321                         int count1 = order.GetAt(n - 1);
1322                         int end = start + count1 ;
1323                         for(int m = start; m < end; m++) {
1324                             AddCharInfoByLRDirection(str, m);
1325                         }
1326                     }
1327                 }
1328             }
1329         }
1330     } else {
1331         int count = order.GetSize();
1332         FX_BOOL bL2R = FALSE;
1333         for(int i = 0; i < count; i += 3) {
1334             int ret = order.GetAt(i + 2);
1335             int start = order.GetAt(i);
1336             int count1 = order.GetAt(i + 1);
1337             if(ret == 2 || (i == 0 && ret == 0 && !bL2R)) {
1338                 int j = i + 3;
1339                 while(bR2L && j < count) {
1340                     if(order.GetAt(j + 2) == 1) {
1341                         break;
1342                     } else {
1343                         j += 3;
1344                     }
1345                 }
1346                 if(j == 3) {
1347                     i = -3;
1348                     bL2R = TRUE;
1349                     continue;
1350                 }
1351                 int end = m_TempCharList.GetSize() - 1;
1352                 if(j < count) {
1353                     end = order.GetAt(j) - 1;
1354                 }
1355                 i = j - 3;
1356                 for(int n = end; n >= start; n--) {
1357                     AddCharInfoByRLDirection(str, n);
1358                 }
1359             } else {
1360                 int end = start + count1 ;
1361                 for(int n = start; n < end; n++) {
1362                     AddCharInfoByLRDirection(str, n);
1363                 }
1364             }
1365         }
1366     }
1367     int ntext = m_TextBuf.GetSize();
1368     ntext = m_charList.GetSize();
1369     order.RemoveAll();
1370     m_TempCharList.RemoveAll();
1371     m_TempTextBuf.Delete(0, m_TempTextBuf.GetLength());
1372     BidiChar->Release();
1373 }
1374 void CPDF_TextPage::ProcessTextObject(CPDF_TextObject*  pTextObj, const CFX_AffineMatrix& formMatrix, FX_POSITION ObjPos)
1375 {
1376     CFX_FloatRect re(pTextObj->m_Left, pTextObj->m_Bottom, pTextObj->m_Right, pTextObj->m_Top);
1377     if(FXSYS_fabs(pTextObj->m_Right - pTextObj->m_Left) < 0.01f ) {
1378         return;
1379     }
1380     int count = m_LineObj.GetSize();
1381     PDFTEXT_Obj Obj;
1382     Obj.m_pTextObj = pTextObj;
1383     Obj.m_formMatrix = formMatrix;
1384     if(count == 0) {
1385         m_LineObj.Add(Obj);
1386         return;
1387     }
1388     if (IsSameAsPreTextObject(pTextObj, ObjPos)) {
1389         return;
1390     }
1391     PDFTEXT_Obj prev_Obj = m_LineObj.GetAt(count - 1);
1392     CPDF_TextObjectItem item;
1393     int nItem = prev_Obj.m_pTextObj->CountItems();
1394     prev_Obj.m_pTextObj->GetItemInfo(nItem - 1, &item);
1395     FX_FLOAT prev_width = GetCharWidth(item.m_CharCode, prev_Obj.m_pTextObj->GetFont()) * prev_Obj.m_pTextObj->GetFontSize() / 1000;
1396     CFX_AffineMatrix prev_matrix;
1397     prev_Obj.m_pTextObj->GetTextMatrix(&prev_matrix);
1398     prev_width = FXSYS_fabs(prev_width);
1399     prev_matrix.Concat(prev_Obj.m_formMatrix);
1400     prev_width = prev_matrix.TransformDistance(prev_width);
1401     pTextObj->GetItemInfo(0, &item);
1402     FX_FLOAT this_width = GetCharWidth(item.m_CharCode, pTextObj->GetFont()) * pTextObj->GetFontSize() / 1000;
1403     this_width = FXSYS_fabs(this_width);
1404     CFX_AffineMatrix this_matrix;
1405     pTextObj->GetTextMatrix(&this_matrix);
1406     this_width = FXSYS_fabs(this_width);
1407     this_matrix.Concat(formMatrix);
1408     this_width = this_matrix.TransformDistance(this_width);
1409     FX_FLOAT threshold = prev_width > this_width ? prev_width / 4 : this_width / 4;
1410     FX_FLOAT prev_x = prev_Obj.m_pTextObj->GetPosX(), prev_y = prev_Obj.m_pTextObj->GetPosY();
1411     prev_Obj.m_formMatrix.Transform(prev_x, prev_y);
1412     m_DisplayMatrix.Transform(prev_x, prev_y);
1413     FX_FLOAT this_x = pTextObj->GetPosX(), this_y = pTextObj->GetPosY();
1414     formMatrix.Transform(this_x, this_y);
1415     m_DisplayMatrix.Transform(this_x, this_y);
1416     if (FXSYS_fabs(this_y - prev_y) > threshold * 2) {
1417         for(int i = 0; i < count; i++) {
1418             ProcessTextObject(m_LineObj.GetAt(i));
1419         }
1420         m_LineObj.RemoveAll();
1421         m_LineObj.Add(Obj);
1422         return;
1423     }
1424     int i = 0;
1425     if(m_ParseOptions.m_bNormalizeObjs) {
1426         for(i = count - 1; i >= 0; i--) {
1427             PDFTEXT_Obj prev_Obj = m_LineObj.GetAt(i);
1428             CFX_AffineMatrix prev_matrix;
1429             prev_Obj.m_pTextObj->GetTextMatrix(&prev_matrix);
1430             FX_FLOAT Prev_x = prev_Obj.m_pTextObj->GetPosX(), Prev_y = prev_Obj.m_pTextObj->GetPosY();
1431             prev_Obj.m_formMatrix.Transform(Prev_x, Prev_y);
1432             m_DisplayMatrix.Transform(Prev_x, Prev_y);
1433             if(this_x >= Prev_x) {
1434                 if(i == count - 1) {
1435                     m_LineObj.Add(Obj);
1436                 } else {
1437                     m_LineObj.InsertAt(i + 1, Obj);
1438                 }
1439                 break;
1440             }
1441         }
1442         if(i < 0) {
1443             m_LineObj.InsertAt(0, Obj);
1444         }
1445     } else {
1446         m_LineObj.Add(Obj);
1447     }
1448 }
1449 FX_INT32 CPDF_TextPage::PreMarkedContent(PDFTEXT_Obj Obj)
1450 {
1451     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1452     CPDF_ContentMarkData* pMarkData = (CPDF_ContentMarkData*)pTextObj->m_ContentMark.GetObject();
1453     if(!pMarkData) {
1454         return FPDFTEXT_MC_PASS;
1455     }
1456     int nContentMark = pMarkData->CountItems();
1457     if (nContentMark < 1) {
1458         return FPDFTEXT_MC_PASS;
1459     }
1460     CFX_WideString actText;
1461     FX_BOOL bExist = FALSE;
1462     CPDF_Dictionary* pDict = NULL;
1463     int n = 0;
1464     for (n = 0; n < nContentMark; n++) {
1465         CPDF_ContentMarkItem& item = pMarkData->GetItem(n);
1466         CFX_ByteString tagStr = (CFX_ByteString)item.GetName();
1467         pDict = (CPDF_Dictionary*)item.GetParam();
1468         CPDF_String* temp = (CPDF_String*)(pDict ? pDict->GetElement(FX_BSTRC("ActualText")) : NULL);
1469         if (temp) {
1470             bExist = TRUE;
1471             actText = temp->GetUnicodeText();
1472         }
1473     }
1474     if (!bExist) {
1475         return FPDFTEXT_MC_PASS;
1476     }
1477     if (m_pPreTextObj) {
1478         if (CPDF_ContentMarkData* pPreMarkData = (CPDF_ContentMarkData*)m_pPreTextObj->m_ContentMark.GetObject()) {
1479             if (pPreMarkData->CountItems() == n) {
1480                 CPDF_ContentMarkItem& item = pPreMarkData->GetItem(n - 1);
1481                 if (pDict == item.GetParam()) {
1482                     return FPDFTEXT_MC_DONE;
1483                 }
1484             }
1485         }
1486     }
1487     CPDF_Font*  pFont = pTextObj->GetFont();
1488     FX_STRSIZE nItems = actText.GetLength();
1489     if (nItems < 1) {
1490         return FPDFTEXT_MC_PASS;
1491     }
1492     bExist = FALSE;
1493     for (FX_STRSIZE i = 0; i < nItems; i++) {
1494         FX_WCHAR wChar = actText.GetAt(i);
1495         if (-1 == pFont->CharCodeFromUnicode(wChar)) {
1496             continue;
1497         } else {
1498             bExist = TRUE;
1499             break;
1500         }
1501     }
1502     if (!bExist) {
1503         return FPDFTEXT_MC_PASS;
1504     }
1505     bExist = FALSE;
1506     for (FX_STRSIZE i = 0; i < nItems; i++) {
1507         FX_WCHAR wChar = actText.GetAt(i);
1508         if ((wChar > 0x80 && wChar < 0xFFFD) || (wChar <= 0x80 && isprint(wChar))) {
1509             bExist = TRUE;
1510             break;
1511         }
1512     }
1513     if (!bExist) {
1514         return FPDFTEXT_MC_DONE;
1515     }
1516     return FPDFTEXT_MC_DELAY;
1517 }
1518 void CPDF_TextPage::ProcessMarkedContent(PDFTEXT_Obj Obj)
1519 {
1520     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1521     CPDF_ContentMarkData* pMarkData = (CPDF_ContentMarkData*)pTextObj->m_ContentMark.GetObject();
1522     if(!pMarkData) {
1523         return;
1524     }
1525     int nContentMark = pMarkData->CountItems();
1526     if (nContentMark < 1) {
1527         return;
1528     }
1529     CFX_WideString actText;
1530     CPDF_Dictionary* pDict = NULL;
1531     int n = 0;
1532     for (n = 0; n < nContentMark; n++) {
1533         CPDF_ContentMarkItem& item = pMarkData->GetItem(n);
1534         CFX_ByteString tagStr = (CFX_ByteString)item.GetName();
1535         pDict = (CPDF_Dictionary*)item.GetParam();
1536         CPDF_String* temp = (CPDF_String*)(pDict ? pDict->GetElement(FX_BSTRC("ActualText")) : NULL);
1537         if (temp) {
1538             actText = temp->GetUnicodeText();
1539         }
1540     }
1541     FX_STRSIZE nItems = actText.GetLength();
1542     if (nItems < 1) {
1543         return;
1544     }
1545     CPDF_Font*  pFont = pTextObj->GetFont();
1546     CFX_AffineMatrix formMatrix = Obj.m_formMatrix;
1547     CFX_AffineMatrix matrix;
1548     pTextObj->GetTextMatrix(&matrix);
1549     matrix.Concat(formMatrix);
1550     FX_FLOAT fPosX = pTextObj->GetPosX();
1551     FX_FLOAT fPosY = pTextObj->GetPosY();
1552     int nCharInfoIndex = m_TextBuf.GetLength();
1553     CFX_FloatRect charBox;
1554     charBox.top = pTextObj->m_Top;
1555     charBox.left = pTextObj->m_Left;
1556     charBox.right = pTextObj->m_Right;
1557     charBox.bottom = pTextObj->m_Bottom;
1558     for (FX_STRSIZE k = 0; k < nItems; k++) {
1559         FX_WCHAR wChar = actText.GetAt(k);
1560         if (wChar <= 0x80 && !isprint(wChar)) {
1561             wChar = 0x20;
1562         }
1563         if (wChar >= 0xFFFD) {
1564             continue;
1565         }
1566         PAGECHAR_INFO charinfo;
1567         charinfo.m_OriginX = fPosX;
1568         charinfo.m_OriginY = fPosY;
1569         charinfo.m_Index = nCharInfoIndex;
1570         charinfo.m_Unicode = wChar;
1571         charinfo.m_CharCode = pFont->CharCodeFromUnicode(wChar);
1572         charinfo.m_Flag = FPDFTEXT_CHAR_PIECE;
1573         charinfo.m_pTextObj = pTextObj;
1574         charinfo.m_CharBox.top = charBox.top;
1575         charinfo.m_CharBox.left = charBox.left;
1576         charinfo.m_CharBox.right = charBox.right;
1577         charinfo.m_CharBox.bottom = charBox.bottom;
1578         charinfo.m_Matrix.Copy(matrix);
1579         m_TempTextBuf.AppendChar(wChar);
1580         m_TempCharList.Add(charinfo);
1581     }
1582 }
1583 void CPDF_TextPage::FindPreviousTextObject(void)
1584 {
1585     if (m_TempCharList.GetSize() < 1 && m_charList.GetSize() < 1) {
1586         return;
1587     }
1588     PAGECHAR_INFO preChar;
1589     if (m_TempCharList.GetSize() >= 1) {
1590         preChar = *(PAGECHAR_INFO*)m_TempCharList.GetAt(m_TempCharList.GetSize() - 1);
1591     } else {
1592         preChar = *(PAGECHAR_INFO*)m_charList.GetAt(m_charList.GetSize() - 1);
1593     }
1594     if (preChar.m_pTextObj) {
1595         m_pPreTextObj = preChar.m_pTextObj;
1596     }
1597 }
1598 void CPDF_TextPage::ProcessTextObject(PDFTEXT_Obj Obj)
1599 {
1600     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1601     if(FXSYS_fabs(pTextObj->m_Right - pTextObj->m_Left) < 0.01f ) {
1602         return;
1603     }
1604     CFX_AffineMatrix formMatrix = Obj.m_formMatrix;
1605     CPDF_Font*  pFont = pTextObj->GetFont();
1606     CFX_AffineMatrix matrix;
1607     pTextObj->GetTextMatrix(&matrix);
1608     matrix.Concat(formMatrix);
1609     FX_INT32 bPreMKC = PreMarkedContent(Obj);
1610     if (FPDFTEXT_MC_DONE == bPreMKC) {
1611         m_pPreTextObj = pTextObj;
1612         m_perMatrix.Copy(formMatrix);
1613         return;
1614     }
1615     int result = 0;
1616     if (m_pPreTextObj) {
1617         result = ProcessInsertObject(pTextObj, formMatrix);
1618         if (2 == result) {
1619             m_CurlineRect = CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top);
1620         } else {
1621             m_CurlineRect.Union(CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top));
1622         }
1623         PAGECHAR_INFO generateChar;
1624         if (result == 1) {
1625             if (GenerateCharInfo(TEXT_BLANK_CHAR, generateChar)) {
1626                 if (!formMatrix.IsIdentity()) {
1627                     generateChar.m_Matrix.Copy(formMatrix);
1628                 }
1629                 m_TempTextBuf.AppendChar(TEXT_BLANK_CHAR);
1630                 m_TempCharList.Add(generateChar);
1631             }
1632         } else if(result == 2) {
1633             CloseTempLine();
1634             if(m_TextBuf.GetSize()) {
1635                 if(m_ParseOptions.m_bGetCharCodeOnly) {
1636                     m_TextBuf.AppendChar(TEXT_RETURN_CHAR);
1637                     m_TextBuf.AppendChar(TEXT_LINEFEED_CHAR);
1638                 } else {
1639                     if(GenerateCharInfo(TEXT_RETURN_CHAR, generateChar)) {
1640                         m_TextBuf.AppendChar(TEXT_RETURN_CHAR);
1641                         if (!formMatrix.IsIdentity()) {
1642                             generateChar.m_Matrix.Copy(formMatrix);
1643                         }
1644                         m_charList.Add(generateChar);
1645                     }
1646                     if(GenerateCharInfo(TEXT_LINEFEED_CHAR, generateChar)) {
1647                         m_TextBuf.AppendChar(TEXT_LINEFEED_CHAR);
1648                         if (!formMatrix.IsIdentity()) {
1649                             generateChar.m_Matrix.Copy(formMatrix);
1650                         }
1651                         m_charList.Add(generateChar);
1652                     }
1653                 }
1654             }
1655         } else if (result == 3 && !m_ParseOptions.m_bOutputHyphen) {
1656             FX_INT32 nChars = pTextObj->CountChars();
1657             if (nChars == 1) {
1658                 CPDF_TextObjectItem item;
1659                 pTextObj->GetCharInfo(0, &item);
1660                 CFX_WideString wstrItem = pTextObj->GetFont()->UnicodeFromCharCode(item.m_CharCode);
1661                 if(wstrItem.IsEmpty()) {
1662                     wstrItem += (FX_WCHAR)item.m_CharCode;
1663                 }
1664                 FX_WCHAR curChar = wstrItem.GetAt(0);
1665                 if (0x2D == curChar || 0xAD == curChar) {
1666                     return;
1667                 }
1668             }
1669             while (m_TempTextBuf.GetSize() > 0 && m_TempTextBuf.GetWideString().GetAt(m_TempTextBuf.GetLength() - 1) == 0x20) {
1670                 m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1671                 m_TempCharList.Delete(m_TempCharList.GetSize() - 1);
1672             }
1673             PAGECHAR_INFO* cha = (PAGECHAR_INFO*)m_TempCharList.GetAt(m_TempCharList.GetSize() - 1);
1674             m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1675             cha->m_Unicode = 0x2;
1676             cha->m_Flag = FPDFTEXT_CHAR_HYPHEN;
1677             m_TempTextBuf.AppendChar(0xfffe);
1678         }
1679     } else {
1680         m_CurlineRect = CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top);
1681     }
1682     if (FPDFTEXT_MC_DELAY == bPreMKC) {
1683         ProcessMarkedContent(Obj);
1684         m_pPreTextObj = pTextObj;
1685         m_perMatrix.Copy(formMatrix);
1686         return;
1687     }
1688     m_pPreTextObj = pTextObj;
1689     m_perMatrix.Copy(formMatrix);
1690     int nItems = pTextObj->CountItems();
1691     FX_FLOAT baseSpace = _CalculateBaseSpace(pTextObj, matrix);
1692
1693     FX_BOOL bIsBidiAndMirrosInverse = FALSE;
1694     IFX_BidiChar* BidiChar = IFX_BidiChar::Create();
1695     FX_INT32 nR2L = 0;
1696     FX_INT32 nL2R = 0;
1697     FX_INT32 start = 0, count = 0;
1698     CPDF_TextObjectItem item;
1699     for (FX_INT32 i = 0; i < nItems; i++) {
1700         pTextObj->GetItemInfo(i, &item);
1701         if (item.m_CharCode == (FX_DWORD)-1) {
1702             continue;
1703         }
1704         CFX_WideString wstrItem = pFont->UnicodeFromCharCode(item.m_CharCode);
1705         FX_WCHAR wChar = wstrItem.GetAt(0);
1706         if ((wstrItem.IsEmpty() || wChar == 0) && item.m_CharCode) {
1707             wChar = (FX_WCHAR)item.m_CharCode;
1708         }
1709         if (!wChar) {
1710             continue;
1711         }
1712         if (BidiChar && BidiChar->AppendChar(wChar)) {
1713             FX_INT32 ret = BidiChar->GetBidiInfo(start, count);
1714             if (ret == 2) {
1715                 nR2L++;
1716             }
1717             else if (ret == 1) {
1718                 nL2R++;
1719             }
1720         }
1721     }
1722     if (BidiChar && BidiChar->EndChar()) {
1723         FX_INT32 ret = BidiChar->GetBidiInfo(start, count);
1724         if (ret == 2) {
1725             nR2L++;
1726         }
1727         else if (ret == 1) {
1728             nL2R++;
1729         }
1730     }
1731     FX_BOOL bR2L = FALSE;
1732     if (nR2L > 0 && nR2L >= nL2R) {
1733         bR2L = TRUE;
1734     }
1735     bIsBidiAndMirrosInverse = bR2L && (matrix.a * matrix.d - matrix.b * matrix.c) < 0;
1736     FX_INT32 iBufStartAppend = m_TempTextBuf.GetLength();
1737     FX_INT32 iCharListStartAppend = m_TempCharList.GetSize();
1738
1739     FX_FLOAT spacing = 0;
1740     for (int i = 0; i < nItems; i++) {
1741         CPDF_TextObjectItem item;
1742         PAGECHAR_INFO charinfo;
1743         charinfo.m_OriginX = 0;
1744         charinfo.m_OriginY = 0;
1745         pTextObj->GetItemInfo(i, &item);
1746         if (item.m_CharCode == (FX_DWORD) - 1) {
1747             CFX_WideString str = m_TempTextBuf.GetWideString();
1748             if(str.IsEmpty()) {
1749                 str = m_TextBuf.GetWideString();
1750             }
1751             if (str.IsEmpty() || str.GetAt(str.GetLength() - 1) == TEXT_BLANK_CHAR) {
1752                 continue;
1753             }
1754             FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
1755             spacing = -fontsize_h * item.m_OriginX / 1000;
1756             continue;
1757         }
1758         FX_FLOAT charSpace = pTextObj->m_TextState.GetObject()->m_CharSpace;
1759         if (charSpace > 0.001) {
1760             spacing += matrix.TransformDistance(charSpace);
1761         } else if(charSpace < -0.001) {
1762             spacing -= matrix.TransformDistance(FXSYS_fabs(charSpace));
1763         }
1764         spacing -= baseSpace;
1765         if (spacing && i > 0) {
1766             int last_width = 0;
1767             FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
1768             FX_DWORD space_charcode = pFont->CharCodeFromUnicode(' ');
1769             FX_FLOAT threshold = 0;
1770             if (space_charcode != -1) {
1771                 threshold = fontsize_h * pFont->GetCharWidthF(space_charcode) / 1000 ;
1772             }
1773             if (threshold > fontsize_h / 3) {
1774                 threshold = 0;
1775             } else {
1776                 threshold /= 2;
1777             }
1778             if (threshold == 0) {
1779                 threshold = fontsize_h;
1780                 int this_width = FXSYS_abs(GetCharWidth(item.m_CharCode, pFont));
1781                 threshold = this_width > last_width ? (FX_FLOAT)this_width : (FX_FLOAT)last_width;
1782                 threshold = _NormalizeThreshold(threshold);
1783                 threshold = fontsize_h * threshold / 1000;
1784             }
1785             if (threshold && (spacing && spacing >= threshold) ) {
1786                 charinfo.m_Unicode = TEXT_BLANK_CHAR;
1787                 charinfo.m_Flag = FPDFTEXT_CHAR_GENERATED;
1788                 charinfo.m_pTextObj = pTextObj;
1789                 charinfo.m_Index = m_TextBuf.GetLength();
1790                 m_TempTextBuf.AppendChar(TEXT_BLANK_CHAR);
1791                 charinfo.m_CharCode = -1;
1792                 charinfo.m_Matrix.Copy(formMatrix);
1793                 matrix.Transform(item.m_OriginX, item.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1794                 charinfo.m_CharBox = CFX_FloatRect(charinfo.m_OriginX, charinfo.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1795                 m_TempCharList.Add(charinfo);
1796             }
1797             if (item.m_CharCode == (FX_DWORD) - 1) {
1798                 continue;
1799             }
1800         }
1801         spacing = 0;
1802         CFX_WideString wstrItem = pFont->UnicodeFromCharCode(item.m_CharCode);
1803         FX_BOOL bNoUnicode = FALSE;
1804         FX_WCHAR wChar = wstrItem.GetAt(0);
1805         if ((wstrItem.IsEmpty() || wChar == 0) && item.m_CharCode) {
1806             if(wstrItem.IsEmpty()) {
1807                 wstrItem += (FX_WCHAR)item.m_CharCode;
1808             } else {
1809                 wstrItem.SetAt(0, (FX_WCHAR)item.m_CharCode);
1810             }
1811             bNoUnicode = TRUE;
1812         }
1813         charinfo.m_Index = -1;
1814         charinfo.m_CharCode = item.m_CharCode;
1815         if(bNoUnicode) {
1816             charinfo.m_Flag = FPDFTEXT_CHAR_UNUNICODE;
1817         } else {
1818             charinfo.m_Flag = FPDFTEXT_CHAR_NORMAL;
1819         }
1820         charinfo.m_pTextObj = pTextObj;
1821         charinfo.m_OriginX = 0, charinfo.m_OriginY = 0;
1822         matrix.Transform(item.m_OriginX, item.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1823         FX_RECT rect(0, 0, 0, 0);
1824         rect.Intersect(0, 0, 0, 0);
1825         charinfo.m_pTextObj->GetFont()->GetCharBBox(charinfo.m_CharCode, rect);
1826         charinfo.m_CharBox.top = rect.top * pTextObj->GetFontSize() / 1000 + item.m_OriginY;
1827         charinfo.m_CharBox.left = rect.left * pTextObj->GetFontSize() / 1000 + item.m_OriginX;
1828         charinfo.m_CharBox.right = rect.right * pTextObj->GetFontSize() / 1000 + item.m_OriginX;
1829         charinfo.m_CharBox.bottom = rect.bottom * pTextObj->GetFontSize() / 1000 + item.m_OriginY;
1830         if (fabsf(charinfo.m_CharBox.top - charinfo.m_CharBox.bottom) < 0.01f) {
1831             charinfo.m_CharBox.top = charinfo.m_CharBox.bottom + pTextObj->GetFontSize();
1832         }
1833         if (fabsf(charinfo.m_CharBox.right - charinfo.m_CharBox.left) < 0.01f) {
1834             charinfo.m_CharBox.right = charinfo.m_CharBox.left + pTextObj->GetCharWidth(charinfo.m_CharCode);
1835         }
1836         matrix.TransformRect(charinfo.m_CharBox);
1837         charinfo.m_Matrix.Copy(matrix);
1838         if (wstrItem.IsEmpty()) {
1839             charinfo.m_Unicode = 0;
1840             m_TempCharList.Add(charinfo);
1841             m_TempTextBuf.AppendChar(0xfffe);
1842             continue;
1843         } else {
1844             int nTotal = wstrItem.GetLength();
1845             FX_BOOL bDel = FALSE;
1846             const int count = std::min(m_TempCharList.GetSize(), 7);
1847             for (int n = m_TempCharList.GetSize();
1848                  n > m_TempCharList.GetSize() - count;
1849                  n--) {
1850                 PAGECHAR_INFO* charinfo1 = (PAGECHAR_INFO*)m_TempCharList.GetAt(n - 1);
1851                 if(charinfo1->m_CharCode == charinfo.m_CharCode &&
1852                         charinfo1->m_pTextObj->GetFont() == charinfo.m_pTextObj->GetFont()  &&
1853                         FXSYS_fabs(charinfo1->m_OriginX - charinfo.m_OriginX) < TEXT_CHARRATIO_GAPDELTA * pTextObj->GetFontSize()  &&
1854                         FXSYS_fabs(charinfo1->m_OriginY - charinfo.m_OriginY) < TEXT_CHARRATIO_GAPDELTA * pTextObj->GetFontSize() ) {
1855                     bDel = TRUE;
1856                     break;
1857                 }
1858             }
1859             if(!bDel) {
1860                 for (int nIndex = 0; nIndex < nTotal; nIndex++) {
1861                     charinfo.m_Unicode = wstrItem.GetAt(nIndex);
1862                     if (charinfo.m_Unicode) {
1863                         charinfo.m_Index = m_TextBuf.GetLength();
1864                         m_TempTextBuf.AppendChar(charinfo.m_Unicode);
1865                     } else {
1866                         m_TempTextBuf.AppendChar(0xfffe);
1867                     }
1868                     m_TempCharList.Add(charinfo);
1869                 }
1870             } else if(i == 0) {
1871                 CFX_WideString str = m_TempTextBuf.GetWideString();
1872                 if (!str.IsEmpty() && str.GetAt(str.GetLength() - 1) == TEXT_BLANK_CHAR) {
1873                     m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1874                     m_TempCharList.Delete(m_TempCharList.GetSize() - 1);
1875                 }
1876             }
1877         }
1878     }
1879     if (bIsBidiAndMirrosInverse) {
1880         FX_INT32 i, j;
1881         i = iCharListStartAppend;
1882         j = m_TempCharList.GetSize() - 1;
1883         for (; i < j; i++, j--) {
1884             std::swap(m_TempCharList[i], m_TempCharList[j]);
1885             std::swap(m_TempCharList[i].m_Index, m_TempCharList[j].m_Index);
1886         }
1887         FX_WCHAR * pTempBuffer = m_TempTextBuf.GetBuffer();
1888         i = iBufStartAppend;
1889         j = m_TempTextBuf.GetLength() - 1;
1890         FX_WCHAR wTemp;
1891         for (; i < j; i++, j--) {
1892             std::swap(pTempBuffer[i], pTempBuffer[j]);
1893         }
1894     }
1895 }
1896 FX_INT32 CPDF_TextPage::GetTextObjectWritingMode(const CPDF_TextObject* pTextObj)
1897 {
1898     FX_INT32 nChars = pTextObj->CountChars();
1899     if (nChars == 1) {
1900         return m_TextlineDir;
1901     }
1902     CPDF_TextObjectItem first, last;
1903     pTextObj->GetCharInfo(0, &first);
1904     pTextObj->GetCharInfo(nChars - 1, &last);
1905     CFX_Matrix textMatrix;
1906     pTextObj->GetTextMatrix(&textMatrix);
1907     textMatrix.TransformPoint(first.m_OriginX, first.m_OriginY);
1908     textMatrix.TransformPoint(last.m_OriginX, last.m_OriginY);
1909     FX_FLOAT dX = FXSYS_fabs(last.m_OriginX - first.m_OriginX);
1910     FX_FLOAT dY = FXSYS_fabs(last.m_OriginY - first.m_OriginY);
1911     if (dX <= 0.0001f && dY <= 0.0001f) {
1912         return -1;
1913     }
1914     CFX_VectorF v;
1915     v.Set(dX, dY);
1916     v.Normalize();
1917     if (v.y <= 0.0872f) {
1918         if (v.x <= 0.0872f) {
1919             return m_TextlineDir;
1920         }
1921         return 0;
1922     } else if (v.x <= 0.0872f) {
1923         return 1;
1924     }
1925     return m_TextlineDir;
1926 }
1927 FX_BOOL CPDF_TextPage::IsHyphen(FX_WCHAR curChar)
1928 {
1929     CFX_WideString strCurText = m_TempTextBuf.GetWideString();
1930     if(strCurText.GetLength() == 0) {
1931         strCurText = m_TextBuf.GetWideString();
1932     }
1933     FX_STRSIZE nCount = strCurText.GetLength();
1934     int nIndex = nCount - 1;
1935     FX_WCHAR wcTmp = strCurText.GetAt(nIndex);
1936     while(wcTmp == 0x20 && nIndex <= nCount - 1 && nIndex >= 0) {
1937         wcTmp = strCurText.GetAt(--nIndex);
1938     }
1939     if (0x2D == wcTmp || 0xAD == wcTmp) {
1940         if (--nIndex > 0) {
1941             FX_WCHAR preChar = strCurText.GetAt((nIndex));
1942             if (((preChar >= L'A' && preChar <= L'Z') || (preChar >= L'a' && preChar <= L'z'))
1943                     && ((curChar >= L'A' && curChar <= L'Z') || (curChar >= L'a' && curChar <= L'z'))) {
1944                 return TRUE;
1945             }
1946         }
1947         int size = m_TempCharList.GetSize();
1948         PAGECHAR_INFO preChar;
1949         if (size) {
1950             preChar = (PAGECHAR_INFO)m_TempCharList[size - 1];
1951         } else {
1952             size = m_charList.GetSize();
1953             if(size == 0) {
1954                 return FALSE;
1955             }
1956             preChar = (PAGECHAR_INFO)m_charList[size - 1];
1957         }
1958         if (FPDFTEXT_CHAR_PIECE == preChar.m_Flag)
1959             if (0xAD == preChar.m_Unicode || 0x2D == preChar.m_Unicode) {
1960                 return TRUE;
1961             }
1962     }
1963     return FALSE;
1964 }
1965 int CPDF_TextPage::ProcessInsertObject(const CPDF_TextObject* pObj, const CFX_AffineMatrix& formMatrix)
1966 {
1967     FindPreviousTextObject();
1968     FX_BOOL bNewline = FALSE;
1969     int WritingMode = GetTextObjectWritingMode(pObj);
1970     if(WritingMode == -1) {
1971         WritingMode = GetTextObjectWritingMode(m_pPreTextObj);
1972     }
1973     CFX_FloatRect this_rect(pObj->m_Left, pObj->m_Bottom, pObj->m_Right, pObj->m_Top);
1974     CFX_FloatRect prev_rect(m_pPreTextObj->m_Left, m_pPreTextObj->m_Bottom, m_pPreTextObj->m_Right, m_pPreTextObj->m_Top);
1975     CPDF_TextObjectItem PrevItem, item;
1976     int nItem = m_pPreTextObj->CountItems();
1977     m_pPreTextObj->GetItemInfo(nItem - 1, &PrevItem);
1978     pObj->GetItemInfo(0, &item);
1979     CFX_WideString wstrItem = pObj->GetFont()->UnicodeFromCharCode(item.m_CharCode);
1980     if(wstrItem.IsEmpty()) {
1981         wstrItem += (FX_WCHAR)item.m_CharCode;
1982     }
1983     FX_WCHAR curChar = wstrItem.GetAt(0);
1984     if(WritingMode == 0) {
1985         if(this_rect.Height() > 4.5 && prev_rect.Height() > 4.5) {
1986             FX_FLOAT top = this_rect.top < prev_rect.top ? this_rect.top : prev_rect.top;
1987             FX_FLOAT bottom = this_rect.bottom > prev_rect.bottom ? this_rect.bottom : prev_rect.bottom;
1988             if(bottom >= top) {
1989                 if(IsHyphen(curChar)) {
1990                     return 3;
1991                 }
1992                 return 2;
1993             }
1994         }
1995     } else if (WritingMode == 1) {
1996         if(this_rect.Width() > pObj->GetFontSize() * 0.1f && prev_rect.Width() > m_pPreTextObj->GetFontSize() * 0.1f) {
1997             FX_FLOAT left = this_rect.left > m_CurlineRect.left ? this_rect.left : m_CurlineRect.left;
1998             FX_FLOAT right = this_rect.right < m_CurlineRect.right ? this_rect.right : m_CurlineRect.right;
1999             if(right <= left) {
2000                 if(IsHyphen(curChar)) {
2001                     return 3;
2002                 }
2003                 return 2;
2004             }
2005         }
2006     }
2007     FX_FLOAT last_pos = PrevItem.m_OriginX;
2008     int nLastWidth = GetCharWidth(PrevItem.m_CharCode, m_pPreTextObj->GetFont());
2009     FX_FLOAT last_width = nLastWidth * m_pPreTextObj->GetFontSize() / 1000;
2010     last_width = FXSYS_fabs(last_width);
2011     int nThisWidth = GetCharWidth(item.m_CharCode, pObj->GetFont());
2012     FX_FLOAT this_width = nThisWidth * pObj->GetFontSize() / 1000;
2013     this_width = FXSYS_fabs(this_width);
2014     FX_FLOAT threshold = last_width > this_width ? last_width / 4 : this_width / 4;
2015     CFX_AffineMatrix prev_matrix, prev_reverse;
2016     m_pPreTextObj->GetTextMatrix(&prev_matrix);
2017     prev_matrix.Concat(m_perMatrix);
2018     prev_reverse.SetReverse(prev_matrix);
2019     FX_FLOAT x = pObj->GetPosX();
2020     FX_FLOAT y = pObj->GetPosY();
2021     formMatrix.Transform(x, y);
2022     prev_reverse.Transform(x, y);
2023     if(last_width < this_width) {
2024         threshold = prev_reverse.TransformDistance(threshold);
2025     }
2026     CFX_FloatRect rect1(m_pPreTextObj->m_Left, pObj->m_Bottom, m_pPreTextObj->m_Right, pObj->m_Top);
2027     CFX_FloatRect rect2(m_pPreTextObj->m_Left, m_pPreTextObj->m_Bottom, m_pPreTextObj->m_Right, m_pPreTextObj->m_Top);
2028     CFX_FloatRect rect3 = rect1;
2029     rect1.Intersect(rect2);
2030     if (WritingMode == 0) {
2031         if ((rect1.IsEmpty() && rect2.Height() > 5 && rect3.Height() > 5)
2032                 || ((y > threshold * 2 || y < threshold * -3) && (FXSYS_fabs(y) < 1 ? FXSYS_fabs(x) < FXSYS_fabs(y) : TRUE))) {
2033             bNewline = TRUE;
2034             if(nItem > 1 ) {
2035                 CPDF_TextObjectItem tempItem;
2036                 m_pPreTextObj->GetItemInfo(0, &tempItem);
2037                 CFX_AffineMatrix m;
2038                 m_pPreTextObj->GetTextMatrix(&m);
2039                 if(PrevItem.m_OriginX > tempItem.m_OriginX &&
2040                         m_DisplayMatrix.a > 0.9 && m_DisplayMatrix.b < 0.1 &&
2041                         m_DisplayMatrix.c < 0.1 && m_DisplayMatrix.d < -0.9
2042                         && m.b < 0.1 && m.c < 0.1 ) {
2043                     CFX_FloatRect re(0, m_pPreTextObj->m_Bottom, 1000, m_pPreTextObj->m_Top);
2044                     if(re.Contains(pObj->GetPosX(), pObj->GetPosY())) {
2045                         bNewline = FALSE;
2046                     } else {
2047                         CFX_FloatRect re(0, pObj->m_Bottom, 1000, pObj->m_Top);
2048                         if(re.Contains(m_pPreTextObj->GetPosX(), m_pPreTextObj->GetPosY())) {
2049                             bNewline = FALSE;
2050                         }
2051                     }
2052                 }
2053             }
2054         }
2055     }
2056     if(bNewline) {
2057         if(IsHyphen(curChar)) {
2058             return 3;
2059         }
2060         return 2;
2061     }
2062     FX_INT32 nChars = pObj->CountChars();
2063     if (nChars == 1 && ( 0x2D == curChar || 0xAD == curChar))
2064         if (IsHyphen(curChar)) {
2065             return 3;
2066         }
2067     CFX_WideString PrevStr = m_pPreTextObj->GetFont()->UnicodeFromCharCode(PrevItem.m_CharCode);
2068     FX_WCHAR preChar = PrevStr.GetAt(PrevStr.GetLength() - 1);
2069     CFX_AffineMatrix matrix;
2070     pObj->GetTextMatrix(&matrix);
2071     matrix.Concat(formMatrix);
2072     threshold = (FX_FLOAT)(nLastWidth > nThisWidth ? nLastWidth : nThisWidth);
2073     threshold = threshold > 400 ? (threshold < 700 ? threshold / 4 :  (threshold > 800 ? threshold / 6 : threshold / 5)) : (threshold / 2);
2074     if(nLastWidth >= nThisWidth) {
2075         threshold *= FXSYS_fabs(m_pPreTextObj->GetFontSize());
2076     } else {
2077         threshold *= FXSYS_fabs(pObj->GetFontSize());
2078         threshold = matrix.TransformDistance(threshold);
2079         threshold = prev_reverse.TransformDistance(threshold);
2080     }
2081     threshold /= 1000;
2082     if((threshold < 1.4881 && threshold > 1.4879)
2083             || (threshold < 1.39001 && threshold > 1.38999)) {
2084         threshold *= 1.5;
2085     }
2086     if (FXSYS_fabs(last_pos + last_width - x) > threshold && curChar != L' ' && preChar != L' ')
2087         if (curChar != L' ' && preChar != L' ') {
2088             if((x - last_pos - last_width) > threshold || (last_pos - x - last_width) > threshold) {
2089                 return 1;
2090             }
2091             if(x < 0 && (last_pos - x - last_width) > threshold) {
2092                 return 1;
2093             }
2094             if((x - last_pos - last_width) > this_width || (x - last_pos - this_width) > last_width ) {
2095                 return 1;
2096             }
2097         }
2098     return 0;
2099 }
2100 FX_BOOL CPDF_TextPage::IsSameTextObject(CPDF_TextObject* pTextObj1, CPDF_TextObject* pTextObj2)
2101 {
2102     if (!pTextObj1 || !pTextObj2) {
2103         return FALSE;
2104     }
2105     CFX_FloatRect rcPreObj(pTextObj2->m_Left, pTextObj2->m_Bottom, pTextObj2->m_Right, pTextObj2->m_Top);
2106     CFX_FloatRect rcCurObj(pTextObj1->m_Left, pTextObj1->m_Bottom, pTextObj1->m_Right, pTextObj1->m_Top);
2107     if (rcPreObj.IsEmpty() && rcCurObj.IsEmpty() && !m_ParseOptions.m_bGetCharCodeOnly) {
2108         FX_FLOAT dbXdif = FXSYS_fabs(rcPreObj.left - rcCurObj.left);
2109         int nCount = m_charList.GetSize();
2110         if (nCount >= 2) {
2111             PAGECHAR_INFO perCharTemp = (PAGECHAR_INFO)m_charList[nCount - 2];
2112             FX_FLOAT dbSpace = perCharTemp.m_CharBox.Width();
2113             if (dbXdif > dbSpace) {
2114                 return FALSE;
2115             }
2116         }
2117     }
2118     if (!rcPreObj.IsEmpty() || !rcCurObj.IsEmpty()) {
2119         rcPreObj.Intersect(rcCurObj);
2120         if (rcPreObj.IsEmpty()) {
2121             return FALSE;
2122         }
2123         if (FXSYS_fabs(rcPreObj.Width() - rcCurObj.Width()) > rcCurObj.Width() / 2) {
2124             return FALSE;
2125         }
2126         if (pTextObj2->GetFontSize() != pTextObj1->GetFontSize()) {
2127             return FALSE;
2128         }
2129     }
2130     int nPreCount = pTextObj2->CountItems();
2131     int nCurCount = pTextObj1->CountItems();
2132     if (nPreCount != nCurCount) {
2133         return FALSE;
2134     }
2135     CPDF_TextObjectItem itemPer, itemCur;
2136     for (int i = 0; i < nPreCount; i++) {
2137         pTextObj2->GetItemInfo(i, &itemPer);
2138         pTextObj1->GetItemInfo(i, &itemCur);
2139         if (itemCur.m_CharCode != itemPer.m_CharCode) {
2140             return FALSE;
2141         }
2142     }
2143     if(FXSYS_fabs(pTextObj1->GetPosX() - pTextObj2->GetPosX()) > GetCharWidth(itemPer.m_CharCode, pTextObj2->GetFont())*pTextObj2->GetFontSize() / 1000 * 0.9 ||
2144             FXSYS_fabs(pTextObj1->GetPosY() - pTextObj2->GetPosY()) >
2145             FX_MAX(FX_MAX(rcPreObj.Height() , rcPreObj.Width()), pTextObj2->GetFontSize()) / 8) {
2146         return FALSE;
2147     }
2148     return TRUE;
2149 }
2150 FX_BOOL CPDF_TextPage::IsSameAsPreTextObject(CPDF_TextObject* pTextObj, FX_POSITION ObjPos)
2151 {
2152     if (!pTextObj) {
2153         return FALSE;
2154     }
2155     int i = 0;
2156     if (!ObjPos) {
2157         ObjPos = m_pPage->GetLastObjectPosition();
2158     }
2159     CPDF_PageObject* pObj = m_pPage->GetPrevObject(ObjPos);
2160     while (i < 5 && ObjPos) {
2161         pObj = m_pPage->GetPrevObject(ObjPos);
2162         if(pObj == pTextObj) {
2163             continue;
2164         }
2165         if(pObj->m_Type != PDFPAGE_TEXT) {
2166             continue;
2167         }
2168         if(IsSameTextObject((CPDF_TextObject*)pObj, pTextObj)) {
2169             return TRUE;
2170         }
2171         i++;
2172     }
2173     return FALSE;
2174 }
2175 FX_BOOL CPDF_TextPage::GenerateCharInfo(FX_WCHAR unicode, PAGECHAR_INFO& info)
2176 {
2177     int size = m_TempCharList.GetSize();
2178     PAGECHAR_INFO preChar;
2179     if (size) {
2180         preChar = (PAGECHAR_INFO)m_TempCharList[size - 1];
2181     } else {
2182         size = m_charList.GetSize();
2183         if(size == 0) {
2184             return FALSE;
2185         }
2186         preChar = (PAGECHAR_INFO)m_charList[size - 1];
2187     }
2188     info.m_Index = m_TextBuf.GetLength();
2189     info.m_Unicode = unicode;
2190     info.m_pTextObj = NULL;
2191     info.m_CharCode = -1;
2192     info.m_Flag = FPDFTEXT_CHAR_GENERATED;
2193     int preWidth = 0;
2194     if (preChar.m_pTextObj && preChar.m_CharCode != (FX_DWORD) - 1) {
2195         preWidth = GetCharWidth(preChar.m_CharCode, preChar.m_pTextObj->GetFont());
2196     }
2197     FX_FLOAT fs = 0;
2198     if(preChar.m_pTextObj) {
2199         fs = preChar.m_pTextObj->GetFontSize();
2200     } else {
2201         fs = preChar.m_CharBox.Height();
2202     }
2203     if(!fs) {
2204         fs = 1;
2205     }
2206     info.m_OriginX = preChar.m_OriginX + preWidth * (fs) / 1000;
2207     info.m_OriginY = preChar.m_OriginY;
2208     info.m_CharBox = CFX_FloatRect(info.m_OriginX, info.m_OriginY, info.m_OriginX, info.m_OriginY);
2209     return TRUE;
2210 }
2211 FX_BOOL CPDF_TextPage::IsRectIntersect(const CFX_FloatRect& rect1, const CFX_FloatRect& rect2)
2212 {
2213     CFX_FloatRect rect = rect1;
2214     rect.Intersect(rect2);
2215     return !rect.IsEmpty();
2216 }
2217 FX_BOOL CPDF_TextPage::IsLetter(FX_WCHAR unicode)
2218 {
2219     if (unicode < L'A') {
2220         return FALSE;
2221     }
2222     if (unicode > L'Z' && unicode < L'a') {
2223         return FALSE;
2224     }
2225     if (unicode > L'z') {
2226         return FALSE;
2227     }
2228     return TRUE;
2229 }
2230 CPDF_TextPageFind::CPDF_TextPageFind(const IPDF_TextPage* pTextPage)
2231     : m_pTextPage(NULL),
2232       m_IsFind(FALSE)
2233 {
2234     if (!pTextPage) {
2235         return;
2236     }
2237     m_pTextPage = pTextPage;
2238     m_strText = m_pTextPage->GetPageText();
2239     int nCount = pTextPage->CountChars();
2240     if(nCount) {
2241         m_CharIndex.Add(0);
2242     }
2243     for(int i = 0; i < nCount; i++) {
2244         FPDF_CHAR_INFO info;
2245         pTextPage->GetCharInfo(i, info);
2246         int indexSize = m_CharIndex.GetSize();
2247         if(info.m_Flag == CHAR_NORMAL || info.m_Flag == CHAR_GENERATED) {
2248             if(indexSize % 2) {
2249                 m_CharIndex.Add(1);
2250             } else {
2251                 if(indexSize <= 0) {
2252                     continue;
2253                 }
2254                 m_CharIndex.SetAt(indexSize - 1, m_CharIndex.GetAt(indexSize - 1) + 1);
2255             }
2256         } else {
2257             if(indexSize % 2) {
2258                 if(indexSize <= 0) {
2259                     continue;
2260                 }
2261                 m_CharIndex.SetAt(indexSize - 1, i + 1);
2262             } else {
2263                 m_CharIndex.Add(i + 1);
2264             }
2265         }
2266     }
2267     int indexSize = m_CharIndex.GetSize();
2268     if(indexSize % 2) {
2269         m_CharIndex.RemoveAt(indexSize - 1);
2270     }
2271     m_resStart = 0;
2272     m_resEnd = -1;
2273 }
2274 int CPDF_TextPageFind::GetCharIndex(int index) const
2275 {
2276     return m_pTextPage->CharIndexFromTextIndex(index);
2277     int indexSize = m_CharIndex.GetSize();
2278     int count = 0;
2279     for(int i = 0; i < indexSize; i += 2) {
2280         count += m_CharIndex.GetAt(i + 1);
2281         if(count > index) {
2282             return      index - count + m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i);
2283         }
2284     }
2285     return -1;
2286 }
2287 FX_BOOL CPDF_TextPageFind::FindFirst(const CFX_WideString& findwhat, int flags, int startPos)
2288 {
2289     if (!m_pTextPage) {
2290         return FALSE;
2291     }
2292     if (m_strText.IsEmpty() || m_bMatchCase != (flags & FPDFTEXT_MATCHCASE)) {
2293         m_strText = m_pTextPage->GetPageText();
2294     }
2295     CFX_WideString findwhatStr = findwhat;
2296     m_findWhat = findwhatStr;
2297     m_flags = flags;
2298     m_bMatchCase = flags & FPDFTEXT_MATCHCASE;
2299     if (m_strText.IsEmpty()) {
2300         m_IsFind = FALSE;
2301         return TRUE;
2302     }
2303     FX_STRSIZE len = findwhatStr.GetLength();
2304     if (!m_bMatchCase) {
2305         findwhatStr.MakeLower();
2306         m_strText.MakeLower();
2307     }
2308     m_bMatchWholeWord = flags & FPDFTEXT_MATCHWHOLEWORD;
2309     m_findNextStart = startPos;
2310     if (startPos == -1) {
2311         m_findPreStart = m_strText.GetLength() - 1;
2312     } else {
2313         m_findPreStart = startPos;
2314     }
2315     m_csFindWhatArray.RemoveAll();
2316     int i = 0;
2317     while(i < len) {
2318         if(findwhatStr.GetAt(i) != ' ') {
2319             break;
2320         }
2321         i++;
2322     }
2323     if(i < len) {
2324         ExtractFindWhat(findwhatStr);
2325     } else {
2326         m_csFindWhatArray.Add(findwhatStr);
2327     }
2328     if(m_csFindWhatArray.GetSize() <= 0) {
2329         return FALSE;
2330     }
2331     m_IsFind = TRUE;
2332     m_resStart = 0;
2333     m_resEnd = -1;
2334     return TRUE;
2335 }
2336 FX_BOOL CPDF_TextPageFind::FindNext()
2337 {
2338     if (!m_pTextPage) {
2339         return FALSE;
2340     }
2341     m_resArray.RemoveAll();
2342     if(m_findNextStart == -1) {
2343         return FALSE;
2344     }
2345     if(m_strText.IsEmpty()) {
2346         m_IsFind = FALSE;
2347         return m_IsFind;
2348     }
2349     int strLen = m_strText.GetLength();
2350     if (m_findNextStart > strLen - 1) {
2351         m_IsFind = FALSE;
2352         return m_IsFind;
2353     }
2354     int nCount = m_csFindWhatArray.GetSize();
2355     int nResultPos = 0;
2356     int nStartPos = 0;
2357     nStartPos = m_findNextStart;
2358     FX_BOOL bSpaceStart = FALSE;
2359     for(int iWord = 0; iWord < nCount; iWord++) {
2360         CFX_WideString csWord = m_csFindWhatArray[iWord];
2361         if(csWord.IsEmpty()) {
2362             if(iWord == nCount - 1) {
2363                 FX_WCHAR strInsert = m_strText.GetAt(nStartPos);
2364                 if(strInsert == TEXT_LINEFEED_CHAR || strInsert == TEXT_BLANK_CHAR || strInsert == TEXT_RETURN_CHAR || strInsert == 160) {
2365                     nResultPos = nStartPos + 1;
2366                     break;
2367                 }
2368                 iWord = -1;
2369             } else if(iWord == 0) {
2370                 bSpaceStart = TRUE;
2371             }
2372             continue;
2373         }
2374         int endIndex;
2375         nResultPos = m_strText.Find(csWord, nStartPos);
2376         if (nResultPos == -1) {
2377             m_IsFind = FALSE;
2378             return m_IsFind;
2379         }
2380         endIndex = nResultPos + csWord.GetLength() - 1;
2381         if(iWord == 0) {
2382             m_resStart = nResultPos;
2383         }
2384         FX_BOOL bMatch = TRUE;
2385         if(iWord != 0 && !bSpaceStart) {
2386             int PreResEndPos = nStartPos;
2387             int curChar = csWord.GetAt(0);
2388             CFX_WideString lastWord = m_csFindWhatArray[iWord - 1];
2389             int lastChar = lastWord.GetAt(lastWord.GetLength() - 1);
2390             if(nStartPos == nResultPos && !(_IsIgnoreSpaceCharacter(lastChar) || _IsIgnoreSpaceCharacter(curChar))) {
2391                 bMatch = FALSE;
2392             }
2393             for(int d = PreResEndPos; d < nResultPos; d++) {
2394                 FX_WCHAR strInsert = m_strText.GetAt(d);
2395                 if(strInsert != TEXT_LINEFEED_CHAR && strInsert != TEXT_BLANK_CHAR && strInsert != TEXT_RETURN_CHAR && strInsert != 160) {
2396                     bMatch = FALSE;
2397                     break;
2398                 }
2399             }
2400         } else if(bSpaceStart) {
2401             if(nResultPos > 0) {
2402                 FX_WCHAR strInsert = m_strText.GetAt(nResultPos - 1);
2403                 if(strInsert != TEXT_LINEFEED_CHAR && strInsert != TEXT_BLANK_CHAR && strInsert != TEXT_RETURN_CHAR && strInsert != 160) {
2404                     bMatch = FALSE;
2405                     m_resStart = nResultPos;
2406                 } else {
2407                     m_resStart = nResultPos - 1;
2408                 }
2409             }
2410         }
2411         if(m_bMatchWholeWord && bMatch) {
2412             bMatch = IsMatchWholeWord(m_strText, nResultPos, endIndex);
2413         }
2414         nStartPos = endIndex + 1;
2415         if(!bMatch) {
2416             iWord = -1;
2417             if(bSpaceStart) {
2418                 nStartPos = m_resStart + m_csFindWhatArray[1].GetLength();
2419             } else {
2420                 nStartPos = m_resStart + m_csFindWhatArray[0].GetLength();
2421             }
2422         }
2423     }
2424     m_resEnd = nResultPos + m_csFindWhatArray[m_csFindWhatArray.GetSize() - 1].GetLength() - 1;
2425     m_IsFind = TRUE;
2426     int resStart = GetCharIndex(m_resStart);
2427     int resEnd = GetCharIndex(m_resEnd);
2428     m_pTextPage->GetRectArray(resStart, resEnd - resStart + 1, m_resArray);
2429     if(m_flags & FPDFTEXT_CONSECUTIVE) {
2430         m_findNextStart = m_resStart + 1;
2431         m_findPreStart = m_resEnd - 1;
2432     } else {
2433         m_findNextStart = m_resEnd + 1;
2434         m_findPreStart = m_resStart - 1;
2435     }
2436     return m_IsFind;
2437 }
2438 FX_BOOL CPDF_TextPageFind::FindPrev()
2439 {
2440     if (!m_pTextPage) {
2441         return FALSE;
2442     }
2443     m_resArray.RemoveAll();
2444     if(m_strText.IsEmpty() || m_findPreStart < 0) {
2445         m_IsFind = FALSE;
2446         return m_IsFind;
2447     }
2448     CPDF_TextPageFind findEngine(m_pTextPage);
2449     FX_BOOL ret = findEngine.FindFirst(m_findWhat, m_flags);
2450     if(!ret) {
2451         m_IsFind = FALSE;
2452         return m_IsFind;
2453     }
2454     int order = -1, MatchedCount = 0;
2455     while(ret) {
2456         ret = findEngine.FindNext();
2457         if(ret) {
2458             int order1 = findEngine.GetCurOrder() ;
2459             int MatchedCount1 = findEngine.GetMatchedCount();
2460             if(((order1 + MatchedCount1) - 1) > m_findPreStart) {
2461                 break;
2462             }
2463             order = order1;
2464             MatchedCount = MatchedCount1;
2465         }
2466     }
2467     if(order == -1) {
2468         m_IsFind = FALSE;
2469         return m_IsFind;
2470     }
2471     m_resStart = m_pTextPage->TextIndexFromCharIndex(order);
2472     m_resEnd = m_pTextPage->TextIndexFromCharIndex(order + MatchedCount - 1);
2473     m_IsFind = TRUE;
2474     m_pTextPage->GetRectArray(order, MatchedCount, m_resArray);
2475     if(m_flags & FPDFTEXT_CONSECUTIVE) {
2476         m_findNextStart = m_resStart + 1;
2477         m_findPreStart = m_resEnd - 1;
2478     } else {
2479         m_findNextStart = m_resEnd + 1;
2480         m_findPreStart = m_resStart - 1;
2481     }
2482     return m_IsFind;
2483 }
2484 void CPDF_TextPageFind::ExtractFindWhat(const CFX_WideString& findwhat)
2485 {
2486     if(findwhat.IsEmpty()) {
2487         return ;
2488     }
2489     int index = 0;
2490     while(1) {
2491         CFX_WideString csWord = TEXT_EMPTY;
2492         int ret = ExtractSubString(csWord, findwhat, index, TEXT_BLANK_CHAR);
2493         if(csWord.IsEmpty()) {
2494             if(ret) {
2495                 m_csFindWhatArray.Add(CFX_WideString(L""));
2496                 index++;
2497                 continue;
2498             } else {
2499                 break;
2500             }
2501         }
2502         int pos = 0;
2503         FX_BOOL bLastIgnore = FALSE;
2504         while(pos < csWord.GetLength()) {
2505             CFX_WideString curStr = csWord.Mid(pos, 1);
2506             FX_WCHAR curChar = csWord.GetAt(pos);
2507             if (_IsIgnoreSpaceCharacter(curChar)) {
2508                 if (pos > 0 && curChar == 0x2019) {
2509                     pos++;
2510                     continue;
2511                 }
2512                 if (pos > 0 ) {
2513                     CFX_WideString preStr = csWord.Mid(0, pos);
2514                     m_csFindWhatArray.Add(preStr);
2515                 }
2516                 m_csFindWhatArray.Add(curStr);
2517                 if (pos == csWord.GetLength() - 1) {
2518                     csWord.Empty();
2519                     break;
2520                 }
2521                 csWord = csWord.Right(csWord.GetLength() - pos - 1);
2522                 pos = 0;
2523                 bLastIgnore = TRUE;
2524                 continue;
2525             } else {
2526                 bLastIgnore = FALSE;
2527             }
2528             pos++;
2529         }
2530         if (!csWord.IsEmpty()) {
2531             m_csFindWhatArray.Add(csWord);
2532         }
2533         index++;
2534     }
2535     return;
2536 }
2537 FX_BOOL CPDF_TextPageFind::IsMatchWholeWord(const CFX_WideString& csPageText, int startPos, int endPos)
2538 {
2539     int char_left = 0;
2540     int char_right = 0;
2541     int char_count = endPos - startPos + 1;
2542     if(char_count < 1) {
2543         return FALSE;
2544     }
2545     if (char_count == 1 && csPageText.GetAt(startPos) > 255) {
2546         return TRUE;
2547     }
2548     if(startPos - 1 >= 0 ) {
2549         char_left = csPageText.GetAt(startPos - 1);
2550     }
2551     if(startPos + char_count < csPageText.GetLength()) {
2552         char_right = csPageText.GetAt(startPos + char_count);
2553     }
2554     if ((char_left > 'A' && char_left < 'a') || (char_left > 'a' && char_left < 'z') || (char_left > 0xfb00 && char_left < 0xfb06) || (char_left >= '0' && char_left <= '9') ||
2555             (char_right > 'A' && char_right < 'a') || (char_right > 'a' && char_right < 'z') || (char_right > 0xfb00 && char_right < 0xfb06) || (char_right >= '0' && char_right <= '9')) {
2556         return FALSE;
2557     }
2558     if(!(('A' > char_left || char_left > 'Z')  && ('a' > char_left || char_left > 'z')
2559             && ('A' > char_right || char_right > 'Z')  && ('a' > char_right || char_right > 'z'))) {
2560         return FALSE;
2561     }
2562     if (char_count > 0) {
2563         if (csPageText.GetAt(startPos) >= L'0' && csPageText.GetAt(startPos) <= L'9' && char_left >= L'0' && char_left <= L'9') {
2564             return FALSE;
2565         }
2566         if (csPageText.GetAt(endPos) >= L'0' && csPageText.GetAt(endPos) <= L'9' && char_right >= L'0' && char_right <= L'9') {
2567             return FALSE;
2568         }
2569     }
2570     return TRUE;
2571 }
2572 FX_BOOL CPDF_TextPageFind::ExtractSubString(CFX_WideString& rString, FX_LPCWSTR lpszFullString,
2573         int iSubString, FX_WCHAR chSep)
2574 {
2575     if (lpszFullString == NULL) {
2576         return FALSE;
2577     }
2578     while (iSubString--) {
2579         lpszFullString = FXSYS_wcschr(lpszFullString, chSep);
2580         if (lpszFullString == NULL) {
2581             rString.Empty();
2582             return FALSE;
2583         }
2584         lpszFullString++;
2585         while(*lpszFullString == chSep) {
2586             lpszFullString++;
2587         }
2588     }
2589     FX_LPCWSTR lpchEnd = FXSYS_wcschr(lpszFullString, chSep);
2590     int nLen = (lpchEnd == NULL) ?
2591                (int)FXSYS_wcslen(lpszFullString) : (int)(lpchEnd - lpszFullString);
2592     ASSERT(nLen >= 0);
2593     FXSYS_memcpy32(rString.GetBuffer(nLen), lpszFullString, nLen * sizeof(FX_WCHAR));
2594     rString.ReleaseBuffer();
2595     return TRUE;
2596 }
2597 CFX_WideString CPDF_TextPageFind::MakeReverse(const CFX_WideString& str)
2598 {
2599     CFX_WideString str2;
2600     str2.Empty();
2601     int nlen = str.GetLength();
2602     for(int i = nlen - 1; i >= 0; i--) {
2603         str2 += str.GetAt(i);
2604     }
2605     return str2;
2606 }
2607 void CPDF_TextPageFind::GetRectArray(CFX_RectArray& rects) const
2608 {
2609     rects.Copy(m_resArray);
2610 }
2611 int     CPDF_TextPageFind::GetCurOrder() const
2612 {
2613     return GetCharIndex(m_resStart);
2614 }
2615 int     CPDF_TextPageFind::GetMatchedCount()const
2616 {
2617     int resStart = GetCharIndex(m_resStart);
2618     int resEnd = GetCharIndex(m_resEnd);
2619     return resEnd - resStart + 1;
2620 }
2621 CPDF_LinkExtract::CPDF_LinkExtract()
2622     : m_pTextPage(NULL),
2623       m_IsParserd(FALSE)
2624 {
2625 }
2626 CPDF_LinkExtract::~CPDF_LinkExtract()
2627 {
2628     DeleteLinkList();
2629 }
2630 FX_BOOL CPDF_LinkExtract::ExtractLinks(const IPDF_TextPage* pTextPage)
2631 {
2632     if (!pTextPage || !pTextPage->IsParsered()) {
2633         return FALSE;
2634     }
2635     m_pTextPage = (const CPDF_TextPage*)pTextPage;
2636     m_strPageText = m_pTextPage->GetPageText(0, -1);
2637     DeleteLinkList();
2638     if (m_strPageText.IsEmpty()) {
2639         return FALSE;
2640     }
2641     parserLink();
2642     m_IsParserd = TRUE;
2643     return TRUE;
2644 }
2645 void CPDF_LinkExtract::DeleteLinkList()
2646 {
2647     while (m_LinkList.GetSize()) {
2648         CPDF_LinkExt* linkinfo = NULL;
2649         linkinfo = m_LinkList.GetAt(0);
2650         m_LinkList.RemoveAt(0);
2651         delete linkinfo;
2652     }
2653     m_LinkList.RemoveAll();
2654 }
2655 int CPDF_LinkExtract::CountLinks() const
2656 {
2657     if (!m_IsParserd)   {
2658         return -1;
2659     }
2660     return m_LinkList.GetSize();
2661 }
2662 void CPDF_LinkExtract::parserLink()
2663 {
2664     int start = 0, pos = 0;
2665     int TotalChar = m_pTextPage->CountChars();
2666     while (pos < TotalChar) {
2667         FPDF_CHAR_INFO pageChar;
2668         m_pTextPage->GetCharInfo(pos, pageChar);
2669         if (pageChar.m_Flag == CHAR_GENERATED || pageChar.m_Unicode == 0x20 || pos == TotalChar - 1) {
2670             int nCount = pos - start;
2671             if(pos == TotalChar - 1) {
2672                 nCount++;
2673             }
2674             CFX_WideString strBeCheck;
2675             strBeCheck = m_pTextPage->GetPageText(start, nCount);
2676             if (strBeCheck.GetLength() > 5) {
2677                 while(strBeCheck.GetLength() > 0) {
2678                     FX_WCHAR ch = strBeCheck.GetAt(strBeCheck.GetLength() - 1);
2679                     if (ch == L')' || ch == L',' || ch == L'>' || ch == L'.') {
2680                         strBeCheck = strBeCheck.Mid(0, strBeCheck.GetLength() - 1);
2681                         nCount--;
2682                     } else {
2683                         break;
2684                     }
2685                 }
2686                 if (nCount > 5 && (CheckWebLink(strBeCheck) || CheckMailLink(strBeCheck))) {
2687                     if (!AppendToLinkList(start, nCount, strBeCheck)) {
2688                         break;
2689                     }
2690                 }
2691             }
2692             start = ++pos;
2693         } else {
2694             pos++;
2695         }
2696     }
2697 }
2698 FX_BOOL CPDF_LinkExtract::CheckWebLink(CFX_WideString& strBeCheck)
2699 {
2700     CFX_WideString str = strBeCheck;
2701     str.MakeLower();
2702     if (str.Find(L"http://www.") != -1) {
2703         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"http://www."));
2704         return TRUE;
2705     } else if (str.Find(L"http://") != -1) {
2706         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"http://"));
2707         return TRUE;
2708     } else if (str.Find(L"https://www.") != -1) {
2709         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"https://www."));
2710         return TRUE;
2711     } else if (str.Find(L"https://") != -1) {
2712         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"https://"));
2713         return TRUE;
2714     } else if (str.Find(L"www.") != -1) {
2715         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"www."));
2716         strBeCheck = L"http://" + strBeCheck;
2717         return TRUE;
2718     } else {
2719         return FALSE;
2720     }
2721 }
2722 FX_BOOL CPDF_LinkExtract::CheckMailLink(CFX_WideString& str)
2723 {
2724     str.MakeLower();
2725     int aPos = str.Find(L'@');
2726     if (aPos < 1) {
2727         return FALSE;
2728     }
2729     if (str.GetAt(aPos - 1) == L'.' || str.GetAt(aPos - 1) == L'_') {
2730         return FALSE;
2731     }
2732     int i;
2733     for (i = aPos - 1; i >= 0; i--) {
2734         FX_WCHAR ch = str.GetAt(i);
2735         if (ch == L'_' || ch == L'.' || (ch >= L'a' && ch <= L'z') || (ch >= L'0' && ch <= L'9')) {
2736             continue;
2737         } else {
2738             if (i == aPos - 1) {
2739                 return FALSE;
2740             }
2741             str = str.Right(str.GetLength() - i - 1);
2742             break;
2743         }
2744     }
2745     aPos = str.Find(L'@');
2746     if (aPos < 1) {
2747         return FALSE;
2748     }
2749     CFX_WideString strtemp = L"";
2750     for (i = 0; i < aPos; i++) {
2751         FX_WCHAR wch = str.GetAt(i);
2752         if (wch >= L'a' && wch <= L'z') {
2753             break;
2754         } else {
2755             strtemp = str.Right(str.GetLength() - i + 1);
2756         }
2757     }
2758     if (strtemp != L"") {
2759         str = strtemp;
2760     }
2761     aPos = str.Find(L'@');
2762     if (aPos < 1) {
2763         return FALSE;
2764     }
2765     str.TrimRight(L'.');
2766     strtemp = str;
2767     int ePos = str.Find(L'.');
2768     if (ePos == -1) {
2769         return FALSE;
2770     }
2771     while (ePos != -1) {
2772         strtemp = strtemp.Right(strtemp.GetLength() - ePos - 1);
2773         ePos = strtemp.Find('.');
2774     }
2775     ePos = strtemp.GetLength();
2776     for (i = 0; i < ePos; i++) {
2777         FX_WCHAR wch = str.GetAt(i);
2778         if ((wch >= L'a' && wch <= L'z') || (wch >= L'0' && wch <= L'9')) {
2779             continue;
2780         } else {
2781             str = str.Left(str.GetLength() - ePos + i + 1);
2782             ePos = ePos - i - 1;
2783             break;
2784         }
2785     }
2786     int nLen = str.GetLength();
2787     for (i = aPos + 1; i < nLen - ePos; i++) {
2788         FX_WCHAR wch = str.GetAt(i);
2789         if (wch == L'-' || wch == L'.' || (wch >= L'a' && wch <= L'z') || (wch >= L'0' && wch <= L'9')) {
2790             continue;
2791         } else {
2792             return FALSE;
2793         }
2794     }
2795     if (str.Find(L"mailto:") == -1) {
2796         str = L"mailto:" + str;
2797     }
2798     return TRUE;
2799 }
2800 FX_BOOL CPDF_LinkExtract::AppendToLinkList(int start, int count, const CFX_WideString& strUrl)
2801 {
2802     CPDF_LinkExt* linkInfo = NULL;
2803     linkInfo = FX_NEW CPDF_LinkExt;
2804     if (!linkInfo) {
2805         return FALSE;
2806     }
2807     linkInfo->m_strUrl = strUrl;
2808     linkInfo->m_Start = start;
2809     linkInfo->m_Count = count;
2810     m_LinkList.Add(linkInfo);
2811     return TRUE;
2812 }
2813 CFX_WideString CPDF_LinkExtract::GetURL(int index) const
2814 {
2815     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2816         return L"";
2817     }
2818     CPDF_LinkExt* link = NULL;
2819     link = m_LinkList.GetAt(index);
2820     if (!link) {
2821         return L"";
2822     }
2823     return link->m_strUrl;
2824 }
2825 void CPDF_LinkExtract::GetBoundedSegment(int index, int& start, int& count) const
2826 {
2827     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2828         return ;
2829     }
2830     CPDF_LinkExt* link = NULL;
2831     link = m_LinkList.GetAt(index);
2832     if (!link) {
2833         return ;
2834     }
2835     start = link->m_Start;
2836     count = link->m_Count;
2837 }
2838 void CPDF_LinkExtract::GetRects(int index, CFX_RectArray& rects) const
2839 {
2840     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2841         return;
2842     }
2843     CPDF_LinkExt* link = NULL;
2844     link = m_LinkList.GetAt(index);
2845     if (!link) {
2846         return ;
2847     }
2848     m_pTextPage->GetRectArray(link->m_Start, link->m_Count, rects);
2849 }