Merge to XFA: Kill FXSYS_mem{cpy,cmp,set.move}{32,8}.
[pdfium.git] / core / src / fpdftext / fpdf_text_int.cpp
1 // Copyright 2014 PDFium Authors. All rights reserved.
2 // Use of this source code is governed by a BSD-style license that can be
3 // found in the LICENSE file.
4  
5 // Original code copyright 2014 Foxit Software Inc. http://www.foxitsoftware.com
6
7 #include "../../include/fpdfapi/fpdf_resource.h"
8 #include "../../include/fpdfapi/fpdf_pageobj.h"
9 #include "../../include/fpdftext/fpdf_text.h"
10 #include "../../include/fpdfapi/fpdf_page.h"
11 #include "../../include/fpdfapi/fpdf_module.h"
12 #include <ctype.h>
13 #include <algorithm>
14 #include "text_int.h"
15
16 namespace {
17
18 FX_BOOL _IsIgnoreSpaceCharacter(FX_WCHAR curChar)
19 {
20     if(curChar < 255 ) {
21         return FALSE;
22     }
23     if ( (curChar >= 0x0600 && curChar <= 0x06FF)
24             || (curChar >= 0xFE70 && curChar <= 0xFEFF)
25             || (curChar >= 0xFB50 && curChar <= 0xFDFF)
26             || (curChar >= 0x0400 && curChar <= 0x04FF)
27             || (curChar >= 0x0500 && curChar <= 0x052F)
28             || (curChar >= 0xA640 && curChar <= 0xA69F)
29             || (curChar >= 0x2DE0 && curChar <= 0x2DFF)
30             || curChar == 8467
31             || (curChar >= 0x2000 && curChar <= 0x206F)) {
32         return FALSE;
33     }
34     return TRUE;
35 }
36
37 FX_FLOAT _NormalizeThreshold(FX_FLOAT threshold)
38 {
39     if (threshold < 300) {
40         return threshold / 2.0f;
41     } else if (threshold < 500) {
42         return threshold / 4.0f;
43     } else if (threshold < 700) {
44         return threshold / 5.0f;
45     }
46     return threshold / 6.0f;
47 }
48
49 FX_FLOAT _CalculateBaseSpace(const CPDF_TextObject* pTextObj,
50                              const CFX_AffineMatrix& matrix)
51 {
52     FX_FLOAT baseSpace = 0.0;
53     const int nItems = pTextObj->CountItems();
54     if (pTextObj->m_TextState.GetObject()->m_CharSpace && nItems >= 3) {
55         FX_BOOL bAllChar = TRUE;
56         FX_FLOAT spacing = matrix.TransformDistance(
57             pTextObj->m_TextState.GetObject()->m_CharSpace);
58         baseSpace = spacing;
59         for (int i = 0; i < nItems; i++) {
60             CPDF_TextObjectItem item;
61             pTextObj->GetItemInfo(i, &item);
62             if (item.m_CharCode == (FX_DWORD) - 1) {
63                 FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
64                 FX_FLOAT kerning = -fontsize_h * item.m_OriginX / 1000;
65                 baseSpace = std::min(baseSpace, kerning + spacing);
66                 bAllChar = FALSE;
67             }
68         }
69         if (baseSpace < 0.0 || (nItems == 3 && !bAllChar)) {
70             baseSpace = 0.0;
71         }
72     }
73     return baseSpace;
74 }
75
76 }  // namespace
77
78 CPDFText_ParseOptions::CPDFText_ParseOptions()
79     : m_bGetCharCodeOnly(FALSE), m_bNormalizeObjs(TRUE), m_bOutputHyphen(FALSE)
80 {
81 }
82 IPDF_TextPage* IPDF_TextPage::CreateTextPage(const CPDF_Page* pPage, CPDFText_ParseOptions ParserOptions)
83 {
84     CPDF_TextPage* pTextPageEx = FX_NEW CPDF_TextPage(pPage, ParserOptions);
85     return pTextPageEx;
86 }
87 IPDF_TextPage* IPDF_TextPage::CreateTextPage(const CPDF_Page* pPage, int flags)
88 {
89     CPDF_TextPage* pTextPage = FX_NEW CPDF_TextPage(pPage, flags);
90     return      pTextPage;
91 }
92 IPDF_TextPage*  IPDF_TextPage::CreateTextPage(const CPDF_PageObjects* pObjs, int flags)
93 {
94     CPDF_TextPage* pTextPage = FX_NEW CPDF_TextPage(pObjs, flags);
95     return      pTextPage;
96 }
97 IPDF_TextPageFind*      IPDF_TextPageFind::CreatePageFind(const IPDF_TextPage* pTextPage)
98 {
99     if (!pTextPage) {
100         return NULL;
101     }
102     return FX_NEW CPDF_TextPageFind(pTextPage);
103 }
104 IPDF_LinkExtract* IPDF_LinkExtract::CreateLinkExtract()
105 {
106     return FX_NEW CPDF_LinkExtract();
107 }
108 #define  TEXT_BLANK_CHAR                L' '
109 #define  TEXT_LINEFEED_CHAR             L'\n'
110 #define  TEXT_RETURN_CHAR               L'\r'
111 #define  TEXT_EMPTY                             L""
112 #define  TEXT_BLANK                             L" "
113 #define  TEXT_RETURN_LINEFEED   L"\r\n"
114 #define  TEXT_LINEFEED                  L"\n"
115 #define  TEXT_CHARRATIO_GAPDELTA        0.070
116 CPDF_TextPage::CPDF_TextPage(const CPDF_Page* pPage, int flags)
117     : m_charList(512),
118       m_TempCharList(50),
119       m_pPreTextObj(NULL),
120       m_IsParsered(FALSE),
121       m_TextlineDir(-1),
122       m_CurlineRect(0, 0, 0, 0)
123 {
124     m_pPage = pPage;
125     m_parserflag = flags;
126     m_TextBuf.EstimateSize(0, 10240);
127     pPage->GetDisplayMatrix(m_DisplayMatrix, 0, 0, (int) pPage->GetPageWidth(), (int)pPage->GetPageHeight(), 0);
128 }
129 CPDF_TextPage::CPDF_TextPage(const CPDF_Page* pPage, CPDFText_ParseOptions ParserOptions)
130     : m_ParseOptions(ParserOptions)
131     , m_charList(512)
132     , m_TempCharList(50)
133     , m_pPreTextObj(NULL)
134     , m_IsParsered(FALSE)
135     , m_TextlineDir(-1)
136     , m_CurlineRect(0, 0, 0, 0)
137 {
138     m_pPage = pPage;
139     m_parserflag = 0;
140     m_TextBuf.EstimateSize(0, 10240);
141     pPage->GetDisplayMatrix(m_DisplayMatrix, 0, 0, (int) pPage->GetPageWidth(), (int)pPage->GetPageHeight(), 0);
142 }
143 CPDF_TextPage::CPDF_TextPage(const CPDF_PageObjects* pPage, int flags)
144     : m_charList(512),
145       m_TempCharList(50),
146       m_pPreTextObj(NULL),
147       m_IsParsered(FALSE),
148       m_TextlineDir(-1),
149       m_CurlineRect(0, 0, 0, 0)
150 {
151     m_pPage = pPage;
152     m_parserflag = flags;
153     m_TextBuf.EstimateSize(0, 10240);
154     CFX_FloatRect pageRect = pPage->CalcBoundingBox();
155     m_DisplayMatrix = CFX_AffineMatrix(1, 0, 0, -1, pageRect.right, pageRect.top);
156 }
157 void CPDF_TextPage::NormalizeObjects(FX_BOOL bNormalize)
158 {
159     m_ParseOptions.m_bNormalizeObjs = bNormalize;
160 }
161 FX_BOOL CPDF_TextPage::IsControlChar(PAGECHAR_INFO* pCharInfo)
162 {
163     if(!pCharInfo) {
164         return FALSE;
165     }
166     switch(pCharInfo->m_Unicode) {
167         case 0x2:
168         case 0x3:
169         case 0x93:
170         case 0x94:
171         case 0x96:
172         case 0x97:
173         case 0x98:
174         case 0xfffe:
175             if(pCharInfo->m_Flag == FPDFTEXT_CHAR_HYPHEN) {
176                 return FALSE;
177             } else {
178                 return TRUE;
179             }
180         default:
181             return FALSE;
182     }
183 }
184 FX_BOOL CPDF_TextPage::ParseTextPage()
185 {
186     if (!m_pPage) {
187         m_IsParsered = FALSE;
188         return FALSE;
189     }
190     m_IsParsered = FALSE;
191     m_TextBuf.Clear();
192     m_charList.RemoveAll();
193     m_pPreTextObj = NULL;
194     ProcessObject();
195     m_IsParsered = TRUE;
196     if(!m_ParseOptions.m_bGetCharCodeOnly) {
197         m_CharIndex.RemoveAll();
198         int nCount = m_charList.GetSize();
199         if(nCount) {
200             m_CharIndex.Add(0);
201         }
202         for(int i = 0; i < nCount; i++) {
203             int indexSize = m_CharIndex.GetSize();
204             FX_BOOL bNormal = FALSE;
205             PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(i);
206             if(charinfo.m_Flag == FPDFTEXT_CHAR_GENERATED) {
207                 bNormal = TRUE;
208             }
209             else if(charinfo.m_Unicode == 0 || IsControlChar(&charinfo))
210                 bNormal = FALSE;
211             else {
212                 bNormal = TRUE;
213             }
214             if(bNormal) {
215                 if(indexSize % 2) {
216                     m_CharIndex.Add(1);
217                 } else {
218                     if(indexSize <= 0) {
219                         continue;
220                     }
221                     m_CharIndex.SetAt(indexSize - 1, m_CharIndex.GetAt(indexSize - 1) + 1);
222                 }
223             } else {
224                 if(indexSize % 2) {
225                     if(indexSize <= 0) {
226                         continue;
227                     }
228                     m_CharIndex.SetAt(indexSize - 1, i + 1);
229                 } else {
230                     m_CharIndex.Add(i + 1);
231                 }
232             }
233         }
234         int indexSize = m_CharIndex.GetSize();
235         if(indexSize % 2) {
236             m_CharIndex.RemoveAt(indexSize - 1);
237         }
238     }
239     return TRUE;
240 }
241 int     CPDF_TextPage::CountChars() const
242 {
243     if(m_ParseOptions.m_bGetCharCodeOnly) {
244         return m_TextBuf.GetSize();
245     }
246     return m_charList.GetSize();
247 }
248 int CPDF_TextPage::CharIndexFromTextIndex(int TextIndex) const
249 {
250     int indexSize = m_CharIndex.GetSize();
251     int count = 0;
252     for(int i = 0; i < indexSize; i += 2) {
253         count += m_CharIndex.GetAt(i + 1);
254         if(count > TextIndex) {
255             return      TextIndex - count + m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i);
256         }
257     }
258     return -1;
259 }
260 int CPDF_TextPage::TextIndexFromCharIndex(int CharIndex) const
261 {
262     int indexSize = m_CharIndex.GetSize();
263     int count = 0;
264     for(int i = 0; i < indexSize; i += 2) {
265         count += m_CharIndex.GetAt(i + 1);
266         if(m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i) > CharIndex) {
267             if(CharIndex - m_CharIndex.GetAt(i) < 0) {
268                 return -1;
269             }
270             return      CharIndex - m_CharIndex.GetAt(i) + count - m_CharIndex.GetAt(i + 1);
271         }
272     }
273     return -1;
274 }
275 void CPDF_TextPage::GetRectArray(int start, int nCount, CFX_RectArray& rectArray) const
276 {
277     if(m_ParseOptions.m_bGetCharCodeOnly) {
278         return;
279     }
280     if(start < 0 || nCount == 0) {
281         return;
282     }
283     if (!m_IsParsered)  {
284         return;
285     }
286     PAGECHAR_INFO               info_curchar;
287     CPDF_TextObject*    pCurObj = NULL;
288     CFX_FloatRect               rect;
289     int                                 curPos = start;
290     FX_BOOL                             flagNewRect = TRUE;
291     if (nCount + start > m_charList.GetSize() || nCount == -1) {
292         nCount = m_charList.GetSize() - start;
293     }
294     while (nCount--) {
295         info_curchar = *(PAGECHAR_INFO*)m_charList.GetAt(curPos++);
296         if (info_curchar.m_Flag == FPDFTEXT_CHAR_GENERATED) {
297             continue;
298         }
299         if(info_curchar.m_CharBox.Width() < 0.01 || info_curchar.m_CharBox.Height() < 0.01) {
300             continue;
301         }
302         if(!pCurObj) {
303             pCurObj = info_curchar.m_pTextObj;
304         }
305         if (pCurObj != info_curchar.m_pTextObj) {
306             rectArray.Add(rect);
307             pCurObj = info_curchar.m_pTextObj;
308             flagNewRect = TRUE;
309         }
310         if (flagNewRect) {
311             FX_FLOAT orgX = info_curchar.m_OriginX, orgY = info_curchar.m_OriginY;
312             CFX_AffineMatrix matrix, matrix_reverse;
313             info_curchar.m_pTextObj->GetTextMatrix(&matrix);
314             matrix.Concat(info_curchar.m_Matrix);
315             matrix_reverse.SetReverse(matrix);
316             matrix_reverse.Transform(orgX, orgY);
317             rect.left = info_curchar.m_CharBox.left;
318             rect.right = info_curchar.m_CharBox.right;
319             if (pCurObj->GetFont()->GetTypeDescent()) {
320                 rect.bottom = orgY + pCurObj->GetFont()->GetTypeDescent() * pCurObj->GetFontSize() / 1000;
321                 FX_FLOAT xPosTemp = orgX;
322                 matrix.Transform(xPosTemp, rect.bottom);
323             } else {
324                 rect.bottom = info_curchar.m_CharBox.bottom;
325             }
326             if (pCurObj->GetFont()->GetTypeAscent()) {
327                 rect.top = orgY + pCurObj->GetFont()->GetTypeAscent() * pCurObj->GetFontSize() / 1000;
328                 FX_FLOAT xPosTemp = orgX + GetCharWidth(info_curchar.m_CharCode, pCurObj->GetFont()) * pCurObj->GetFontSize() / 1000;
329                 matrix.Transform(xPosTemp, rect.top);
330             } else {
331                 rect.top = info_curchar.m_CharBox.top;
332             }
333             flagNewRect = FALSE;
334             rect = info_curchar.m_CharBox;
335             rect.Normalize();
336         } else {
337             info_curchar.m_CharBox.Normalize();
338             if (rect.left > info_curchar.m_CharBox.left) {
339                 rect.left = info_curchar.m_CharBox.left;
340             }
341             if (rect.right < info_curchar.m_CharBox.right) {
342                 rect.right = info_curchar.m_CharBox.right;
343             }
344             if ( rect.top < info_curchar.m_CharBox.top) {
345                 rect.top = info_curchar.m_CharBox.top;
346             }
347             if (rect.bottom > info_curchar.m_CharBox.bottom) {
348                 rect.bottom = info_curchar.m_CharBox.bottom;
349             }
350         }
351     }
352     rectArray.Add(rect);
353     return;
354 }
355 int CPDF_TextPage::GetIndexAtPos(CPDF_Point point , FX_FLOAT xTorelance, FX_FLOAT yTorelance) const
356 {
357     if(m_ParseOptions.m_bGetCharCodeOnly) {
358         return -3;
359     }
360     if (!m_IsParsered)  {
361         return  -3;
362     }
363     int pos = 0;
364     int NearPos = -1;
365     double xdif = 5000, ydif = 5000;
366     while(pos < m_charList.GetSize()) {
367         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)(m_charList.GetAt(pos));
368         CFX_FloatRect charrect = charinfo.m_CharBox;
369         if (charrect.Contains(point.x, point.y)) {
370             break;
371         }
372         if (xTorelance > 0 || yTorelance > 0) {
373             CFX_FloatRect charRectExt;
374             charrect.Normalize();
375             charRectExt.left = charrect.left - xTorelance / 2;
376             charRectExt.right = charrect.right + xTorelance / 2;
377             charRectExt.top = charrect.top + yTorelance / 2;
378             charRectExt.bottom = charrect.bottom - yTorelance / 2;
379             if (charRectExt.Contains(point.x, point.y)) {
380                 double curXdif, curYdif;
381                 curXdif = FXSYS_fabs(point.x - charrect.left) < FXSYS_fabs(point.x - charrect.right) ? FXSYS_fabs(point.x - charrect.left) : FXSYS_fabs(point.x - charrect.right);
382                 curYdif = FXSYS_fabs(point.y - charrect.bottom) < FXSYS_fabs(point.y - charrect.top     ) ? FXSYS_fabs(point.y - charrect.bottom) : FXSYS_fabs(point.y - charrect.top);
383                 if (curYdif + curXdif < xdif + ydif) {
384                     ydif = curYdif;
385                     xdif = curXdif;
386                     NearPos = pos;
387                 }
388             }
389         }
390         ++pos;
391     }
392     if (pos >= m_charList.GetSize()) {
393         pos = NearPos;
394     }
395     return pos;
396 }
397 CFX_WideString CPDF_TextPage::GetTextByRect(const CFX_FloatRect& rect) const
398 {
399     CFX_WideString strText;
400     if(m_ParseOptions.m_bGetCharCodeOnly || !m_IsParsered) {
401         return strText;
402     }
403     int nCount = m_charList.GetSize();
404     int pos = 0;
405     FX_FLOAT posy = 0;
406     FX_BOOL IsContainPreChar = FALSE;
407     FX_BOOL     ISAddLineFeed = FALSE;
408     while (pos < nCount) {
409         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(pos++);
410         if (IsRectIntersect(rect, charinfo.m_CharBox)) {
411             if (FXSYS_fabs(posy - charinfo.m_OriginY) > 0 && !IsContainPreChar && ISAddLineFeed) {
412                 posy = charinfo.m_OriginY;
413                 if (strText.GetLength() > 0) {
414                     strText += L"\r\n";
415                 }
416             }
417             IsContainPreChar = TRUE;
418             ISAddLineFeed = FALSE;
419             if (charinfo.m_Unicode) {
420                 strText += charinfo.m_Unicode;
421             }
422         } else if (charinfo.m_Unicode == 32) {
423             if (IsContainPreChar && charinfo.m_Unicode) {
424                 strText += charinfo.m_Unicode;
425                 IsContainPreChar = FALSE;
426                 ISAddLineFeed = FALSE;
427             }
428         } else {
429             IsContainPreChar = FALSE;
430             ISAddLineFeed = TRUE;
431         }
432     }
433     return strText;
434 }
435 void CPDF_TextPage::GetRectsArrayByRect(const CFX_FloatRect& rect, CFX_RectArray& resRectArray) const
436 {
437     if(m_ParseOptions.m_bGetCharCodeOnly) {
438         return;
439     }
440     if (!m_IsParsered)  {
441         return;
442     }
443     CFX_FloatRect               curRect;
444     FX_BOOL                             flagNewRect = TRUE;
445     CPDF_TextObject*    pCurObj = NULL;
446     int nCount = m_charList.GetSize();
447     int pos = 0;
448     while (pos < nCount) {
449         PAGECHAR_INFO info_curchar = *(PAGECHAR_INFO*)m_charList.GetAt(pos++);
450         if (info_curchar.m_Flag == FPDFTEXT_CHAR_GENERATED) {
451             continue;
452         }
453         if (IsRectIntersect(rect, info_curchar.m_CharBox)) {
454             if(!pCurObj) {
455                 pCurObj = info_curchar.m_pTextObj;
456             }
457             if (pCurObj != info_curchar.m_pTextObj) {
458                 resRectArray.Add(curRect);
459                 pCurObj = info_curchar.m_pTextObj;
460                 flagNewRect = TRUE;
461             }
462             if (flagNewRect) {
463                 curRect = info_curchar.m_CharBox;
464                 flagNewRect = FALSE;
465                 curRect.Normalize();
466             } else {
467                 info_curchar.m_CharBox.Normalize();
468                 if (curRect.left > info_curchar.m_CharBox.left) {
469                     curRect.left = info_curchar.m_CharBox.left;
470                 }
471                 if (curRect.right < info_curchar.m_CharBox.right) {
472                     curRect.right = info_curchar.m_CharBox.right;
473                 }
474                 if ( curRect.top < info_curchar.m_CharBox.top) {
475                     curRect.top = info_curchar.m_CharBox.top;
476                 }
477                 if (curRect.bottom > info_curchar.m_CharBox.bottom) {
478                     curRect.bottom = info_curchar.m_CharBox.bottom;
479                 }
480             }
481         }
482     }
483     resRectArray.Add(curRect);
484     return;
485 }
486 int     CPDF_TextPage::GetIndexAtPos(FX_FLOAT x, FX_FLOAT y, FX_FLOAT xTorelance, FX_FLOAT yTorelance) const
487 {
488     if(m_ParseOptions.m_bGetCharCodeOnly) {
489         return -3;
490     }
491     CPDF_Point point(x, y);
492     return GetIndexAtPos(point, xTorelance, yTorelance);
493 }
494 int CPDF_TextPage::GetOrderByDirection(int order, int direction) const
495 {
496     if(m_ParseOptions.m_bGetCharCodeOnly) {
497         return -3;
498     }
499     if (!m_IsParsered) {
500         return -3;
501     }
502     if (direction == FPDFTEXT_RIGHT || direction == FPDFTEXT_LEFT) {
503         order += direction;
504         while(order >= 0 && order < m_charList.GetSize()) {
505             PAGECHAR_INFO cinfo = *(PAGECHAR_INFO*)m_charList.GetAt(order);
506             if (cinfo.m_Flag != FPDFTEXT_CHAR_GENERATED) {
507                 break;
508             } else {
509                 if (cinfo.m_Unicode == TEXT_LINEFEED_CHAR || cinfo.m_Unicode == TEXT_RETURN_CHAR) {
510                     order += direction;
511                 } else {
512                     break;
513                 }
514             }
515         }
516         if (order >= m_charList.GetSize()) {
517             order = -2;
518         }
519         return order;
520     }
521     PAGECHAR_INFO charinfo;
522     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(order);
523     CPDF_Point curPos(charinfo.m_OriginX, charinfo.m_OriginY);
524     FX_FLOAT difPosY = 0.0, minXdif = 1000;
525     int minIndex = -2;
526     int index = order;
527     FX_FLOAT height = charinfo.m_CharBox.Height();
528     if (direction == FPDFTEXT_UP) {
529         minIndex = -1;
530         while (1) {
531             if (--index < 0)    {
532                 return -1;
533             }
534             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
535             if (FXSYS_fabs(charinfo.m_OriginY - curPos.y) > FX_MAX(height, charinfo.m_CharBox.Height()) / 2) {
536                 difPosY = charinfo.m_OriginY;
537                 minIndex = index;
538                 break;
539             }
540         }
541         FX_FLOAT PreXdif = charinfo.m_OriginX - curPos.x;
542         minXdif = PreXdif;
543         if (PreXdif == 0)       {
544             return index;
545         }
546         FX_FLOAT curXdif = 0;
547         while (--index >= 0) {
548             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
549             if (difPosY != charinfo.m_OriginY) {
550                 break;
551             }
552             curXdif = charinfo.m_OriginX - curPos.x;
553             if (curXdif == 0) {
554                 return index;
555             }
556             int signflag = 0;
557             if (curXdif > 0) {
558                 signflag = 1;
559             } else {
560                 signflag = -1;
561             }
562             if (signflag * PreXdif < 0) {
563                 if (FXSYS_fabs(PreXdif) < FXSYS_fabs(curXdif)) {
564                     return index + 1;
565                 } else {
566                     return index;
567                 }
568             }
569             if (FXSYS_fabs(curXdif) < FXSYS_fabs(minXdif)) {
570                 minIndex = index;
571                 minXdif = curXdif;
572             }
573             PreXdif = curXdif;
574             if (difPosY != charinfo.m_OriginY) {
575                 break;
576             }
577         }
578         return minIndex;
579     } else if(FPDFTEXT_DOWN) {
580         minIndex = -2;
581         while (1) {
582             if (++index > m_charList.GetSize() - 1)     {
583                 return minIndex;
584             }
585             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
586             if (FXSYS_fabs(charinfo.m_OriginY - curPos.y) > FX_MAX(height, charinfo.m_CharBox.Height()) / 2) {
587                 difPosY = charinfo.m_OriginY;
588                 minIndex = index;
589                 break;
590             }
591         }
592         FX_FLOAT PreXdif = charinfo.m_OriginX - curPos.x;
593         minXdif = PreXdif;
594         if (PreXdif == 0)       {
595             return index;
596         }
597         FX_FLOAT curXdif = 0;
598         while (++index < m_charList.GetSize()) {
599             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
600             if (difPosY != charinfo.m_OriginY) {
601                 break;
602             }
603             curXdif = charinfo.m_OriginX - curPos.x;
604             if (curXdif == 0) {
605                 return index;
606             }
607             int signflag = 0;
608             if (curXdif > 0) {
609                 signflag = 1;
610             } else {
611                 signflag = -1;
612             }
613             if (signflag * PreXdif < 0) {
614                 if (FXSYS_fabs(PreXdif) < FXSYS_fabs(curXdif)) {
615                     return index - 1;
616                 } else {
617                     return index;
618                 }
619             }
620             if (FXSYS_fabs(curXdif) < FXSYS_fabs(minXdif)) {
621                 minXdif = curXdif;
622                 minIndex = index;
623             }
624             PreXdif = curXdif;
625         }
626         return minIndex;
627     }
628 }
629 void CPDF_TextPage::GetCharInfo(int index, FPDF_CHAR_INFO & info) const
630 {
631     if(m_ParseOptions.m_bGetCharCodeOnly) {
632         return;
633     }
634     if (!m_IsParsered)  {
635         return;
636     }
637     if (index < 0 || index >= m_charList.GetSize())     {
638         return;
639     }
640     PAGECHAR_INFO charinfo;
641     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
642     info.m_Charcode = charinfo.m_CharCode;
643     info.m_OriginX = charinfo.m_OriginX;
644     info.m_OriginY = charinfo.m_OriginY;
645     info.m_Unicode = charinfo.m_Unicode;
646     info.m_Flag = charinfo.m_Flag;
647     info.m_CharBox = charinfo.m_CharBox;
648     info.m_pTextObj = charinfo.m_pTextObj;
649     if (charinfo.m_pTextObj && charinfo.m_pTextObj->GetFont()) {
650         info.m_FontSize = charinfo.m_pTextObj->GetFontSize();
651     }
652     info.m_Matrix.Copy(charinfo.m_Matrix);
653     return;
654 }
655 void CPDF_TextPage::CheckMarkedContentObject(int32_t& start, int32_t& nCount) const
656 {
657     PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start);
658     PAGECHAR_INFO charinfo2 = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - 1);
659     if (FPDFTEXT_CHAR_PIECE != charinfo.m_Flag && FPDFTEXT_CHAR_PIECE != charinfo2.m_Flag) {
660         return;
661     }
662     if (FPDFTEXT_CHAR_PIECE == charinfo.m_Flag) {
663         PAGECHAR_INFO charinfo1 = charinfo;
664         int startIndex = start;
665         while(FPDFTEXT_CHAR_PIECE == charinfo1.m_Flag && charinfo1.m_Index == charinfo.m_Index) {
666             startIndex--;
667             if (startIndex < 0) {
668                 break;
669             }
670             charinfo1 = *(PAGECHAR_INFO*)m_charList.GetAt(startIndex);
671         }
672         startIndex++;
673         start = startIndex;
674     }
675     if (FPDFTEXT_CHAR_PIECE == charinfo2.m_Flag) {
676         PAGECHAR_INFO charinfo3 = charinfo2;
677         int endIndex = start + nCount - 1;
678         while(FPDFTEXT_CHAR_PIECE == charinfo3.m_Flag && charinfo3.m_Index == charinfo2.m_Index) {
679             endIndex++;
680             if (endIndex >= m_charList.GetSize())       {
681                 break;
682             }
683             charinfo3 = *(PAGECHAR_INFO*)m_charList.GetAt(endIndex);
684         }
685         endIndex--;
686         nCount = endIndex - start + 1;
687     }
688 }
689 CFX_WideString CPDF_TextPage::GetPageText(int start , int nCount) const
690 {
691     if (!m_IsParsered || nCount == 0) {
692         return L"";
693     }
694     if (start < 0) {
695         start = 0;
696     }
697     if  (nCount == -1) {
698         nCount = m_charList.GetSize() - start;
699         return m_TextBuf.GetWideString().Mid(start, m_TextBuf.GetWideString().GetLength());
700     }
701     if(nCount <= 0 || m_charList.GetSize() <= 0) {
702         return L"";
703     }
704     if(nCount + start > m_charList.GetSize() - 1) {
705         nCount = m_charList.GetSize() - start;
706     }
707     if (nCount <= 0) {
708         return L"";
709     }
710     CheckMarkedContentObject(start, nCount);
711     int startindex = 0;
712     PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start);
713     int startOffset = 0;
714     while(charinfo.m_Index == -1) {
715         startOffset++;
716         if (startOffset > nCount || start + startOffset >= m_charList.GetSize())        {
717             return L"";
718         }
719         charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + startOffset);
720     }
721     startindex = charinfo.m_Index;
722     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - 1);
723     int nCountOffset = 0;
724     while (charinfo.m_Index == -1) {
725         nCountOffset++;
726         if (nCountOffset >= nCount) {
727             return L"";
728         }
729         charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - nCountOffset - 1);
730     }
731     nCount = start + nCount - nCountOffset - startindex;
732     if(nCount <= 0) {
733         return L"";
734     }
735     return m_TextBuf.GetWideString().Mid(startindex, nCount);
736 }
737 int CPDF_TextPage::CountRects(int start, int nCount)
738 {
739     if(m_ParseOptions.m_bGetCharCodeOnly) {
740         return -1;
741     }
742     if (!m_IsParsered)  {
743         return -1;
744     }
745     if (start < 0) {
746         return -1;
747     }
748     if (nCount == -1 || nCount + start > m_charList.GetSize() ) {
749         nCount = m_charList.GetSize() - start;
750     }
751     m_SelRects.RemoveAll();
752     GetRectArray(start, nCount, m_SelRects);
753     return m_SelRects.GetSize();
754 }
755 void CPDF_TextPage::GetRect(int rectIndex, FX_FLOAT& left, FX_FLOAT& top, FX_FLOAT& right, FX_FLOAT &bottom) const
756 {
757     if(m_ParseOptions.m_bGetCharCodeOnly) {
758         return ;
759     }
760     if (!m_IsParsered || rectIndex < 0 || rectIndex >= m_SelRects.GetSize()) {
761         return;
762     }
763     left = m_SelRects.GetAt(rectIndex).left;
764     top = m_SelRects.GetAt(rectIndex).top;
765     right = m_SelRects.GetAt(rectIndex).right;
766     bottom = m_SelRects.GetAt(rectIndex).bottom;
767 }
768 FX_BOOL CPDF_TextPage::GetBaselineRotate(int start, int end, int& Rotate)
769 {
770     if(m_ParseOptions.m_bGetCharCodeOnly) {
771         return FALSE;
772     }
773     if(end == start) {
774         return FALSE;
775     }
776     FX_FLOAT dx, dy;
777     FPDF_CHAR_INFO info1, info2;
778     GetCharInfo(start, info1);
779     GetCharInfo(end, info2);
780     while(info2.m_CharBox.Width() == 0 || info2.m_CharBox.Height() == 0) {
781         end--;
782         if(end <= start) {
783             return FALSE;
784         }
785         GetCharInfo(end, info2);
786     }
787     dx = (info2.m_OriginX - info1.m_OriginX);
788     dy = (info2.m_OriginY - info1.m_OriginY);
789     if(dx == 0) {
790         if(dy > 0) {
791             Rotate = 90;
792         } else if (dy < 0) {
793             Rotate = 270;
794         } else {
795             Rotate = 0;
796         }
797     } else {
798         float a = FXSYS_atan2(dy, dx);
799         Rotate = (int)(a * 180 / FX_PI + 0.5);
800     }
801     if(Rotate < 0) {
802         Rotate = -Rotate;
803     } else if(Rotate > 0) {
804         Rotate = 360 - Rotate;
805     }
806     return TRUE;
807 }
808 FX_BOOL CPDF_TextPage::GetBaselineRotate(const CFX_FloatRect& rect , int& Rotate)
809 {
810     if(m_ParseOptions.m_bGetCharCodeOnly) {
811         return FALSE;
812     }
813     int start, end, count, n = CountBoundedSegments(rect.left, rect.top, rect.right, rect.bottom, TRUE);
814     if(n < 1) {
815         return FALSE;
816     }
817     if(n > 1) {
818         GetBoundedSegment(n - 1, start, count);
819         end = start + count - 1;
820         GetBoundedSegment(0, start, count);
821     } else {
822         GetBoundedSegment(0, start, count);
823         end = start + count - 1;
824     }
825     return GetBaselineRotate(start, end, Rotate);
826 }
827 FX_BOOL CPDF_TextPage::GetBaselineRotate(int rectIndex, int& Rotate)
828 {
829     if(m_ParseOptions.m_bGetCharCodeOnly) {
830         return FALSE;
831     }
832     if (!m_IsParsered || rectIndex < 0 || rectIndex > m_SelRects.GetSize()) {
833         return FALSE;
834     }
835     CFX_FloatRect rect = m_SelRects.GetAt(rectIndex);
836     return GetBaselineRotate(rect , Rotate);
837 }
838 int     CPDF_TextPage::CountBoundedSegments(FX_FLOAT left, FX_FLOAT top, FX_FLOAT right, FX_FLOAT bottom, FX_BOOL bContains )
839 {
840     if(m_ParseOptions.m_bGetCharCodeOnly) {
841         return -1;
842     }
843     m_Segment.RemoveAll();
844     if (!m_IsParsered)  {
845         return -1;
846     }
847     CFX_FloatRect rect(left, bottom, right, top);
848     rect.Normalize();
849     int nCount = m_charList.GetSize();
850     int pos = 0;
851     FPDF_SEGMENT        segment;
852     segment.m_Start = 0;
853     segment.m_nCount = 0;
854     FX_BOOL             segmentStatus = 0;
855     FX_BOOL             IsContainPreChar = FALSE;
856     while (pos < nCount) {
857         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(pos);
858         if(bContains && rect.Contains(charinfo.m_CharBox)) {
859             if (segmentStatus == 0 || segmentStatus == 2) {
860                 segment.m_Start = pos;
861                 segment.m_nCount = 1;
862                 segmentStatus = 1;
863             } else if (segmentStatus == 1) {
864                 segment.m_nCount++;
865             }
866             IsContainPreChar = TRUE;
867         } else if (!bContains && (IsRectIntersect(rect, charinfo.m_CharBox) || rect.Contains(charinfo.m_OriginX, charinfo.m_OriginY))) {
868             if (segmentStatus == 0 || segmentStatus == 2) {
869                 segment.m_Start = pos;
870                 segment.m_nCount = 1;
871                 segmentStatus = 1;
872             } else if (segmentStatus == 1) {
873                 segment.m_nCount++;
874             }
875             IsContainPreChar = TRUE;
876         } else if (charinfo.m_Unicode == 32) {
877             if (IsContainPreChar == TRUE) {
878                 if (segmentStatus == 0 || segmentStatus == 2) {
879                     segment.m_Start = pos;
880                     segment.m_nCount = 1;
881                     segmentStatus = 1;
882                 } else if (segmentStatus == 1) {
883                     segment.m_nCount++;
884                 }
885                 IsContainPreChar = FALSE;
886             } else {
887                 if (segmentStatus == 1) {
888                     segmentStatus = 2;
889                     m_Segment.Add(segment);
890                     segment.m_Start = 0;
891                     segment.m_nCount = 0;
892                 }
893             }
894         } else {
895             if (segmentStatus == 1) {
896                 segmentStatus = 2;
897                 m_Segment.Add(segment);
898                 segment.m_Start = 0;
899                 segment.m_nCount = 0;
900             }
901             IsContainPreChar = FALSE;
902         }
903         pos++;
904     }
905     if (segmentStatus == 1) {
906         segmentStatus = 2;
907         m_Segment.Add(segment);
908         segment.m_Start = 0;
909         segment.m_nCount = 0;
910     }
911     return m_Segment.GetSize();
912 }
913 void CPDF_TextPage::GetBoundedSegment(int index, int& start, int& count) const
914 {
915     if(m_ParseOptions.m_bGetCharCodeOnly) {
916         return ;
917     }
918     if (index < 0 || index >= m_Segment.GetSize()) {
919         return;
920     }
921     start = m_Segment.GetAt(index).m_Start;
922     count = m_Segment.GetAt(index).m_nCount;
923 }
924 int CPDF_TextPage::GetWordBreak(int index, int direction) const
925 {
926     if(m_ParseOptions.m_bGetCharCodeOnly) {
927         return -1;
928     }
929     if (!m_IsParsered)  {
930         return -1;
931     }
932     if (direction != FPDFTEXT_LEFT && direction != FPDFTEXT_RIGHT) {
933         return -1;
934     }
935     if (index < 0 || index >= m_charList.GetSize()) {
936         return -1;
937     }
938     PAGECHAR_INFO charinfo;
939     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
940     if (charinfo.m_Index == -1 || charinfo.m_Flag == FPDFTEXT_CHAR_GENERATED)   {
941         return index;
942     }
943     if (!IsLetter(charinfo.m_Unicode)) {
944         return index;
945     }
946     int breakPos = index;
947     if (direction == FPDFTEXT_LEFT) {
948         while (--breakPos > 0) {
949             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(breakPos);
950             if (!IsLetter(charinfo.m_Unicode)) {
951                 return breakPos;
952             }
953         }
954         return breakPos;
955     } else if (direction == FPDFTEXT_RIGHT) {
956         while (++breakPos < m_charList.GetSize()) {
957             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(breakPos);
958             if (!IsLetter(charinfo.m_Unicode)) {
959                 return breakPos;
960             }
961         }
962         return breakPos;
963     }
964     return breakPos;
965 }
966 int32_t CPDF_TextPage::FindTextlineFlowDirection()
967 {
968     if (!m_pPage)       {
969         return -1;
970     }
971     const int32_t nPageWidth = (int32_t)((CPDF_Page*)m_pPage)->GetPageWidth();
972     const int32_t nPageHeight = (int32_t)((CPDF_Page*)m_pPage)->GetPageHeight();
973     CFX_ByteArray nHorizontalMask;
974     if (!nHorizontalMask.SetSize(nPageWidth)) {
975         return -1;
976     }
977     uint8_t* pDataH = nHorizontalMask.GetData();
978     CFX_ByteArray nVerticalMask;
979     if (!nVerticalMask.SetSize(nPageHeight)) {
980         return -1;
981     }
982     uint8_t* pDataV = nVerticalMask.GetData();
983     int32_t index = 0;
984     FX_FLOAT fLineHeight = 0.0f;
985     CPDF_PageObject* pPageObj = NULL;
986     FX_POSITION pos = NULL;
987     pos = m_pPage->GetFirstObjectPosition();
988     if(!pos) {
989         return -1;
990     }
991     while(pos) {
992         pPageObj = m_pPage->GetNextObject(pos);
993         if(NULL == pPageObj) {
994             continue;
995         }
996         if(PDFPAGE_TEXT != pPageObj->m_Type) {
997             continue;
998         }
999         int32_t minH = (int32_t)pPageObj->m_Left < 0 ? 0 : (int32_t)pPageObj->m_Left;
1000         int32_t maxH = (int32_t)pPageObj->m_Right > nPageWidth ? nPageWidth : (int32_t)pPageObj->m_Right;
1001         int32_t minV = (int32_t)pPageObj->m_Bottom < 0 ? 0 : (int32_t)pPageObj->m_Bottom;
1002         int32_t maxV = (int32_t)pPageObj->m_Top > nPageHeight ? nPageHeight : (int32_t)pPageObj->m_Top;
1003         if (minH >= maxH || minV >= maxV) {
1004             continue;
1005         }
1006         FXSYS_memset(pDataH + minH, 1, maxH - minH);
1007         FXSYS_memset(pDataV + minV, 1, maxV - minV);
1008         if (fLineHeight <= 0.0f) {
1009             fLineHeight = pPageObj->m_Top - pPageObj->m_Bottom;
1010         }
1011         pPageObj = NULL;
1012     }
1013     int32_t nStartH = 0;
1014     int32_t nEndH = 0;
1015     FX_FLOAT nSumH = 0.0f;
1016     for (index = 0; index < nPageWidth; index++)
1017         if(1 == nHorizontalMask[index]) {
1018             break;
1019         }
1020     nStartH = index;
1021     for (index = nPageWidth; index > 0; index--)
1022         if(1 == nHorizontalMask[index - 1]) {
1023             break;
1024         }
1025     nEndH = index;
1026     for (index = nStartH; index < nEndH; index++) {
1027         nSumH += nHorizontalMask[index];
1028     }
1029     nSumH /= nEndH - nStartH;
1030     int32_t nStartV = 0;
1031     int32_t nEndV = 0;
1032     FX_FLOAT nSumV = 0.0f;
1033     for (index = 0; index < nPageHeight; index++)
1034         if(1 == nVerticalMask[index]) {
1035             break;
1036         }
1037     nStartV = index;
1038     for (index = nPageHeight; index > 0; index--)
1039         if(1 == nVerticalMask[index - 1]) {
1040             break;
1041         }
1042     nEndV = index;
1043     for (index = nStartV; index < nEndV; index++) {
1044         nSumV += nVerticalMask[index];
1045     }
1046     nSumV /= nEndV - nStartV;
1047     if ((nEndV - nStartV) < (int32_t)(2 * fLineHeight)) {
1048         return 0;
1049     }
1050     if ((nEndH - nStartH) < (int32_t)(2 * fLineHeight)) {
1051         return 1;
1052     }
1053     if (nSumH > 0.8f) {
1054         return 0;
1055     }
1056     if (nSumH - nSumV > 0.0f) {
1057         return 0;
1058     }
1059     if (nSumV - nSumH > 0.0f) {
1060         return 1;
1061     }
1062     return -1;
1063 }
1064 void CPDF_TextPage::ProcessObject()
1065 {
1066     CPDF_PageObject*    pPageObj = NULL;
1067     if (!m_pPage)       {
1068         return;
1069     }
1070     FX_POSITION pos;
1071     pos = m_pPage->GetFirstObjectPosition();
1072     if (!pos)   {
1073         return;
1074     }
1075     m_TextlineDir = FindTextlineFlowDirection();
1076     int nCount = 0;
1077     while (pos) {
1078         pPageObj = m_pPage->GetNextObject(pos);
1079         if(pPageObj) {
1080             if(pPageObj->m_Type == PDFPAGE_TEXT) {
1081                 CFX_AffineMatrix matrix;
1082                 ProcessTextObject((CPDF_TextObject*)pPageObj, matrix, pos);
1083                 nCount++;
1084             } else if (pPageObj->m_Type == PDFPAGE_FORM) {
1085                 CFX_AffineMatrix formMatrix(1, 0, 0, 1, 0, 0);
1086                 ProcessFormObject((CPDF_FormObject*)pPageObj, formMatrix);
1087             }
1088         }
1089         pPageObj = NULL;
1090     }
1091     int count = m_LineObj.GetSize();
1092     for(int i = 0; i < count; i++) {
1093         ProcessTextObject(m_LineObj.GetAt(i));
1094     }
1095     m_LineObj.RemoveAll();
1096     CloseTempLine();
1097 }
1098 void CPDF_TextPage::ProcessFormObject(CPDF_FormObject* pFormObj, const CFX_AffineMatrix& formMatrix)
1099 {
1100     CPDF_PageObject*    pPageObj = NULL;
1101     FX_POSITION pos;
1102     if (!pFormObj)      {
1103         return;
1104     }
1105     pos = pFormObj->m_pForm->GetFirstObjectPosition();
1106     if (!pos)   {
1107         return;
1108     }
1109     CFX_AffineMatrix curFormMatrix;
1110     curFormMatrix.Copy(pFormObj->m_FormMatrix);
1111     curFormMatrix.Concat(formMatrix);
1112     while (pos) {
1113         pPageObj = pFormObj->m_pForm->GetNextObject(pos);
1114         if(pPageObj) {
1115             if(pPageObj->m_Type == PDFPAGE_TEXT) {
1116                 ProcessTextObject((CPDF_TextObject*)pPageObj, curFormMatrix, pos);
1117             } else if (pPageObj->m_Type == PDFPAGE_FORM) {
1118                 ProcessFormObject((CPDF_FormObject*)pPageObj, curFormMatrix);
1119             }
1120         }
1121         pPageObj = NULL;
1122     }
1123 }
1124 int CPDF_TextPage::GetCharWidth(FX_DWORD charCode, CPDF_Font* pFont) const
1125 {
1126     if(charCode == -1) {
1127         return 0;
1128     }
1129     int w = pFont->GetCharWidthF(charCode);
1130     if(w == 0) {
1131         CFX_ByteString str;
1132         pFont->AppendChar(str, charCode);
1133         w = pFont->GetStringWidth(str, 1);
1134         if(w == 0) {
1135             FX_RECT BBox;
1136             pFont->GetCharBBox(charCode, BBox);
1137             w = BBox.right - BBox.left;
1138         }
1139     }
1140     return w;
1141 }
1142 void CPDF_TextPage::OnPiece(IFX_BidiChar* pBidi, CFX_WideString& str)
1143 {
1144     int32_t start, count;
1145     int32_t ret = pBidi->GetBidiInfo(start, count);
1146     if(ret == 2) {
1147         for(int i = start + count - 1; i >= start; i--) {
1148             m_TextBuf.AppendChar(str.GetAt(i));
1149             m_charList.Add(*(PAGECHAR_INFO*)m_TempCharList.GetAt(i));
1150         }
1151     } else {
1152         int end = start + count ;
1153         for(int i = start; i < end; i++) {
1154             m_TextBuf.AppendChar(str.GetAt(i));
1155             m_charList.Add(*(PAGECHAR_INFO*)m_TempCharList.GetAt(i));
1156         }
1157     }
1158 }
1159 void CPDF_TextPage::AddCharInfoByLRDirection(CFX_WideString& str, int i)
1160 {
1161     PAGECHAR_INFO Info = *(PAGECHAR_INFO*)m_TempCharList.GetAt(i);
1162     FX_WCHAR wChar = str.GetAt(i);
1163     if(!IsControlChar(&Info)) {
1164         Info.m_Index = m_TextBuf.GetLength();
1165         if (wChar >= 0xFB00 && wChar <= 0xFB06) {
1166             FX_WCHAR* pDst = NULL;
1167             FX_STRSIZE nCount = FX_Unicode_GetNormalization(wChar, pDst);
1168             if (nCount >= 1) {
1169                 pDst = FX_Alloc(FX_WCHAR, nCount);
1170                 FX_Unicode_GetNormalization(wChar, pDst);
1171                 for (int nIndex = 0; nIndex < nCount; nIndex++) {
1172                     PAGECHAR_INFO Info2 = Info;
1173                     Info2.m_Unicode = pDst[nIndex];
1174                     Info2.m_Flag = FPDFTEXT_CHAR_PIECE;
1175                     m_TextBuf.AppendChar(Info2.m_Unicode);
1176                     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1177                         m_charList.Add(Info2);
1178                     }
1179                 }
1180                 FX_Free(pDst);
1181                 return;
1182             }
1183         }
1184         m_TextBuf.AppendChar(wChar);
1185     } else {
1186         Info.m_Index = -1;
1187     }
1188     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1189         m_charList.Add(Info);
1190     }
1191 }
1192 void CPDF_TextPage::AddCharInfoByRLDirection(CFX_WideString& str, int i)
1193 {
1194     PAGECHAR_INFO Info = *(PAGECHAR_INFO*)m_TempCharList.GetAt(i);
1195     if(!IsControlChar(&Info)) {
1196         Info.m_Index = m_TextBuf.GetLength();
1197         FX_WCHAR wChar = FX_GetMirrorChar(str.GetAt(i), TRUE, FALSE);
1198         FX_WCHAR* pDst = NULL;
1199         FX_STRSIZE nCount = FX_Unicode_GetNormalization(wChar, pDst);
1200         if (nCount >= 1) {
1201             pDst = FX_Alloc(FX_WCHAR, nCount);
1202             FX_Unicode_GetNormalization(wChar, pDst);
1203             for (int nIndex = 0; nIndex < nCount; nIndex++) {
1204                 PAGECHAR_INFO Info2 = Info;
1205                 Info2.m_Unicode = pDst[nIndex];
1206                 Info2.m_Flag = FPDFTEXT_CHAR_PIECE;
1207                 m_TextBuf.AppendChar(Info2.m_Unicode);
1208                 if( !m_ParseOptions.m_bGetCharCodeOnly) {
1209                     m_charList.Add(Info2);
1210                 }
1211             }
1212             FX_Free(pDst);
1213             return;
1214         } else {
1215             Info.m_Unicode = wChar;
1216         }
1217         m_TextBuf.AppendChar(Info.m_Unicode);
1218     } else {
1219         Info.m_Index = -1;
1220     }
1221     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1222         m_charList.Add(Info);
1223     }
1224 }
1225 void CPDF_TextPage::CloseTempLine()
1226 {
1227     int count1 = m_TempCharList.GetSize();
1228     if (count1 <= 0) {
1229         return;
1230     }
1231     IFX_BidiChar* BidiChar = IFX_BidiChar::Create();
1232     CFX_WideString str = m_TempTextBuf.GetWideString();
1233     CFX_WordArray order;
1234     FX_BOOL bR2L = FALSE;
1235     int32_t start = 0, count = 0;
1236     int nR2L = 0, nL2R = 0;
1237     FX_BOOL bPrevSpace = FALSE;
1238     for (int i = 0; i < str.GetLength(); i++) {
1239         if(str.GetAt(i) == 32) {
1240             if(bPrevSpace) {
1241                 m_TempTextBuf.Delete(i, 1);
1242                 m_TempCharList.Delete(i);
1243                 str.Delete(i);
1244                 count1--;
1245                 i--;
1246                 continue;
1247             }
1248             bPrevSpace = TRUE;
1249         } else {
1250             bPrevSpace = FALSE;
1251         }
1252         if(BidiChar && BidiChar->AppendChar(str.GetAt(i))) {
1253             int32_t ret = BidiChar->GetBidiInfo(start, count);
1254             order.Add(start);
1255             order.Add(count);
1256             order.Add(ret);
1257             if(!bR2L) {
1258                 if(ret == 2) {
1259                     nR2L++;
1260                 } else if (ret == 1) {
1261                     nL2R++;
1262                 }
1263             }
1264         }
1265     }
1266     if(BidiChar && BidiChar->EndChar()) {
1267         int32_t ret = BidiChar->GetBidiInfo(start, count);
1268         order.Add(start);
1269         order.Add(count);
1270         order.Add(ret);
1271         if(!bR2L) {
1272             if(ret == 2) {
1273                 nR2L++;
1274             } else if(ret == 1) {
1275                 nL2R++;
1276             }
1277         }
1278     }
1279     if(nR2L > 0 && nR2L >= nL2R) {
1280         bR2L = TRUE;
1281     }
1282     if(this->m_parserflag == FPDFTEXT_RLTB || bR2L) {
1283         int count = order.GetSize();
1284         for(int i = count - 1; i > 0; i -= 3) {
1285             int ret = order.GetAt(i);
1286             int start = order.GetAt(i - 2);
1287             int count1 = order.GetAt(i - 1);
1288             if(ret == 2 || ret == 0) {
1289                 for(int j = start + count1 - 1; j >= start; j--) {
1290                     AddCharInfoByRLDirection(str, j);
1291                 }
1292             } else {
1293                 int j = i;
1294                 FX_BOOL bSymbol = FALSE;
1295                 while(j > 0 && order.GetAt(j) != 2) {
1296                     bSymbol = !order.GetAt(j);
1297                     j -= 3;
1298                 }
1299                 int end = start + count1 ;
1300                 int n = 0;
1301                 if(bSymbol) {
1302                     n = j + 6;
1303                 } else {
1304                     n = j + 3;
1305                 }
1306                 if(n >= i) {
1307                     for(int m = start; m < end; m++) {
1308                         AddCharInfoByLRDirection(str, m);
1309                     }
1310                 } else {
1311                     j = i;
1312                     i = n;
1313                     for(; n <= j; n += 3) {
1314                         int start = order.GetAt(n - 2);
1315                         int count1 = order.GetAt(n - 1);
1316                         int end = start + count1 ;
1317                         for(int m = start; m < end; m++) {
1318                             AddCharInfoByLRDirection(str, m);
1319                         }
1320                     }
1321                 }
1322             }
1323         }
1324     } else {
1325         int count = order.GetSize();
1326         FX_BOOL bL2R = FALSE;
1327         for(int i = 0; i < count; i += 3) {
1328             int ret = order.GetAt(i + 2);
1329             int start = order.GetAt(i);
1330             int count1 = order.GetAt(i + 1);
1331             if(ret == 2 || (i == 0 && ret == 0 && !bL2R)) {
1332                 int j = i + 3;
1333                 while(bR2L && j < count) {
1334                     if(order.GetAt(j + 2) == 1) {
1335                         break;
1336                     } else {
1337                         j += 3;
1338                     }
1339                 }
1340                 if(j == 3) {
1341                     i = -3;
1342                     bL2R = TRUE;
1343                     continue;
1344                 }
1345                 int end = m_TempCharList.GetSize() - 1;
1346                 if(j < count) {
1347                     end = order.GetAt(j) - 1;
1348                 }
1349                 i = j - 3;
1350                 for(int n = end; n >= start; n--) {
1351                     AddCharInfoByRLDirection(str, n);
1352                 }
1353             } else {
1354                 int end = start + count1 ;
1355                 for(int n = start; n < end; n++) {
1356                     AddCharInfoByLRDirection(str, n);
1357                 }
1358             }
1359         }
1360     }
1361     order.RemoveAll();
1362     m_TempCharList.RemoveAll();
1363     m_TempTextBuf.Delete(0, m_TempTextBuf.GetLength());
1364     BidiChar->Release();
1365 }
1366 void CPDF_TextPage::ProcessTextObject(CPDF_TextObject*  pTextObj, const CFX_AffineMatrix& formMatrix, FX_POSITION ObjPos)
1367 {
1368     CFX_FloatRect re(pTextObj->m_Left, pTextObj->m_Bottom, pTextObj->m_Right, pTextObj->m_Top);
1369     if(FXSYS_fabs(pTextObj->m_Right - pTextObj->m_Left) < 0.01f ) {
1370         return;
1371     }
1372     int count = m_LineObj.GetSize();
1373     PDFTEXT_Obj Obj;
1374     Obj.m_pTextObj = pTextObj;
1375     Obj.m_formMatrix = formMatrix;
1376     if(count == 0) {
1377         m_LineObj.Add(Obj);
1378         return;
1379     }
1380     if (IsSameAsPreTextObject(pTextObj, ObjPos)) {
1381         return;
1382     }
1383     PDFTEXT_Obj prev_Obj = m_LineObj.GetAt(count - 1);
1384     CPDF_TextObjectItem item;
1385     int nItem = prev_Obj.m_pTextObj->CountItems();
1386     prev_Obj.m_pTextObj->GetItemInfo(nItem - 1, &item);
1387     FX_FLOAT prev_width = GetCharWidth(item.m_CharCode, prev_Obj.m_pTextObj->GetFont()) * prev_Obj.m_pTextObj->GetFontSize() / 1000;
1388     CFX_AffineMatrix prev_matrix;
1389     prev_Obj.m_pTextObj->GetTextMatrix(&prev_matrix);
1390     prev_width = FXSYS_fabs(prev_width);
1391     prev_matrix.Concat(prev_Obj.m_formMatrix);
1392     prev_width = prev_matrix.TransformDistance(prev_width);
1393     pTextObj->GetItemInfo(0, &item);
1394     FX_FLOAT this_width = GetCharWidth(item.m_CharCode, pTextObj->GetFont()) * pTextObj->GetFontSize() / 1000;
1395     this_width = FXSYS_fabs(this_width);
1396     CFX_AffineMatrix this_matrix;
1397     pTextObj->GetTextMatrix(&this_matrix);
1398     this_width = FXSYS_fabs(this_width);
1399     this_matrix.Concat(formMatrix);
1400     this_width = this_matrix.TransformDistance(this_width);
1401     FX_FLOAT threshold = prev_width > this_width ? prev_width / 4 : this_width / 4;
1402     FX_FLOAT prev_x = prev_Obj.m_pTextObj->GetPosX(), prev_y = prev_Obj.m_pTextObj->GetPosY();
1403     prev_Obj.m_formMatrix.Transform(prev_x, prev_y);
1404     m_DisplayMatrix.Transform(prev_x, prev_y);
1405     FX_FLOAT this_x = pTextObj->GetPosX(), this_y = pTextObj->GetPosY();
1406     formMatrix.Transform(this_x, this_y);
1407     m_DisplayMatrix.Transform(this_x, this_y);
1408     if (FXSYS_fabs(this_y - prev_y) > threshold * 2) {
1409         for(int i = 0; i < count; i++) {
1410             ProcessTextObject(m_LineObj.GetAt(i));
1411         }
1412         m_LineObj.RemoveAll();
1413         m_LineObj.Add(Obj);
1414         return;
1415     }
1416     int i = 0;
1417     if(m_ParseOptions.m_bNormalizeObjs) {
1418         for(i = count - 1; i >= 0; i--) {
1419             PDFTEXT_Obj prev_Obj = m_LineObj.GetAt(i);
1420             CFX_AffineMatrix prev_matrix;
1421             prev_Obj.m_pTextObj->GetTextMatrix(&prev_matrix);
1422             FX_FLOAT Prev_x = prev_Obj.m_pTextObj->GetPosX(), Prev_y = prev_Obj.m_pTextObj->GetPosY();
1423             prev_Obj.m_formMatrix.Transform(Prev_x, Prev_y);
1424             m_DisplayMatrix.Transform(Prev_x, Prev_y);
1425             if(this_x >= Prev_x) {
1426                 if(i == count - 1) {
1427                     m_LineObj.Add(Obj);
1428                 } else {
1429                     m_LineObj.InsertAt(i + 1, Obj);
1430                 }
1431                 break;
1432             }
1433         }
1434         if(i < 0) {
1435             m_LineObj.InsertAt(0, Obj);
1436         }
1437     } else {
1438         m_LineObj.Add(Obj);
1439     }
1440 }
1441 int32_t CPDF_TextPage::PreMarkedContent(PDFTEXT_Obj Obj)
1442 {
1443     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1444     CPDF_ContentMarkData* pMarkData = (CPDF_ContentMarkData*)pTextObj->m_ContentMark.GetObject();
1445     if(!pMarkData) {
1446         return FPDFTEXT_MC_PASS;
1447     }
1448     int nContentMark = pMarkData->CountItems();
1449     if (nContentMark < 1) {
1450         return FPDFTEXT_MC_PASS;
1451     }
1452     CFX_WideString actText;
1453     FX_BOOL bExist = FALSE;
1454     CPDF_Dictionary* pDict = NULL;
1455     int n = 0;
1456     for (n = 0; n < nContentMark; n++) {
1457         CPDF_ContentMarkItem& item = pMarkData->GetItem(n);
1458         CFX_ByteString tagStr = (CFX_ByteString)item.GetName();
1459         pDict = (CPDF_Dictionary*)item.GetParam();
1460         CPDF_String* temp = (CPDF_String*)(pDict ? pDict->GetElement(FX_BSTRC("ActualText")) : NULL);
1461         if (temp) {
1462             bExist = TRUE;
1463             actText = temp->GetUnicodeText();
1464         }
1465     }
1466     if (!bExist) {
1467         return FPDFTEXT_MC_PASS;
1468     }
1469     if (m_pPreTextObj) {
1470         if (CPDF_ContentMarkData* pPreMarkData = (CPDF_ContentMarkData*)m_pPreTextObj->m_ContentMark.GetObject()) {
1471             if (pPreMarkData->CountItems() == n) {
1472                 CPDF_ContentMarkItem& item = pPreMarkData->GetItem(n - 1);
1473                 if (pDict == item.GetParam()) {
1474                     return FPDFTEXT_MC_DONE;
1475                 }
1476             }
1477         }
1478     }
1479     CPDF_Font*  pFont = pTextObj->GetFont();
1480     FX_STRSIZE nItems = actText.GetLength();
1481     if (nItems < 1) {
1482         return FPDFTEXT_MC_PASS;
1483     }
1484     bExist = FALSE;
1485     for (FX_STRSIZE i = 0; i < nItems; i++) {
1486         FX_WCHAR wChar = actText.GetAt(i);
1487         if (-1 == pFont->CharCodeFromUnicode(wChar)) {
1488             continue;
1489         } else {
1490             bExist = TRUE;
1491             break;
1492         }
1493     }
1494     if (!bExist) {
1495         return FPDFTEXT_MC_PASS;
1496     }
1497     bExist = FALSE;
1498     for (FX_STRSIZE i = 0; i < nItems; i++) {
1499         FX_WCHAR wChar = actText.GetAt(i);
1500         if ((wChar > 0x80 && wChar < 0xFFFD) || (wChar <= 0x80 && isprint(wChar))) {
1501             bExist = TRUE;
1502             break;
1503         }
1504     }
1505     if (!bExist) {
1506         return FPDFTEXT_MC_DONE;
1507     }
1508     return FPDFTEXT_MC_DELAY;
1509 }
1510 void CPDF_TextPage::ProcessMarkedContent(PDFTEXT_Obj Obj)
1511 {
1512     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1513     CPDF_ContentMarkData* pMarkData = (CPDF_ContentMarkData*)pTextObj->m_ContentMark.GetObject();
1514     if(!pMarkData) {
1515         return;
1516     }
1517     int nContentMark = pMarkData->CountItems();
1518     if (nContentMark < 1) {
1519         return;
1520     }
1521     CFX_WideString actText;
1522     CPDF_Dictionary* pDict = NULL;
1523     int n = 0;
1524     for (n = 0; n < nContentMark; n++) {
1525         CPDF_ContentMarkItem& item = pMarkData->GetItem(n);
1526         CFX_ByteString tagStr = (CFX_ByteString)item.GetName();
1527         pDict = (CPDF_Dictionary*)item.GetParam();
1528         CPDF_String* temp = (CPDF_String*)pDict->GetElement(FX_BSTRC("ActualText"));
1529         if (temp) {
1530             actText = temp->GetUnicodeText();
1531         }
1532     }
1533     FX_STRSIZE nItems = actText.GetLength();
1534     if (nItems < 1) {
1535         return;
1536     }
1537     CPDF_Font*  pFont = pTextObj->GetFont();
1538     CFX_AffineMatrix formMatrix = Obj.m_formMatrix;
1539     CFX_AffineMatrix matrix;
1540     pTextObj->GetTextMatrix(&matrix);
1541     matrix.Concat(formMatrix);
1542     FX_FLOAT fPosX = pTextObj->GetPosX();
1543     FX_FLOAT fPosY = pTextObj->GetPosY();
1544     int nCharInfoIndex = m_TextBuf.GetLength();
1545     CFX_FloatRect charBox;
1546     charBox.top = pTextObj->m_Top;
1547     charBox.left = pTextObj->m_Left;
1548     charBox.right = pTextObj->m_Right;
1549     charBox.bottom = pTextObj->m_Bottom;
1550     for (FX_STRSIZE k = 0; k < nItems; k++) {
1551         FX_WCHAR wChar = actText.GetAt(k);
1552         if (wChar <= 0x80 && !isprint(wChar)) {
1553             wChar = 0x20;
1554         }
1555         if (wChar >= 0xFFFD) {
1556             continue;
1557         }
1558         PAGECHAR_INFO charinfo;
1559         charinfo.m_OriginX = fPosX;
1560         charinfo.m_OriginY = fPosY;
1561         charinfo.m_Index = nCharInfoIndex;
1562         charinfo.m_Unicode = wChar;
1563         charinfo.m_CharCode = pFont->CharCodeFromUnicode(wChar);
1564         charinfo.m_Flag = FPDFTEXT_CHAR_PIECE;
1565         charinfo.m_pTextObj = pTextObj;
1566         charinfo.m_CharBox.top = charBox.top;
1567         charinfo.m_CharBox.left = charBox.left;
1568         charinfo.m_CharBox.right = charBox.right;
1569         charinfo.m_CharBox.bottom = charBox.bottom;
1570         charinfo.m_Matrix.Copy(matrix);
1571         m_TempTextBuf.AppendChar(wChar);
1572         m_TempCharList.Add(charinfo);
1573     }
1574 }
1575 void CPDF_TextPage::FindPreviousTextObject(void)
1576 {
1577     if (m_TempCharList.GetSize() < 1 && m_charList.GetSize() < 1) {
1578         return;
1579     }
1580     PAGECHAR_INFO preChar;
1581     if (m_TempCharList.GetSize() >= 1) {
1582         preChar = *(PAGECHAR_INFO*)m_TempCharList.GetAt(m_TempCharList.GetSize() - 1);
1583     } else {
1584         preChar = *(PAGECHAR_INFO*)m_charList.GetAt(m_charList.GetSize() - 1);
1585     }
1586     if (preChar.m_pTextObj) {
1587         m_pPreTextObj = preChar.m_pTextObj;
1588     }
1589 }
1590 void CPDF_TextPage::ProcessTextObject(PDFTEXT_Obj Obj)
1591 {
1592     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1593     if(FXSYS_fabs(pTextObj->m_Right - pTextObj->m_Left) < 0.01f ) {
1594         return;
1595     }
1596     CFX_AffineMatrix formMatrix = Obj.m_formMatrix;
1597     CPDF_Font*  pFont = pTextObj->GetFont();
1598     CFX_AffineMatrix matrix;
1599     pTextObj->GetTextMatrix(&matrix);
1600     matrix.Concat(formMatrix);
1601     int32_t bPreMKC = PreMarkedContent(Obj);
1602     if (FPDFTEXT_MC_DONE == bPreMKC) {
1603         m_pPreTextObj = pTextObj;
1604         m_perMatrix.Copy(formMatrix);
1605         return;
1606     }
1607     int result = 0;
1608     if (m_pPreTextObj) {
1609         result = ProcessInsertObject(pTextObj, formMatrix);
1610         if (2 == result) {
1611             m_CurlineRect = CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top);
1612         } else {
1613             m_CurlineRect.Union(CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top));
1614         }
1615         PAGECHAR_INFO generateChar;
1616         if (result == 1) {
1617             if (GenerateCharInfo(TEXT_BLANK_CHAR, generateChar)) {
1618                 if (!formMatrix.IsIdentity()) {
1619                     generateChar.m_Matrix.Copy(formMatrix);
1620                 }
1621                 m_TempTextBuf.AppendChar(TEXT_BLANK_CHAR);
1622                 m_TempCharList.Add(generateChar);
1623             }
1624         } else if(result == 2) {
1625             CloseTempLine();
1626             if(m_TextBuf.GetSize()) {
1627                 if(m_ParseOptions.m_bGetCharCodeOnly) {
1628                     m_TextBuf.AppendChar(TEXT_RETURN_CHAR);
1629                     m_TextBuf.AppendChar(TEXT_LINEFEED_CHAR);
1630                 } else {
1631                     if(GenerateCharInfo(TEXT_RETURN_CHAR, generateChar)) {
1632                         m_TextBuf.AppendChar(TEXT_RETURN_CHAR);
1633                         if (!formMatrix.IsIdentity()) {
1634                             generateChar.m_Matrix.Copy(formMatrix);
1635                         }
1636                         m_charList.Add(generateChar);
1637                     }
1638                     if(GenerateCharInfo(TEXT_LINEFEED_CHAR, generateChar)) {
1639                         m_TextBuf.AppendChar(TEXT_LINEFEED_CHAR);
1640                         if (!formMatrix.IsIdentity()) {
1641                             generateChar.m_Matrix.Copy(formMatrix);
1642                         }
1643                         m_charList.Add(generateChar);
1644                     }
1645                 }
1646             }
1647         } else if (result == 3 && !m_ParseOptions.m_bOutputHyphen) {
1648             int32_t nChars = pTextObj->CountChars();
1649             if (nChars == 1) {
1650                 CPDF_TextObjectItem item;
1651                 pTextObj->GetCharInfo(0, &item);
1652                 CFX_WideString wstrItem = pTextObj->GetFont()->UnicodeFromCharCode(item.m_CharCode);
1653                 if(wstrItem.IsEmpty()) {
1654                     wstrItem += (FX_WCHAR)item.m_CharCode;
1655                 }
1656                 FX_WCHAR curChar = wstrItem.GetAt(0);
1657                 if (0x2D == curChar || 0xAD == curChar) {
1658                     return;
1659                 }
1660             }
1661             while (m_TempTextBuf.GetSize() > 0 && m_TempTextBuf.GetWideString().GetAt(m_TempTextBuf.GetLength() - 1) == 0x20) {
1662                 m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1663                 m_TempCharList.Delete(m_TempCharList.GetSize() - 1);
1664             }
1665             PAGECHAR_INFO* cha = (PAGECHAR_INFO*)m_TempCharList.GetAt(m_TempCharList.GetSize() - 1);
1666             m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1667             cha->m_Unicode = 0x2;
1668             cha->m_Flag = FPDFTEXT_CHAR_HYPHEN;
1669             m_TempTextBuf.AppendChar(0xfffe);
1670         }
1671     } else {
1672         m_CurlineRect = CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top);
1673     }
1674     if (FPDFTEXT_MC_DELAY == bPreMKC) {
1675         ProcessMarkedContent(Obj);
1676         m_pPreTextObj = pTextObj;
1677         m_perMatrix.Copy(formMatrix);
1678         return;
1679     }
1680     m_pPreTextObj = pTextObj;
1681     m_perMatrix.Copy(formMatrix);
1682     int nItems = pTextObj->CountItems();
1683     FX_FLOAT baseSpace = _CalculateBaseSpace(pTextObj, matrix);
1684
1685     FX_BOOL bIsBidiAndMirrosInverse = FALSE;
1686     IFX_BidiChar* BidiChar = IFX_BidiChar::Create();
1687     int32_t nR2L = 0;
1688     int32_t nL2R = 0;
1689     int32_t start = 0, count = 0;
1690     CPDF_TextObjectItem item;
1691     for (int32_t i = 0; i < nItems; i++) {
1692         pTextObj->GetItemInfo(i, &item);
1693         if (item.m_CharCode == (FX_DWORD)-1) {
1694             continue;
1695         }
1696         CFX_WideString wstrItem = pFont->UnicodeFromCharCode(item.m_CharCode);
1697         FX_WCHAR wChar = wstrItem.GetAt(0);
1698         if ((wstrItem.IsEmpty() || wChar == 0) && item.m_CharCode) {
1699             wChar = (FX_WCHAR)item.m_CharCode;
1700         }
1701         if (!wChar) {
1702             continue;
1703         }
1704         if (BidiChar && BidiChar->AppendChar(wChar)) {
1705             int32_t ret = BidiChar->GetBidiInfo(start, count);
1706             if (ret == 2) {
1707                 nR2L++;
1708             }
1709             else if (ret == 1) {
1710                 nL2R++;
1711             }
1712         }
1713     }
1714     if (BidiChar && BidiChar->EndChar()) {
1715         int32_t ret = BidiChar->GetBidiInfo(start, count);
1716         if (ret == 2) {
1717             nR2L++;
1718         }
1719         else if (ret == 1) {
1720             nL2R++;
1721         }
1722     }
1723     FX_BOOL bR2L = FALSE;
1724     if (nR2L > 0 && nR2L >= nL2R) {
1725         bR2L = TRUE;
1726     }
1727     bIsBidiAndMirrosInverse = bR2L && (matrix.a * matrix.d - matrix.b * matrix.c) < 0;
1728     int32_t iBufStartAppend = m_TempTextBuf.GetLength();
1729     int32_t iCharListStartAppend = m_TempCharList.GetSize();
1730
1731     FX_FLOAT spacing = 0;
1732     for (int i = 0; i < nItems; i++) {
1733         CPDF_TextObjectItem item;
1734         PAGECHAR_INFO charinfo;
1735         charinfo.m_OriginX = 0;
1736         charinfo.m_OriginY = 0;
1737         pTextObj->GetItemInfo(i, &item);
1738         if (item.m_CharCode == (FX_DWORD) - 1) {
1739             CFX_WideString str = m_TempTextBuf.GetWideString();
1740             if(str.IsEmpty()) {
1741                 str = m_TextBuf.GetWideString();
1742             }
1743             if (str.IsEmpty() || str.GetAt(str.GetLength() - 1) == TEXT_BLANK_CHAR) {
1744                 continue;
1745             }
1746             FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
1747             spacing = -fontsize_h * item.m_OriginX / 1000;
1748             continue;
1749         }
1750         FX_FLOAT charSpace = pTextObj->m_TextState.GetObject()->m_CharSpace;
1751         if (charSpace > 0.001) {
1752             spacing += matrix.TransformDistance(charSpace);
1753         } else if(charSpace < -0.001) {
1754             spacing -= matrix.TransformDistance(FXSYS_fabs(charSpace));
1755         }
1756         spacing -= baseSpace;
1757         if (spacing && i > 0) {
1758             int last_width = 0;
1759             FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
1760             FX_DWORD space_charcode = pFont->CharCodeFromUnicode(' ');
1761             FX_FLOAT threshold = 0;
1762             if (space_charcode != -1) {
1763                 threshold = fontsize_h * pFont->GetCharWidthF(space_charcode) / 1000 ;
1764             }
1765             if (threshold > fontsize_h / 3) {
1766                 threshold = 0;
1767             } else {
1768                 threshold /= 2;
1769             }
1770             if (threshold == 0) {
1771                 threshold = fontsize_h;
1772                 int this_width = FXSYS_abs(GetCharWidth(item.m_CharCode, pFont));
1773                 threshold = this_width > last_width ? (FX_FLOAT)this_width : (FX_FLOAT)last_width;
1774                 threshold = _NormalizeThreshold(threshold);
1775                 threshold = fontsize_h * threshold / 1000;
1776             }
1777             if (threshold && (spacing && spacing >= threshold) ) {
1778                 charinfo.m_Unicode = TEXT_BLANK_CHAR;
1779                 charinfo.m_Flag = FPDFTEXT_CHAR_GENERATED;
1780                 charinfo.m_pTextObj = pTextObj;
1781                 charinfo.m_Index = m_TextBuf.GetLength();
1782                 m_TempTextBuf.AppendChar(TEXT_BLANK_CHAR);
1783                 charinfo.m_CharCode = -1;
1784                 charinfo.m_Matrix.Copy(formMatrix);
1785                 matrix.Transform(item.m_OriginX, item.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1786                 charinfo.m_CharBox = CFX_FloatRect(charinfo.m_OriginX, charinfo.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1787                 m_TempCharList.Add(charinfo);
1788             }
1789             if (item.m_CharCode == (FX_DWORD) - 1) {
1790                 continue;
1791             }
1792         }
1793         spacing = 0;
1794         CFX_WideString wstrItem = pFont->UnicodeFromCharCode(item.m_CharCode);
1795         FX_BOOL bNoUnicode = FALSE;
1796         FX_WCHAR wChar = wstrItem.GetAt(0);
1797         if ((wstrItem.IsEmpty() || wChar == 0) && item.m_CharCode) {
1798             if(wstrItem.IsEmpty()) {
1799                 wstrItem += (FX_WCHAR)item.m_CharCode;
1800             } else {
1801                 wstrItem.SetAt(0, (FX_WCHAR)item.m_CharCode);
1802             }
1803             bNoUnicode = TRUE;
1804         }
1805         charinfo.m_Index = -1;
1806         charinfo.m_CharCode = item.m_CharCode;
1807         if(bNoUnicode) {
1808             charinfo.m_Flag = FPDFTEXT_CHAR_UNUNICODE;
1809         } else {
1810             charinfo.m_Flag = FPDFTEXT_CHAR_NORMAL;
1811         }
1812         charinfo.m_pTextObj = pTextObj;
1813         charinfo.m_OriginX = 0, charinfo.m_OriginY = 0;
1814         matrix.Transform(item.m_OriginX, item.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1815         FX_RECT rect(0, 0, 0, 0);
1816         rect.Intersect(0, 0, 0, 0);
1817         charinfo.m_pTextObj->GetFont()->GetCharBBox(charinfo.m_CharCode, rect);
1818         charinfo.m_CharBox.top = rect.top * pTextObj->GetFontSize() / 1000 + item.m_OriginY;
1819         charinfo.m_CharBox.left = rect.left * pTextObj->GetFontSize() / 1000 + item.m_OriginX;
1820         charinfo.m_CharBox.right = rect.right * pTextObj->GetFontSize() / 1000 + item.m_OriginX;
1821         charinfo.m_CharBox.bottom = rect.bottom * pTextObj->GetFontSize() / 1000 + item.m_OriginY;
1822         if (fabsf(charinfo.m_CharBox.top - charinfo.m_CharBox.bottom) < 0.01f) {
1823             charinfo.m_CharBox.top = charinfo.m_CharBox.bottom + pTextObj->GetFontSize();
1824         }
1825         if (fabsf(charinfo.m_CharBox.right - charinfo.m_CharBox.left) < 0.01f) {
1826             charinfo.m_CharBox.right = charinfo.m_CharBox.left + pTextObj->GetCharWidth(charinfo.m_CharCode);
1827         }
1828         matrix.TransformRect(charinfo.m_CharBox);
1829         charinfo.m_Matrix.Copy(matrix);
1830         if (wstrItem.IsEmpty()) {
1831             charinfo.m_Unicode = 0;
1832             m_TempCharList.Add(charinfo);
1833             m_TempTextBuf.AppendChar(0xfffe);
1834             continue;
1835         } else {
1836             int nTotal = wstrItem.GetLength();
1837             FX_BOOL bDel = FALSE;
1838             const int count = std::min(m_TempCharList.GetSize(), 7);
1839             FX_FLOAT threshold = charinfo.m_Matrix.TransformXDistance((FX_FLOAT)TEXT_CHARRATIO_GAPDELTA * pTextObj->GetFontSize());
1840             for (int n = m_TempCharList.GetSize();
1841                  n > m_TempCharList.GetSize() - count;
1842                  n--) {
1843                 PAGECHAR_INFO* charinfo1 = (PAGECHAR_INFO*)m_TempCharList.GetAt(n - 1);
1844                 if(charinfo1->m_CharCode == charinfo.m_CharCode &&
1845                         charinfo1->m_pTextObj->GetFont() == charinfo.m_pTextObj->GetFont()  &&
1846                         FXSYS_fabs(charinfo1->m_OriginX - charinfo.m_OriginX) < threshold  &&
1847                         FXSYS_fabs(charinfo1->m_OriginY - charinfo.m_OriginY) < threshold) {
1848                     bDel = TRUE;
1849                     break;
1850                 }
1851             }
1852             if(!bDel) {
1853                 for (int nIndex = 0; nIndex < nTotal; nIndex++) {
1854                     charinfo.m_Unicode = wstrItem.GetAt(nIndex);
1855                     if (charinfo.m_Unicode) {
1856                         charinfo.m_Index = m_TextBuf.GetLength();
1857                         m_TempTextBuf.AppendChar(charinfo.m_Unicode);
1858                     } else {
1859                         m_TempTextBuf.AppendChar(0xfffe);
1860                     }
1861                     m_TempCharList.Add(charinfo);
1862                 }
1863             } else if(i == 0) {
1864                 CFX_WideString str = m_TempTextBuf.GetWideString();
1865                 if (!str.IsEmpty() && str.GetAt(str.GetLength() - 1) == TEXT_BLANK_CHAR) {
1866                     m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1867                     m_TempCharList.Delete(m_TempCharList.GetSize() - 1);
1868                 }
1869             }
1870         }
1871     }
1872     if (bIsBidiAndMirrosInverse) {
1873         int32_t i, j;
1874         i = iCharListStartAppend;
1875         j = m_TempCharList.GetSize() - 1;
1876         for (; i < j; i++, j--) {
1877             std::swap(m_TempCharList[i], m_TempCharList[j]);
1878             std::swap(m_TempCharList[i].m_Index, m_TempCharList[j].m_Index);
1879         }
1880         FX_WCHAR * pTempBuffer = m_TempTextBuf.GetBuffer();
1881         i = iBufStartAppend;
1882         j = m_TempTextBuf.GetLength() - 1;
1883         for (; i < j; i++, j--) {
1884             std::swap(pTempBuffer[i], pTempBuffer[j]);
1885         }
1886     }
1887 }
1888 int32_t CPDF_TextPage::GetTextObjectWritingMode(const CPDF_TextObject* pTextObj)
1889 {
1890     int32_t nChars = pTextObj->CountChars();
1891     if (nChars == 1) {
1892         return m_TextlineDir;
1893     }
1894     CPDF_TextObjectItem first, last;
1895     pTextObj->GetCharInfo(0, &first);
1896     pTextObj->GetCharInfo(nChars - 1, &last);
1897     CFX_Matrix textMatrix;
1898     pTextObj->GetTextMatrix(&textMatrix);
1899     textMatrix.TransformPoint(first.m_OriginX, first.m_OriginY);
1900     textMatrix.TransformPoint(last.m_OriginX, last.m_OriginY);
1901     FX_FLOAT dX = FXSYS_fabs(last.m_OriginX - first.m_OriginX);
1902     FX_FLOAT dY = FXSYS_fabs(last.m_OriginY - first.m_OriginY);
1903     if (dX <= 0.0001f && dY <= 0.0001f) {
1904         return -1;
1905     }
1906     CFX_VectorF v;
1907     v.Set(dX, dY);
1908     v.Normalize();
1909     if (v.y <= 0.0872f) {
1910         if (v.x <= 0.0872f) {
1911             return m_TextlineDir;
1912         }
1913         return 0;
1914     } else if (v.x <= 0.0872f) {
1915         return 1;
1916     }
1917     return m_TextlineDir;
1918 }
1919 FX_BOOL CPDF_TextPage::IsHyphen(FX_WCHAR curChar)
1920 {
1921     CFX_WideString strCurText = m_TempTextBuf.GetWideString();
1922     if(strCurText.GetLength() == 0) {
1923         strCurText = m_TextBuf.GetWideString();
1924     }
1925     FX_STRSIZE nCount = strCurText.GetLength();
1926     int nIndex = nCount - 1;
1927     FX_WCHAR wcTmp = strCurText.GetAt(nIndex);
1928     while(wcTmp == 0x20 && nIndex <= nCount - 1 && nIndex >= 0) {
1929         wcTmp = strCurText.GetAt(--nIndex);
1930     }
1931     if (0x2D == wcTmp || 0xAD == wcTmp) {
1932         if (--nIndex > 0) {
1933             FX_WCHAR preChar = strCurText.GetAt((nIndex));
1934             if (((preChar >= L'A' && preChar <= L'Z') || (preChar >= L'a' && preChar <= L'z'))
1935                     && ((curChar >= L'A' && curChar <= L'Z') || (curChar >= L'a' && curChar <= L'z'))) {
1936                 return TRUE;
1937             }
1938         }
1939         int size = m_TempCharList.GetSize();
1940         PAGECHAR_INFO preChar;
1941         if (size) {
1942             preChar = (PAGECHAR_INFO)m_TempCharList[size - 1];
1943         } else {
1944             size = m_charList.GetSize();
1945             if(size == 0) {
1946                 return FALSE;
1947             }
1948             preChar = (PAGECHAR_INFO)m_charList[size - 1];
1949         }
1950         if (FPDFTEXT_CHAR_PIECE == preChar.m_Flag)
1951             if (0xAD == preChar.m_Unicode || 0x2D == preChar.m_Unicode) {
1952                 return TRUE;
1953             }
1954     }
1955     return FALSE;
1956 }
1957 int CPDF_TextPage::ProcessInsertObject(const CPDF_TextObject* pObj, const CFX_AffineMatrix& formMatrix)
1958 {
1959     FindPreviousTextObject();
1960     FX_BOOL bNewline = FALSE;
1961     int WritingMode = GetTextObjectWritingMode(pObj);
1962     if(WritingMode == -1) {
1963         WritingMode = GetTextObjectWritingMode(m_pPreTextObj);
1964     }
1965     CFX_FloatRect this_rect(pObj->m_Left, pObj->m_Bottom, pObj->m_Right, pObj->m_Top);
1966     CFX_FloatRect prev_rect(m_pPreTextObj->m_Left, m_pPreTextObj->m_Bottom, m_pPreTextObj->m_Right, m_pPreTextObj->m_Top);
1967     CPDF_TextObjectItem PrevItem, item;
1968     int nItem = m_pPreTextObj->CountItems();
1969     m_pPreTextObj->GetItemInfo(nItem - 1, &PrevItem);
1970     pObj->GetItemInfo(0, &item);
1971     CFX_WideString wstrItem = pObj->GetFont()->UnicodeFromCharCode(item.m_CharCode);
1972     if(wstrItem.IsEmpty()) {
1973         wstrItem += (FX_WCHAR)item.m_CharCode;
1974     }
1975     FX_WCHAR curChar = wstrItem.GetAt(0);
1976     if(WritingMode == 0) {
1977         if(this_rect.Height() > 4.5 && prev_rect.Height() > 4.5) {
1978             FX_FLOAT top = this_rect.top < prev_rect.top ? this_rect.top : prev_rect.top;
1979             FX_FLOAT bottom = this_rect.bottom > prev_rect.bottom ? this_rect.bottom : prev_rect.bottom;
1980             if(bottom >= top) {
1981                 if(IsHyphen(curChar)) {
1982                     return 3;
1983                 }
1984                 return 2;
1985             }
1986         }
1987     } else if (WritingMode == 1) {
1988         if(this_rect.Width() > pObj->GetFontSize() * 0.1f && prev_rect.Width() > m_pPreTextObj->GetFontSize() * 0.1f) {
1989             FX_FLOAT left = this_rect.left > m_CurlineRect.left ? this_rect.left : m_CurlineRect.left;
1990             FX_FLOAT right = this_rect.right < m_CurlineRect.right ? this_rect.right : m_CurlineRect.right;
1991             if(right <= left) {
1992                 if(IsHyphen(curChar)) {
1993                     return 3;
1994                 }
1995                 return 2;
1996             }
1997         }
1998     }
1999     FX_FLOAT last_pos = PrevItem.m_OriginX;
2000     int nLastWidth = GetCharWidth(PrevItem.m_CharCode, m_pPreTextObj->GetFont());
2001     FX_FLOAT last_width = nLastWidth * m_pPreTextObj->GetFontSize() / 1000;
2002     last_width = FXSYS_fabs(last_width);
2003     int nThisWidth = GetCharWidth(item.m_CharCode, pObj->GetFont());
2004     FX_FLOAT this_width = nThisWidth * pObj->GetFontSize() / 1000;
2005     this_width = FXSYS_fabs(this_width);
2006     FX_FLOAT threshold = last_width > this_width ? last_width / 4 : this_width / 4;
2007     CFX_AffineMatrix prev_matrix, prev_reverse;
2008     m_pPreTextObj->GetTextMatrix(&prev_matrix);
2009     prev_matrix.Concat(m_perMatrix);
2010     prev_reverse.SetReverse(prev_matrix);
2011     FX_FLOAT x = pObj->GetPosX();
2012     FX_FLOAT y = pObj->GetPosY();
2013     formMatrix.Transform(x, y);
2014     prev_reverse.Transform(x, y);
2015     if(last_width < this_width) {
2016         threshold = prev_reverse.TransformDistance(threshold);
2017     }
2018     CFX_FloatRect rect1(m_pPreTextObj->m_Left, pObj->m_Bottom, m_pPreTextObj->m_Right, pObj->m_Top);
2019     CFX_FloatRect rect2(m_pPreTextObj->m_Left, m_pPreTextObj->m_Bottom, m_pPreTextObj->m_Right, m_pPreTextObj->m_Top);
2020     CFX_FloatRect rect3 = rect1;
2021     rect1.Intersect(rect2);
2022     if (WritingMode == 0) {
2023         if ((rect1.IsEmpty() && rect2.Height() > 5 && rect3.Height() > 5)
2024                 || ((y > threshold * 2 || y < threshold * -3) && (FXSYS_fabs(y) < 1 ? FXSYS_fabs(x) < FXSYS_fabs(y) : TRUE))) {
2025             bNewline = TRUE;
2026             if(nItem > 1 ) {
2027                 CPDF_TextObjectItem tempItem;
2028                 m_pPreTextObj->GetItemInfo(0, &tempItem);
2029                 CFX_AffineMatrix m;
2030                 m_pPreTextObj->GetTextMatrix(&m);
2031                 if(PrevItem.m_OriginX > tempItem.m_OriginX &&
2032                         m_DisplayMatrix.a > 0.9 && m_DisplayMatrix.b < 0.1 &&
2033                         m_DisplayMatrix.c < 0.1 && m_DisplayMatrix.d < -0.9
2034                         && m.b < 0.1 && m.c < 0.1 ) {
2035                     CFX_FloatRect re(0, m_pPreTextObj->m_Bottom, 1000, m_pPreTextObj->m_Top);
2036                     if(re.Contains(pObj->GetPosX(), pObj->GetPosY())) {
2037                         bNewline = FALSE;
2038                     } else {
2039                         CFX_FloatRect re(0, pObj->m_Bottom, 1000, pObj->m_Top);
2040                         if(re.Contains(m_pPreTextObj->GetPosX(), m_pPreTextObj->GetPosY())) {
2041                             bNewline = FALSE;
2042                         }
2043                     }
2044                 }
2045             }
2046         }
2047     }
2048     if(bNewline) {
2049         if(IsHyphen(curChar)) {
2050             return 3;
2051         }
2052         return 2;
2053     }
2054     int32_t nChars = pObj->CountChars();
2055     if (nChars == 1 && ( 0x2D == curChar || 0xAD == curChar))
2056         if (IsHyphen(curChar)) {
2057             return 3;
2058         }
2059     CFX_WideString PrevStr = m_pPreTextObj->GetFont()->UnicodeFromCharCode(PrevItem.m_CharCode);
2060     FX_WCHAR preChar = PrevStr.GetAt(PrevStr.GetLength() - 1);
2061     CFX_AffineMatrix matrix;
2062     pObj->GetTextMatrix(&matrix);
2063     matrix.Concat(formMatrix);
2064     threshold = (FX_FLOAT)(nLastWidth > nThisWidth ? nLastWidth : nThisWidth);
2065     threshold = threshold > 400 ? (threshold < 700 ? threshold / 4 :  (threshold > 800 ? threshold / 6 : threshold / 5)) : (threshold / 2);
2066     if(nLastWidth >= nThisWidth) {
2067         threshold *= FXSYS_fabs(m_pPreTextObj->GetFontSize());
2068     } else {
2069         threshold *= FXSYS_fabs(pObj->GetFontSize());
2070         threshold = matrix.TransformDistance(threshold);
2071         threshold = prev_reverse.TransformDistance(threshold);
2072     }
2073     threshold /= 1000;
2074     if((threshold < 1.4881 && threshold > 1.4879)
2075             || (threshold < 1.39001 && threshold > 1.38999)) {
2076         threshold *= 1.5;
2077     }
2078     if (FXSYS_fabs(last_pos + last_width - x) > threshold && curChar != L' ' && preChar != L' ')
2079         if (curChar != L' ' && preChar != L' ') {
2080             if((x - last_pos - last_width) > threshold || (last_pos - x - last_width) > threshold) {
2081                 return 1;
2082             }
2083             if(x < 0 && (last_pos - x - last_width) > threshold) {
2084                 return 1;
2085             }
2086             if((x - last_pos - last_width) > this_width || (x - last_pos - this_width) > last_width ) {
2087                 return 1;
2088             }
2089         }
2090     return 0;
2091 }
2092 FX_BOOL CPDF_TextPage::IsSameTextObject(CPDF_TextObject* pTextObj1, CPDF_TextObject* pTextObj2)
2093 {
2094     if (!pTextObj1 || !pTextObj2) {
2095         return FALSE;
2096     }
2097     CFX_FloatRect rcPreObj(pTextObj2->m_Left, pTextObj2->m_Bottom, pTextObj2->m_Right, pTextObj2->m_Top);
2098     CFX_FloatRect rcCurObj(pTextObj1->m_Left, pTextObj1->m_Bottom, pTextObj1->m_Right, pTextObj1->m_Top);
2099     if (rcPreObj.IsEmpty() && rcCurObj.IsEmpty() && !m_ParseOptions.m_bGetCharCodeOnly) {
2100         FX_FLOAT dbXdif = FXSYS_fabs(rcPreObj.left - rcCurObj.left);
2101         int nCount = m_charList.GetSize();
2102         if (nCount >= 2) {
2103             PAGECHAR_INFO perCharTemp = (PAGECHAR_INFO)m_charList[nCount - 2];
2104             FX_FLOAT dbSpace = perCharTemp.m_CharBox.Width();
2105             if (dbXdif > dbSpace) {
2106                 return FALSE;
2107             }
2108         }
2109     }
2110     if (!rcPreObj.IsEmpty() || !rcCurObj.IsEmpty()) {
2111         rcPreObj.Intersect(rcCurObj);
2112         if (rcPreObj.IsEmpty()) {
2113             return FALSE;
2114         }
2115         if (FXSYS_fabs(rcPreObj.Width() - rcCurObj.Width()) > rcCurObj.Width() / 2) {
2116             return FALSE;
2117         }
2118         if (pTextObj2->GetFontSize() != pTextObj1->GetFontSize()) {
2119             return FALSE;
2120         }
2121     }
2122     int nPreCount = pTextObj2->CountItems();
2123     int nCurCount = pTextObj1->CountItems();
2124     if (nPreCount != nCurCount) {
2125         return FALSE;
2126     }
2127     CPDF_TextObjectItem itemPer, itemCur;
2128     for (int i = 0; i < nPreCount; i++) {
2129         pTextObj2->GetItemInfo(i, &itemPer);
2130         pTextObj1->GetItemInfo(i, &itemCur);
2131         if (itemCur.m_CharCode != itemPer.m_CharCode) {
2132             return FALSE;
2133         }
2134     }
2135     if(FXSYS_fabs(pTextObj1->GetPosX() - pTextObj2->GetPosX()) > GetCharWidth(itemPer.m_CharCode, pTextObj2->GetFont())*pTextObj2->GetFontSize() / 1000 * 0.9 ||
2136             FXSYS_fabs(pTextObj1->GetPosY() - pTextObj2->GetPosY()) >
2137             FX_MAX(FX_MAX(rcPreObj.Height() , rcPreObj.Width()), pTextObj2->GetFontSize()) / 8) {
2138         return FALSE;
2139     }
2140     return TRUE;
2141 }
2142 FX_BOOL CPDF_TextPage::IsSameAsPreTextObject(CPDF_TextObject* pTextObj, FX_POSITION ObjPos)
2143 {
2144     if (!pTextObj) {
2145         return FALSE;
2146     }
2147     int i = 0;
2148     if (!ObjPos) {
2149         ObjPos = m_pPage->GetLastObjectPosition();
2150     }
2151     CPDF_PageObject* pObj = m_pPage->GetPrevObject(ObjPos);
2152     while (i < 5 && ObjPos) {
2153         pObj = m_pPage->GetPrevObject(ObjPos);
2154         if(pObj == pTextObj) {
2155             continue;
2156         }
2157         if(pObj->m_Type != PDFPAGE_TEXT) {
2158             continue;
2159         }
2160         if(IsSameTextObject((CPDF_TextObject*)pObj, pTextObj)) {
2161             return TRUE;
2162         }
2163         i++;
2164     }
2165     return FALSE;
2166 }
2167 FX_BOOL CPDF_TextPage::GenerateCharInfo(FX_WCHAR unicode, PAGECHAR_INFO& info)
2168 {
2169     int size = m_TempCharList.GetSize();
2170     PAGECHAR_INFO preChar;
2171     if (size) {
2172         preChar = (PAGECHAR_INFO)m_TempCharList[size - 1];
2173     } else {
2174         size = m_charList.GetSize();
2175         if(size == 0) {
2176             return FALSE;
2177         }
2178         preChar = (PAGECHAR_INFO)m_charList[size - 1];
2179     }
2180     info.m_Index = m_TextBuf.GetLength();
2181     info.m_Unicode = unicode;
2182     info.m_pTextObj = NULL;
2183     info.m_CharCode = -1;
2184     info.m_Flag = FPDFTEXT_CHAR_GENERATED;
2185     int preWidth = 0;
2186     if (preChar.m_pTextObj && preChar.m_CharCode != (FX_DWORD) - 1) {
2187         preWidth = GetCharWidth(preChar.m_CharCode, preChar.m_pTextObj->GetFont());
2188     }
2189     FX_FLOAT fs = 0;
2190     if(preChar.m_pTextObj) {
2191         fs = preChar.m_pTextObj->GetFontSize();
2192     } else {
2193         fs = preChar.m_CharBox.Height();
2194     }
2195     if(!fs) {
2196         fs = 1;
2197     }
2198     info.m_OriginX = preChar.m_OriginX + preWidth * (fs) / 1000;
2199     info.m_OriginY = preChar.m_OriginY;
2200     info.m_CharBox = CFX_FloatRect(info.m_OriginX, info.m_OriginY, info.m_OriginX, info.m_OriginY);
2201     return TRUE;
2202 }
2203 FX_BOOL CPDF_TextPage::IsRectIntersect(const CFX_FloatRect& rect1, const CFX_FloatRect& rect2)
2204 {
2205     CFX_FloatRect rect = rect1;
2206     rect.Intersect(rect2);
2207     return !rect.IsEmpty();
2208 }
2209 FX_BOOL CPDF_TextPage::IsLetter(FX_WCHAR unicode)
2210 {
2211     if (unicode < L'A') {
2212         return FALSE;
2213     }
2214     if (unicode > L'Z' && unicode < L'a') {
2215         return FALSE;
2216     }
2217     if (unicode > L'z') {
2218         return FALSE;
2219     }
2220     return TRUE;
2221 }
2222 CPDF_TextPageFind::CPDF_TextPageFind(const IPDF_TextPage* pTextPage)
2223     : m_pTextPage(pTextPage),
2224       m_flags(0),
2225       m_findNextStart(-1),
2226       m_findPreStart(-1),
2227       m_bMatchCase(FALSE),
2228       m_bMatchWholeWord(FALSE),
2229       m_resStart(0),
2230       m_resEnd(-1),
2231       m_IsFind(FALSE)
2232 {
2233     m_strText = m_pTextPage->GetPageText();
2234     int nCount = pTextPage->CountChars();
2235     if(nCount) {
2236         m_CharIndex.Add(0);
2237     }
2238     for(int i = 0; i < nCount; i++) {
2239         FPDF_CHAR_INFO info;
2240         pTextPage->GetCharInfo(i, info);
2241         int indexSize = m_CharIndex.GetSize();
2242         if(info.m_Flag == CHAR_NORMAL || info.m_Flag == CHAR_GENERATED) {
2243             if(indexSize % 2) {
2244                 m_CharIndex.Add(1);
2245             } else {
2246                 if(indexSize <= 0) {
2247                     continue;
2248                 }
2249                 m_CharIndex.SetAt(indexSize - 1, m_CharIndex.GetAt(indexSize - 1) + 1);
2250             }
2251         } else {
2252             if(indexSize % 2) {
2253                 if(indexSize <= 0) {
2254                     continue;
2255                 }
2256                 m_CharIndex.SetAt(indexSize - 1, i + 1);
2257             } else {
2258                 m_CharIndex.Add(i + 1);
2259             }
2260         }
2261     }
2262     int indexSize = m_CharIndex.GetSize();
2263     if(indexSize % 2) {
2264         m_CharIndex.RemoveAt(indexSize - 1);
2265     }
2266 }
2267 int CPDF_TextPageFind::GetCharIndex(int index) const
2268 {
2269     return m_pTextPage->CharIndexFromTextIndex(index);
2270     int indexSize = m_CharIndex.GetSize();
2271     int count = 0;
2272     for(int i = 0; i < indexSize; i += 2) {
2273         count += m_CharIndex.GetAt(i + 1);
2274         if(count > index) {
2275             return      index - count + m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i);
2276         }
2277     }
2278     return -1;
2279 }
2280 FX_BOOL CPDF_TextPageFind::FindFirst(const CFX_WideString& findwhat, int flags, int startPos)
2281 {
2282     if (!m_pTextPage) {
2283         return FALSE;
2284     }
2285     if (m_strText.IsEmpty() || m_bMatchCase != (flags & FPDFTEXT_MATCHCASE)) {
2286         m_strText = m_pTextPage->GetPageText();
2287     }
2288     CFX_WideString findwhatStr = findwhat;
2289     m_findWhat = findwhatStr;
2290     m_flags = flags;
2291     m_bMatchCase = flags & FPDFTEXT_MATCHCASE;
2292     if (m_strText.IsEmpty()) {
2293         m_IsFind = FALSE;
2294         return TRUE;
2295     }
2296     FX_STRSIZE len = findwhatStr.GetLength();
2297     if (!m_bMatchCase) {
2298         findwhatStr.MakeLower();
2299         m_strText.MakeLower();
2300     }
2301     m_bMatchWholeWord = flags & FPDFTEXT_MATCHWHOLEWORD;
2302     m_findNextStart = startPos;
2303     if (startPos == -1) {
2304         m_findPreStart = m_strText.GetLength() - 1;
2305     } else {
2306         m_findPreStart = startPos;
2307     }
2308     m_csFindWhatArray.RemoveAll();
2309     int i = 0;
2310     while(i < len) {
2311         if(findwhatStr.GetAt(i) != ' ') {
2312             break;
2313         }
2314         i++;
2315     }
2316     if(i < len) {
2317         ExtractFindWhat(findwhatStr);
2318     } else {
2319         m_csFindWhatArray.Add(findwhatStr);
2320     }
2321     if(m_csFindWhatArray.GetSize() <= 0) {
2322         return FALSE;
2323     }
2324     m_IsFind = TRUE;
2325     m_resStart = 0;
2326     m_resEnd = -1;
2327     return TRUE;
2328 }
2329 FX_BOOL CPDF_TextPageFind::FindNext()
2330 {
2331     if (!m_pTextPage) {
2332         return FALSE;
2333     }
2334     m_resArray.RemoveAll();
2335     if(m_findNextStart == -1) {
2336         return FALSE;
2337     }
2338     if(m_strText.IsEmpty()) {
2339         m_IsFind = FALSE;
2340         return m_IsFind;
2341     }
2342     int strLen = m_strText.GetLength();
2343     if (m_findNextStart > strLen - 1) {
2344         m_IsFind = FALSE;
2345         return m_IsFind;
2346     }
2347     int nCount = m_csFindWhatArray.GetSize();
2348     int nResultPos = 0;
2349     int nStartPos = 0;
2350     nStartPos = m_findNextStart;
2351     FX_BOOL bSpaceStart = FALSE;
2352     for(int iWord = 0; iWord < nCount; iWord++) {
2353         CFX_WideString csWord = m_csFindWhatArray[iWord];
2354         if(csWord.IsEmpty()) {
2355             if(iWord == nCount - 1) {
2356                 FX_WCHAR strInsert = m_strText.GetAt(nStartPos);
2357                 if(strInsert == TEXT_LINEFEED_CHAR || strInsert == TEXT_BLANK_CHAR || strInsert == TEXT_RETURN_CHAR || strInsert == 160) {
2358                     nResultPos = nStartPos + 1;
2359                     break;
2360                 }
2361                 iWord = -1;
2362             } else if(iWord == 0) {
2363                 bSpaceStart = TRUE;
2364             }
2365             continue;
2366         }
2367         int endIndex;
2368         nResultPos = m_strText.Find(csWord.c_str(), nStartPos);
2369         if (nResultPos == -1) {
2370             m_IsFind = FALSE;
2371             return m_IsFind;
2372         }
2373         endIndex = nResultPos + csWord.GetLength() - 1;
2374         if(iWord == 0) {
2375             m_resStart = nResultPos;
2376         }
2377         FX_BOOL bMatch = TRUE;
2378         if(iWord != 0 && !bSpaceStart) {
2379             int PreResEndPos = nStartPos;
2380             int curChar = csWord.GetAt(0);
2381             CFX_WideString lastWord = m_csFindWhatArray[iWord - 1];
2382             int lastChar = lastWord.GetAt(lastWord.GetLength() - 1);
2383             if(nStartPos == nResultPos && !(_IsIgnoreSpaceCharacter(lastChar) || _IsIgnoreSpaceCharacter(curChar))) {
2384                 bMatch = FALSE;
2385             }
2386             for(int d = PreResEndPos; d < nResultPos; d++) {
2387                 FX_WCHAR strInsert = m_strText.GetAt(d);
2388                 if(strInsert != TEXT_LINEFEED_CHAR && strInsert != TEXT_BLANK_CHAR && strInsert != TEXT_RETURN_CHAR && strInsert != 160) {
2389                     bMatch = FALSE;
2390                     break;
2391                 }
2392             }
2393         } else if(bSpaceStart) {
2394             if(nResultPos > 0) {
2395                 FX_WCHAR strInsert = m_strText.GetAt(nResultPos - 1);
2396                 if(strInsert != TEXT_LINEFEED_CHAR && strInsert != TEXT_BLANK_CHAR && strInsert != TEXT_RETURN_CHAR && strInsert != 160) {
2397                     bMatch = FALSE;
2398                     m_resStart = nResultPos;
2399                 } else {
2400                     m_resStart = nResultPos - 1;
2401                 }
2402             }
2403         }
2404         if(m_bMatchWholeWord && bMatch) {
2405             bMatch = IsMatchWholeWord(m_strText, nResultPos, endIndex);
2406         }
2407         nStartPos = endIndex + 1;
2408         if(!bMatch) {
2409             iWord = -1;
2410             if(bSpaceStart) {
2411                 nStartPos = m_resStart + m_csFindWhatArray[1].GetLength();
2412             } else {
2413                 nStartPos = m_resStart + m_csFindWhatArray[0].GetLength();
2414             }
2415         }
2416     }
2417     m_resEnd = nResultPos + m_csFindWhatArray[m_csFindWhatArray.GetSize() - 1].GetLength() - 1;
2418     m_IsFind = TRUE;
2419     int resStart = GetCharIndex(m_resStart);
2420     int resEnd = GetCharIndex(m_resEnd);
2421     m_pTextPage->GetRectArray(resStart, resEnd - resStart + 1, m_resArray);
2422     if(m_flags & FPDFTEXT_CONSECUTIVE) {
2423         m_findNextStart = m_resStart + 1;
2424         m_findPreStart = m_resEnd - 1;
2425     } else {
2426         m_findNextStart = m_resEnd + 1;
2427         m_findPreStart = m_resStart - 1;
2428     }
2429     return m_IsFind;
2430 }
2431 FX_BOOL CPDF_TextPageFind::FindPrev()
2432 {
2433     if (!m_pTextPage) {
2434         return FALSE;
2435     }
2436     m_resArray.RemoveAll();
2437     if(m_strText.IsEmpty() || m_findPreStart < 0) {
2438         m_IsFind = FALSE;
2439         return m_IsFind;
2440     }
2441     CPDF_TextPageFind findEngine(m_pTextPage);
2442     FX_BOOL ret = findEngine.FindFirst(m_findWhat, m_flags);
2443     if(!ret) {
2444         m_IsFind = FALSE;
2445         return m_IsFind;
2446     }
2447     int order = -1, MatchedCount = 0;
2448     while(ret) {
2449         ret = findEngine.FindNext();
2450         if(ret) {
2451             int order1 = findEngine.GetCurOrder() ;
2452             int MatchedCount1 = findEngine.GetMatchedCount();
2453             if(((order1 + MatchedCount1) - 1) > m_findPreStart) {
2454                 break;
2455             }
2456             order = order1;
2457             MatchedCount = MatchedCount1;
2458         }
2459     }
2460     if(order == -1) {
2461         m_IsFind = FALSE;
2462         return m_IsFind;
2463     }
2464     m_resStart = m_pTextPage->TextIndexFromCharIndex(order);
2465     m_resEnd = m_pTextPage->TextIndexFromCharIndex(order + MatchedCount - 1);
2466     m_IsFind = TRUE;
2467     m_pTextPage->GetRectArray(order, MatchedCount, m_resArray);
2468     if(m_flags & FPDFTEXT_CONSECUTIVE) {
2469         m_findNextStart = m_resStart + 1;
2470         m_findPreStart = m_resEnd - 1;
2471     } else {
2472         m_findNextStart = m_resEnd + 1;
2473         m_findPreStart = m_resStart - 1;
2474     }
2475     return m_IsFind;
2476 }
2477 void CPDF_TextPageFind::ExtractFindWhat(const CFX_WideString& findwhat)
2478 {
2479     if(findwhat.IsEmpty()) {
2480         return ;
2481     }
2482     int index = 0;
2483     while(1) {
2484         CFX_WideString csWord = TEXT_EMPTY;
2485         int ret = ExtractSubString(csWord, findwhat.c_str(), index, TEXT_BLANK_CHAR);
2486         if(csWord.IsEmpty()) {
2487             if(ret) {
2488                 m_csFindWhatArray.Add(CFX_WideString(L""));
2489                 index++;
2490                 continue;
2491             } else {
2492                 break;
2493             }
2494         }
2495         int pos = 0;
2496         while(pos < csWord.GetLength()) {
2497             CFX_WideString curStr = csWord.Mid(pos, 1);
2498             FX_WCHAR curChar = csWord.GetAt(pos);
2499             if (_IsIgnoreSpaceCharacter(curChar)) {
2500                 if (pos > 0 && curChar == 0x2019) {
2501                     pos++;
2502                     continue;
2503                 }
2504                 if (pos > 0 ) {
2505                     CFX_WideString preStr = csWord.Mid(0, pos);
2506                     m_csFindWhatArray.Add(preStr);
2507                 }
2508                 m_csFindWhatArray.Add(curStr);
2509                 if (pos == csWord.GetLength() - 1) {
2510                     csWord.Empty();
2511                     break;
2512                 }
2513                 csWord = csWord.Right(csWord.GetLength() - pos - 1);
2514                 pos = 0;
2515                 continue;
2516             }
2517             pos++;
2518         }
2519         if (!csWord.IsEmpty()) {
2520             m_csFindWhatArray.Add(csWord);
2521         }
2522         index++;
2523     }
2524 }
2525 FX_BOOL CPDF_TextPageFind::IsMatchWholeWord(const CFX_WideString& csPageText, int startPos, int endPos)
2526 {
2527     int char_left = 0;
2528     int char_right = 0;
2529     int char_count = endPos - startPos + 1;
2530     if(char_count < 1) {
2531         return FALSE;
2532     }
2533     if (char_count == 1 && csPageText.GetAt(startPos) > 255) {
2534         return TRUE;
2535     }
2536     if(startPos - 1 >= 0 ) {
2537         char_left = csPageText.GetAt(startPos - 1);
2538     }
2539     if(startPos + char_count < csPageText.GetLength()) {
2540         char_right = csPageText.GetAt(startPos + char_count);
2541     }
2542     if ((char_left > 'A' && char_left < 'a') || (char_left > 'a' && char_left < 'z') || (char_left > 0xfb00 && char_left < 0xfb06) || (char_left >= '0' && char_left <= '9') ||
2543             (char_right > 'A' && char_right < 'a') || (char_right > 'a' && char_right < 'z') || (char_right > 0xfb00 && char_right < 0xfb06) || (char_right >= '0' && char_right <= '9')) {
2544         return FALSE;
2545     }
2546     if(!(('A' > char_left || char_left > 'Z')  && ('a' > char_left || char_left > 'z')
2547             && ('A' > char_right || char_right > 'Z')  && ('a' > char_right || char_right > 'z'))) {
2548         return FALSE;
2549     }
2550     if (char_count > 0) {
2551         if (csPageText.GetAt(startPos) >= L'0' && csPageText.GetAt(startPos) <= L'9' && char_left >= L'0' && char_left <= L'9') {
2552             return FALSE;
2553         }
2554         if (csPageText.GetAt(endPos) >= L'0' && csPageText.GetAt(endPos) <= L'9' && char_right >= L'0' && char_right <= L'9') {
2555             return FALSE;
2556         }
2557     }
2558     return TRUE;
2559 }
2560 FX_BOOL CPDF_TextPageFind::ExtractSubString(CFX_WideString& rString, const FX_WCHAR* lpszFullString,
2561         int iSubString, FX_WCHAR chSep)
2562 {
2563     if (lpszFullString == NULL) {
2564         return FALSE;
2565     }
2566     while (iSubString--) {
2567         lpszFullString = FXSYS_wcschr(lpszFullString, chSep);
2568         if (lpszFullString == NULL) {
2569             rString.Empty();
2570             return FALSE;
2571         }
2572         lpszFullString++;
2573         while(*lpszFullString == chSep) {
2574             lpszFullString++;
2575         }
2576     }
2577     const FX_WCHAR* lpchEnd = FXSYS_wcschr(lpszFullString, chSep);
2578     int nLen = (lpchEnd == NULL) ?
2579                (int)FXSYS_wcslen(lpszFullString) : (int)(lpchEnd - lpszFullString);
2580     ASSERT(nLen >= 0);
2581     FXSYS_memcpy(rString.GetBuffer(nLen), lpszFullString, nLen * sizeof(FX_WCHAR));
2582     rString.ReleaseBuffer();
2583     return TRUE;
2584 }
2585 CFX_WideString CPDF_TextPageFind::MakeReverse(const CFX_WideString& str)
2586 {
2587     CFX_WideString str2;
2588     str2.Empty();
2589     int nlen = str.GetLength();
2590     for(int i = nlen - 1; i >= 0; i--) {
2591         str2 += str.GetAt(i);
2592     }
2593     return str2;
2594 }
2595 void CPDF_TextPageFind::GetRectArray(CFX_RectArray& rects) const
2596 {
2597     rects.Copy(m_resArray);
2598 }
2599 int     CPDF_TextPageFind::GetCurOrder() const
2600 {
2601     return GetCharIndex(m_resStart);
2602 }
2603 int     CPDF_TextPageFind::GetMatchedCount()const
2604 {
2605     int resStart = GetCharIndex(m_resStart);
2606     int resEnd = GetCharIndex(m_resEnd);
2607     return resEnd - resStart + 1;
2608 }
2609 CPDF_LinkExtract::CPDF_LinkExtract()
2610     : m_pTextPage(NULL),
2611       m_IsParserd(FALSE)
2612 {
2613 }
2614 CPDF_LinkExtract::~CPDF_LinkExtract()
2615 {
2616     DeleteLinkList();
2617 }
2618 FX_BOOL CPDF_LinkExtract::ExtractLinks(const IPDF_TextPage* pTextPage)
2619 {
2620     if (!pTextPage || !pTextPage->IsParsered()) {
2621         return FALSE;
2622     }
2623     m_pTextPage = (const CPDF_TextPage*)pTextPage;
2624     m_strPageText = m_pTextPage->GetPageText(0, -1);
2625     DeleteLinkList();
2626     if (m_strPageText.IsEmpty()) {
2627         return FALSE;
2628     }
2629     parserLink();
2630     m_IsParserd = TRUE;
2631     return TRUE;
2632 }
2633 void CPDF_LinkExtract::DeleteLinkList()
2634 {
2635     while (m_LinkList.GetSize()) {
2636         CPDF_LinkExt* linkinfo = NULL;
2637         linkinfo = m_LinkList.GetAt(0);
2638         m_LinkList.RemoveAt(0);
2639         delete linkinfo;
2640     }
2641     m_LinkList.RemoveAll();
2642 }
2643 int CPDF_LinkExtract::CountLinks() const
2644 {
2645     if (!m_IsParserd)   {
2646         return -1;
2647     }
2648     return m_LinkList.GetSize();
2649 }
2650 void CPDF_LinkExtract::parserLink()
2651 {
2652     int start = 0, pos = 0;
2653     int TotalChar = m_pTextPage->CountChars();
2654     while (pos < TotalChar) {
2655         FPDF_CHAR_INFO pageChar;
2656         m_pTextPage->GetCharInfo(pos, pageChar);
2657         if (pageChar.m_Flag == CHAR_GENERATED || pageChar.m_Unicode == 0x20 || pos == TotalChar - 1) {
2658             int nCount = pos - start;
2659             if(pos == TotalChar - 1) {
2660                 nCount++;
2661             }
2662             CFX_WideString strBeCheck;
2663             strBeCheck = m_pTextPage->GetPageText(start, nCount);
2664             if (strBeCheck.GetLength() > 5) {
2665                 while(strBeCheck.GetLength() > 0) {
2666                     FX_WCHAR ch = strBeCheck.GetAt(strBeCheck.GetLength() - 1);
2667                     if (ch == L')' || ch == L',' || ch == L'>' || ch == L'.') {
2668                         strBeCheck = strBeCheck.Mid(0, strBeCheck.GetLength() - 1);
2669                         nCount--;
2670                     } else {
2671                         break;
2672                     }
2673                 }
2674                 if (nCount > 5 && (CheckWebLink(strBeCheck) || CheckMailLink(strBeCheck))) {
2675                     if (!AppendToLinkList(start, nCount, strBeCheck)) {
2676                         break;
2677                     }
2678                 }
2679             }
2680             start = ++pos;
2681         } else {
2682             pos++;
2683         }
2684     }
2685 }
2686 FX_BOOL CPDF_LinkExtract::CheckWebLink(CFX_WideString& strBeCheck)
2687 {
2688     CFX_WideString str = strBeCheck;
2689     str.MakeLower();
2690     if (str.Find(L"http://www.") != -1) {
2691         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"http://www."));
2692         return TRUE;
2693     } else if (str.Find(L"http://") != -1) {
2694         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"http://"));
2695         return TRUE;
2696     } else if (str.Find(L"https://www.") != -1) {
2697         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"https://www."));
2698         return TRUE;
2699     } else if (str.Find(L"https://") != -1) {
2700         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"https://"));
2701         return TRUE;
2702     } else if (str.Find(L"www.") != -1) {
2703         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"www."));
2704         strBeCheck = L"http://" + strBeCheck;
2705         return TRUE;
2706     } else {
2707         return FALSE;
2708     }
2709 }
2710 FX_BOOL CPDF_LinkExtract::CheckMailLink(CFX_WideString& str)
2711 {
2712     str.MakeLower();
2713     int aPos = str.Find(L'@');
2714     if (aPos < 1) {
2715         return FALSE;
2716     }
2717     if (str.GetAt(aPos - 1) == L'.' || str.GetAt(aPos - 1) == L'_') {
2718         return FALSE;
2719     }
2720     int i;
2721     for (i = aPos - 1; i >= 0; i--) {
2722         FX_WCHAR ch = str.GetAt(i);
2723         if (ch == L'_' || ch == L'.' || (ch >= L'a' && ch <= L'z') || (ch >= L'0' && ch <= L'9')) {
2724             continue;
2725         } else {
2726             if (i == aPos - 1) {
2727                 return FALSE;
2728             }
2729             str = str.Right(str.GetLength() - i - 1);
2730             break;
2731         }
2732     }
2733     aPos = str.Find(L'@');
2734     if (aPos < 1) {
2735         return FALSE;
2736     }
2737     CFX_WideString strtemp = L"";
2738     for (i = 0; i < aPos; i++) {
2739         FX_WCHAR wch = str.GetAt(i);
2740         if (wch >= L'a' && wch <= L'z') {
2741             break;
2742         } else {
2743             strtemp = str.Right(str.GetLength() - i + 1);
2744         }
2745     }
2746     if (strtemp != L"") {
2747         str = strtemp;
2748     }
2749     aPos = str.Find(L'@');
2750     if (aPos < 1) {
2751         return FALSE;
2752     }
2753     str.TrimRight(L'.');
2754     strtemp = str;
2755     int ePos = str.Find(L'.');
2756     if (ePos == -1) {
2757         return FALSE;
2758     }
2759     while (ePos != -1) {
2760         strtemp = strtemp.Right(strtemp.GetLength() - ePos - 1);
2761         ePos = strtemp.Find('.');
2762     }
2763     ePos = strtemp.GetLength();
2764     for (i = 0; i < ePos; i++) {
2765         FX_WCHAR wch = str.GetAt(i);
2766         if ((wch >= L'a' && wch <= L'z') || (wch >= L'0' && wch <= L'9')) {
2767             continue;
2768         } else {
2769             str = str.Left(str.GetLength() - ePos + i + 1);
2770             ePos = ePos - i - 1;
2771             break;
2772         }
2773     }
2774     int nLen = str.GetLength();
2775     for (i = aPos + 1; i < nLen - ePos; i++) {
2776         FX_WCHAR wch = str.GetAt(i);
2777         if (wch == L'-' || wch == L'.' || (wch >= L'a' && wch <= L'z') || (wch >= L'0' && wch <= L'9')) {
2778             continue;
2779         } else {
2780             return FALSE;
2781         }
2782     }
2783     if (str.Find(L"mailto:") == -1) {
2784         str = L"mailto:" + str;
2785     }
2786     return TRUE;
2787 }
2788 FX_BOOL CPDF_LinkExtract::AppendToLinkList(int start, int count, const CFX_WideString& strUrl)
2789 {
2790     CPDF_LinkExt* linkInfo = NULL;
2791     linkInfo = FX_NEW CPDF_LinkExt;
2792     if (!linkInfo) {
2793         return FALSE;
2794     }
2795     linkInfo->m_strUrl = strUrl;
2796     linkInfo->m_Start = start;
2797     linkInfo->m_Count = count;
2798     m_LinkList.Add(linkInfo);
2799     return TRUE;
2800 }
2801 CFX_WideString CPDF_LinkExtract::GetURL(int index) const
2802 {
2803     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2804         return L"";
2805     }
2806     CPDF_LinkExt* link = NULL;
2807     link = m_LinkList.GetAt(index);
2808     if (!link) {
2809         return L"";
2810     }
2811     return link->m_strUrl;
2812 }
2813 void CPDF_LinkExtract::GetBoundedSegment(int index, int& start, int& count) const
2814 {
2815     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2816         return ;
2817     }
2818     CPDF_LinkExt* link = NULL;
2819     link = m_LinkList.GetAt(index);
2820     if (!link) {
2821         return ;
2822     }
2823     start = link->m_Start;
2824     count = link->m_Count;
2825 }
2826 void CPDF_LinkExtract::GetRects(int index, CFX_RectArray& rects) const
2827 {
2828     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2829         return;
2830     }
2831     CPDF_LinkExt* link = NULL;
2832     link = m_LinkList.GetAt(index);
2833     if (!link) {
2834         return ;
2835     }
2836     m_pTextPage->GetRectArray(link->m_Start, link->m_Count, rects);
2837 }