712de4893c1dd4278b2d3d5ac47674c47638755c
[pdfium.git] / core / src / fpdftext / fpdf_text_int.cpp
1 // Copyright 2014 PDFium Authors. All rights reserved.
2 // Use of this source code is governed by a BSD-style license that can be
3 // found in the LICENSE file.
4
5 // Original code copyright 2014 Foxit Software Inc. http://www.foxitsoftware.com
6
7 #include <ctype.h>
8 #include <algorithm>
9
10 #include "../../include/fpdfapi/fpdf_module.h"
11 #include "../../include/fpdfapi/fpdf_page.h"
12 #include "../../include/fpdfapi/fpdf_pageobj.h"
13 #include "../../include/fpdfapi/fpdf_resource.h"
14 #include "../../include/fpdftext/fpdf_text.h"
15 #include "../../include/fxcrt/fx_arb.h"
16 #include "../../include/fxcrt/fx_ucd.h"
17 #include "text_int.h"
18
19 namespace {
20
21 FX_BOOL _IsIgnoreSpaceCharacter(FX_WCHAR curChar)
22 {
23     if(curChar < 255 ) {
24         return FALSE;
25     }
26     if ( (curChar >= 0x0600 && curChar <= 0x06FF)
27             || (curChar >= 0xFE70 && curChar <= 0xFEFF)
28             || (curChar >= 0xFB50 && curChar <= 0xFDFF)
29             || (curChar >= 0x0400 && curChar <= 0x04FF)
30             || (curChar >= 0x0500 && curChar <= 0x052F)
31             || (curChar >= 0xA640 && curChar <= 0xA69F)
32             || (curChar >= 0x2DE0 && curChar <= 0x2DFF)
33             || curChar == 8467
34             || (curChar >= 0x2000 && curChar <= 0x206F)) {
35         return FALSE;
36     }
37     return TRUE;
38 }
39
40 FX_FLOAT _NormalizeThreshold(FX_FLOAT threshold)
41 {
42     if (threshold < 300) {
43         return threshold / 2.0f;
44     } else if (threshold < 500) {
45         return threshold / 4.0f;
46     } else if (threshold < 700) {
47         return threshold / 5.0f;
48     }
49     return threshold / 6.0f;
50 }
51
52 FX_FLOAT _CalculateBaseSpace(const CPDF_TextObject* pTextObj,
53                              const CFX_AffineMatrix& matrix)
54 {
55     FX_FLOAT baseSpace = 0.0;
56     const int nItems = pTextObj->CountItems();
57     if (pTextObj->m_TextState.GetObject()->m_CharSpace && nItems >= 3) {
58         FX_BOOL bAllChar = TRUE;
59         FX_FLOAT spacing = matrix.TransformDistance(
60             pTextObj->m_TextState.GetObject()->m_CharSpace);
61         baseSpace = spacing;
62         for (int i = 0; i < nItems; i++) {
63             CPDF_TextObjectItem item;
64             pTextObj->GetItemInfo(i, &item);
65             if (item.m_CharCode == (FX_DWORD) - 1) {
66                 FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
67                 FX_FLOAT kerning = -fontsize_h * item.m_OriginX / 1000;
68                 baseSpace = std::min(baseSpace, kerning + spacing);
69                 bAllChar = FALSE;
70             }
71         }
72         if (baseSpace < 0.0 || (nItems == 3 && !bAllChar)) {
73             baseSpace = 0.0;
74         }
75     }
76     return baseSpace;
77 }
78
79 }  // namespace
80
81 CPDFText_ParseOptions::CPDFText_ParseOptions()
82     : m_bGetCharCodeOnly(FALSE), m_bNormalizeObjs(TRUE), m_bOutputHyphen(FALSE)
83 {
84 }
85 IPDF_TextPage* IPDF_TextPage::CreateTextPage(const CPDF_Page* pPage, CPDFText_ParseOptions ParserOptions)
86 {
87     return new CPDF_TextPage(pPage, ParserOptions);
88 }
89 IPDF_TextPage* IPDF_TextPage::CreateTextPage(const CPDF_Page* pPage, int flags)
90 {
91     return new CPDF_TextPage(pPage, flags);
92 }
93 IPDF_TextPage*  IPDF_TextPage::CreateTextPage(const CPDF_PageObjects* pObjs, int flags)
94 {
95     return new CPDF_TextPage(pObjs, flags);
96 }
97 IPDF_TextPageFind*      IPDF_TextPageFind::CreatePageFind(const IPDF_TextPage* pTextPage)
98 {
99     if (!pTextPage) {
100         return NULL;
101     }
102     return new CPDF_TextPageFind(pTextPage);
103 }
104 IPDF_LinkExtract* IPDF_LinkExtract::CreateLinkExtract()
105 {
106     return new CPDF_LinkExtract();
107 }
108 #define  TEXT_BLANK_CHAR                L' '
109 #define  TEXT_LINEFEED_CHAR             L'\n'
110 #define  TEXT_RETURN_CHAR               L'\r'
111 #define  TEXT_EMPTY                             L""
112 #define  TEXT_BLANK                             L" "
113 #define  TEXT_RETURN_LINEFEED   L"\r\n"
114 #define  TEXT_LINEFEED                  L"\n"
115 #define  TEXT_CHARRATIO_GAPDELTA        0.070
116 CPDF_TextPage::CPDF_TextPage(const CPDF_Page* pPage, int flags)
117     : m_charList(512),
118       m_TempCharList(50),
119       m_pPreTextObj(NULL),
120       m_IsParsered(FALSE),
121       m_TextlineDir(-1),
122       m_CurlineRect(0, 0, 0, 0)
123 {
124     m_pPage = pPage;
125     m_parserflag = flags;
126     m_TextBuf.EstimateSize(0, 10240);
127     pPage->GetDisplayMatrix(m_DisplayMatrix, 0, 0, (int) pPage->GetPageWidth(), (int)pPage->GetPageHeight(), 0);
128 }
129 CPDF_TextPage::CPDF_TextPage(const CPDF_Page* pPage, CPDFText_ParseOptions ParserOptions)
130     : m_ParseOptions(ParserOptions)
131     , m_charList(512)
132     , m_TempCharList(50)
133     , m_pPreTextObj(NULL)
134     , m_IsParsered(FALSE)
135     , m_TextlineDir(-1)
136     , m_CurlineRect(0, 0, 0, 0)
137 {
138     m_pPage = pPage;
139     m_parserflag = 0;
140     m_TextBuf.EstimateSize(0, 10240);
141     pPage->GetDisplayMatrix(m_DisplayMatrix, 0, 0, (int) pPage->GetPageWidth(), (int)pPage->GetPageHeight(), 0);
142 }
143 CPDF_TextPage::CPDF_TextPage(const CPDF_PageObjects* pPage, int flags)
144     : m_charList(512),
145       m_TempCharList(50),
146       m_pPreTextObj(NULL),
147       m_IsParsered(FALSE),
148       m_TextlineDir(-1),
149       m_CurlineRect(0, 0, 0, 0)
150 {
151     m_pPage = pPage;
152     m_parserflag = flags;
153     m_TextBuf.EstimateSize(0, 10240);
154     CFX_FloatRect pageRect = pPage->CalcBoundingBox();
155     m_DisplayMatrix = CFX_AffineMatrix(1, 0, 0, -1, pageRect.right, pageRect.top);
156 }
157 void CPDF_TextPage::NormalizeObjects(FX_BOOL bNormalize)
158 {
159     m_ParseOptions.m_bNormalizeObjs = bNormalize;
160 }
161 FX_BOOL CPDF_TextPage::IsControlChar(PAGECHAR_INFO* pCharInfo)
162 {
163     if(!pCharInfo) {
164         return FALSE;
165     }
166     switch(pCharInfo->m_Unicode) {
167         case 0x2:
168         case 0x3:
169         case 0x93:
170         case 0x94:
171         case 0x96:
172         case 0x97:
173         case 0x98:
174         case 0xfffe:
175             if(pCharInfo->m_Flag == FPDFTEXT_CHAR_HYPHEN) {
176                 return FALSE;
177             } else {
178                 return TRUE;
179             }
180         default:
181             return FALSE;
182     }
183 }
184 FX_BOOL CPDF_TextPage::ParseTextPage()
185 {
186     if (!m_pPage) {
187         m_IsParsered = FALSE;
188         return FALSE;
189     }
190     m_IsParsered = FALSE;
191     m_TextBuf.Clear();
192     m_charList.RemoveAll();
193     m_pPreTextObj = NULL;
194     ProcessObject();
195     m_IsParsered = TRUE;
196     if(!m_ParseOptions.m_bGetCharCodeOnly) {
197         m_CharIndex.RemoveAll();
198         int nCount = m_charList.GetSize();
199         if(nCount) {
200             m_CharIndex.Add(0);
201         }
202         for(int i = 0; i < nCount; i++) {
203             int indexSize = m_CharIndex.GetSize();
204             FX_BOOL bNormal = FALSE;
205             PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(i);
206             if(charinfo.m_Flag == FPDFTEXT_CHAR_GENERATED) {
207                 bNormal = TRUE;
208             }
209             else if(charinfo.m_Unicode == 0 || IsControlChar(&charinfo))
210                 bNormal = FALSE;
211             else {
212                 bNormal = TRUE;
213             }
214             if(bNormal) {
215                 if(indexSize % 2) {
216                     m_CharIndex.Add(1);
217                 } else {
218                     if(indexSize <= 0) {
219                         continue;
220                     }
221                     m_CharIndex.SetAt(indexSize - 1, m_CharIndex.GetAt(indexSize - 1) + 1);
222                 }
223             } else {
224                 if(indexSize % 2) {
225                     if(indexSize <= 0) {
226                         continue;
227                     }
228                     m_CharIndex.SetAt(indexSize - 1, i + 1);
229                 } else {
230                     m_CharIndex.Add(i + 1);
231                 }
232             }
233         }
234         int indexSize = m_CharIndex.GetSize();
235         if(indexSize % 2) {
236             m_CharIndex.RemoveAt(indexSize - 1);
237         }
238     }
239     return TRUE;
240 }
241 int     CPDF_TextPage::CountChars() const
242 {
243     if(m_ParseOptions.m_bGetCharCodeOnly) {
244         return m_TextBuf.GetSize();
245     }
246     return m_charList.GetSize();
247 }
248 int CPDF_TextPage::CharIndexFromTextIndex(int TextIndex) const
249 {
250     int indexSize = m_CharIndex.GetSize();
251     int count = 0;
252     for(int i = 0; i < indexSize; i += 2) {
253         count += m_CharIndex.GetAt(i + 1);
254         if(count > TextIndex) {
255             return      TextIndex - count + m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i);
256         }
257     }
258     return -1;
259 }
260 int CPDF_TextPage::TextIndexFromCharIndex(int CharIndex) const
261 {
262     int indexSize = m_CharIndex.GetSize();
263     int count = 0;
264     for(int i = 0; i < indexSize; i += 2) {
265         count += m_CharIndex.GetAt(i + 1);
266         if(m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i) > CharIndex) {
267             if(CharIndex - m_CharIndex.GetAt(i) < 0) {
268                 return -1;
269             }
270             return      CharIndex - m_CharIndex.GetAt(i) + count - m_CharIndex.GetAt(i + 1);
271         }
272     }
273     return -1;
274 }
275 void CPDF_TextPage::GetRectArray(int start, int nCount, CFX_RectArray& rectArray) const
276 {
277     if(m_ParseOptions.m_bGetCharCodeOnly) {
278         return;
279     }
280     if(start < 0 || nCount == 0) {
281         return;
282     }
283     if (!m_IsParsered)  {
284         return;
285     }
286     PAGECHAR_INFO               info_curchar;
287     CPDF_TextObject*    pCurObj = NULL;
288     CFX_FloatRect               rect;
289     int                                 curPos = start;
290     FX_BOOL                             flagNewRect = TRUE;
291     if (nCount + start > m_charList.GetSize() || nCount == -1) {
292         nCount = m_charList.GetSize() - start;
293     }
294     while (nCount--) {
295         info_curchar = *(PAGECHAR_INFO*)m_charList.GetAt(curPos++);
296         if (info_curchar.m_Flag == FPDFTEXT_CHAR_GENERATED) {
297             continue;
298         }
299         if(info_curchar.m_CharBox.Width() < 0.01 || info_curchar.m_CharBox.Height() < 0.01) {
300             continue;
301         }
302         if(!pCurObj) {
303             pCurObj = info_curchar.m_pTextObj;
304         }
305         if (pCurObj != info_curchar.m_pTextObj) {
306             rectArray.Add(rect);
307             pCurObj = info_curchar.m_pTextObj;
308             flagNewRect = TRUE;
309         }
310         if (flagNewRect) {
311             FX_FLOAT orgX = info_curchar.m_OriginX, orgY = info_curchar.m_OriginY;
312             CFX_AffineMatrix matrix, matrix_reverse;
313             info_curchar.m_pTextObj->GetTextMatrix(&matrix);
314             matrix.Concat(info_curchar.m_Matrix);
315             matrix_reverse.SetReverse(matrix);
316             matrix_reverse.Transform(orgX, orgY);
317             rect.left = info_curchar.m_CharBox.left;
318             rect.right = info_curchar.m_CharBox.right;
319             if (pCurObj->GetFont()->GetTypeDescent()) {
320                 rect.bottom = orgY + pCurObj->GetFont()->GetTypeDescent() * pCurObj->GetFontSize() / 1000;
321                 FX_FLOAT xPosTemp = orgX;
322                 matrix.Transform(xPosTemp, rect.bottom);
323             } else {
324                 rect.bottom = info_curchar.m_CharBox.bottom;
325             }
326             if (pCurObj->GetFont()->GetTypeAscent()) {
327                 rect.top = orgY + pCurObj->GetFont()->GetTypeAscent() * pCurObj->GetFontSize() / 1000;
328                 FX_FLOAT xPosTemp = orgX + GetCharWidth(info_curchar.m_CharCode, pCurObj->GetFont()) * pCurObj->GetFontSize() / 1000;
329                 matrix.Transform(xPosTemp, rect.top);
330             } else {
331                 rect.top = info_curchar.m_CharBox.top;
332             }
333             flagNewRect = FALSE;
334             rect = info_curchar.m_CharBox;
335             rect.Normalize();
336         } else {
337             info_curchar.m_CharBox.Normalize();
338             if (rect.left > info_curchar.m_CharBox.left) {
339                 rect.left = info_curchar.m_CharBox.left;
340             }
341             if (rect.right < info_curchar.m_CharBox.right) {
342                 rect.right = info_curchar.m_CharBox.right;
343             }
344             if ( rect.top < info_curchar.m_CharBox.top) {
345                 rect.top = info_curchar.m_CharBox.top;
346             }
347             if (rect.bottom > info_curchar.m_CharBox.bottom) {
348                 rect.bottom = info_curchar.m_CharBox.bottom;
349             }
350         }
351     }
352     rectArray.Add(rect);
353     return;
354 }
355 int CPDF_TextPage::GetIndexAtPos(CPDF_Point point , FX_FLOAT xTorelance, FX_FLOAT yTorelance) const
356 {
357     if(m_ParseOptions.m_bGetCharCodeOnly) {
358         return -3;
359     }
360     if (!m_IsParsered)  {
361         return  -3;
362     }
363     int pos = 0;
364     int NearPos = -1;
365     double xdif = 5000, ydif = 5000;
366     while(pos < m_charList.GetSize()) {
367         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)(m_charList.GetAt(pos));
368         CFX_FloatRect charrect = charinfo.m_CharBox;
369         if (charrect.Contains(point.x, point.y)) {
370             break;
371         }
372         if (xTorelance > 0 || yTorelance > 0) {
373             CFX_FloatRect charRectExt;
374             charrect.Normalize();
375             charRectExt.left = charrect.left - xTorelance / 2;
376             charRectExt.right = charrect.right + xTorelance / 2;
377             charRectExt.top = charrect.top + yTorelance / 2;
378             charRectExt.bottom = charrect.bottom - yTorelance / 2;
379             if (charRectExt.Contains(point.x, point.y)) {
380                 double curXdif, curYdif;
381                 curXdif = FXSYS_fabs(point.x - charrect.left) < FXSYS_fabs(point.x - charrect.right) ? FXSYS_fabs(point.x - charrect.left) : FXSYS_fabs(point.x - charrect.right);
382                 curYdif = FXSYS_fabs(point.y - charrect.bottom) < FXSYS_fabs(point.y - charrect.top     ) ? FXSYS_fabs(point.y - charrect.bottom) : FXSYS_fabs(point.y - charrect.top);
383                 if (curYdif + curXdif < xdif + ydif) {
384                     ydif = curYdif;
385                     xdif = curXdif;
386                     NearPos = pos;
387                 }
388             }
389         }
390         ++pos;
391     }
392     if (pos >= m_charList.GetSize()) {
393         pos = NearPos;
394     }
395     return pos;
396 }
397 CFX_WideString CPDF_TextPage::GetTextByRect(const CFX_FloatRect& rect) const
398 {
399     CFX_WideString strText;
400     if(m_ParseOptions.m_bGetCharCodeOnly || !m_IsParsered) {
401         return strText;
402     }
403     int nCount = m_charList.GetSize();
404     int pos = 0;
405     FX_FLOAT posy = 0;
406     FX_BOOL IsContainPreChar = FALSE;
407     FX_BOOL     ISAddLineFeed = FALSE;
408     while (pos < nCount) {
409         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(pos++);
410         if (IsRectIntersect(rect, charinfo.m_CharBox)) {
411             if (FXSYS_fabs(posy - charinfo.m_OriginY) > 0 && !IsContainPreChar && ISAddLineFeed) {
412                 posy = charinfo.m_OriginY;
413                 if (strText.GetLength() > 0) {
414                     strText += L"\r\n";
415                 }
416             }
417             IsContainPreChar = TRUE;
418             ISAddLineFeed = FALSE;
419             if (charinfo.m_Unicode) {
420                 strText += charinfo.m_Unicode;
421             }
422         } else if (charinfo.m_Unicode == 32) {
423             if (IsContainPreChar && charinfo.m_Unicode) {
424                 strText += charinfo.m_Unicode;
425                 IsContainPreChar = FALSE;
426                 ISAddLineFeed = FALSE;
427             }
428         } else {
429             IsContainPreChar = FALSE;
430             ISAddLineFeed = TRUE;
431         }
432     }
433     return strText;
434 }
435 void CPDF_TextPage::GetRectsArrayByRect(const CFX_FloatRect& rect, CFX_RectArray& resRectArray) const
436 {
437     if(m_ParseOptions.m_bGetCharCodeOnly) {
438         return;
439     }
440     if (!m_IsParsered)  {
441         return;
442     }
443     CFX_FloatRect               curRect;
444     FX_BOOL                             flagNewRect = TRUE;
445     CPDF_TextObject*    pCurObj = NULL;
446     int nCount = m_charList.GetSize();
447     int pos = 0;
448     while (pos < nCount) {
449         PAGECHAR_INFO info_curchar = *(PAGECHAR_INFO*)m_charList.GetAt(pos++);
450         if (info_curchar.m_Flag == FPDFTEXT_CHAR_GENERATED) {
451             continue;
452         }
453         if (IsRectIntersect(rect, info_curchar.m_CharBox)) {
454             if(!pCurObj) {
455                 pCurObj = info_curchar.m_pTextObj;
456             }
457             if (pCurObj != info_curchar.m_pTextObj) {
458                 resRectArray.Add(curRect);
459                 pCurObj = info_curchar.m_pTextObj;
460                 flagNewRect = TRUE;
461             }
462             if (flagNewRect) {
463                 curRect = info_curchar.m_CharBox;
464                 flagNewRect = FALSE;
465                 curRect.Normalize();
466             } else {
467                 info_curchar.m_CharBox.Normalize();
468                 if (curRect.left > info_curchar.m_CharBox.left) {
469                     curRect.left = info_curchar.m_CharBox.left;
470                 }
471                 if (curRect.right < info_curchar.m_CharBox.right) {
472                     curRect.right = info_curchar.m_CharBox.right;
473                 }
474                 if ( curRect.top < info_curchar.m_CharBox.top) {
475                     curRect.top = info_curchar.m_CharBox.top;
476                 }
477                 if (curRect.bottom > info_curchar.m_CharBox.bottom) {
478                     curRect.bottom = info_curchar.m_CharBox.bottom;
479                 }
480             }
481         }
482     }
483     resRectArray.Add(curRect);
484     return;
485 }
486 int     CPDF_TextPage::GetIndexAtPos(FX_FLOAT x, FX_FLOAT y, FX_FLOAT xTorelance, FX_FLOAT yTorelance) const
487 {
488     if(m_ParseOptions.m_bGetCharCodeOnly) {
489         return -3;
490     }
491     CPDF_Point point(x, y);
492     return GetIndexAtPos(point, xTorelance, yTorelance);
493 }
494 int CPDF_TextPage::GetOrderByDirection(int order, int direction) const
495 {
496     if(m_ParseOptions.m_bGetCharCodeOnly) {
497         return -3;
498     }
499     if (!m_IsParsered) {
500         return -3;
501     }
502     if (direction == FPDFTEXT_RIGHT || direction == FPDFTEXT_LEFT) {
503         order += direction;
504         while(order >= 0 && order < m_charList.GetSize()) {
505             PAGECHAR_INFO cinfo = *(PAGECHAR_INFO*)m_charList.GetAt(order);
506             if (cinfo.m_Flag != FPDFTEXT_CHAR_GENERATED) {
507                 break;
508             } else {
509                 if (cinfo.m_Unicode == TEXT_LINEFEED_CHAR || cinfo.m_Unicode == TEXT_RETURN_CHAR) {
510                     order += direction;
511                 } else {
512                     break;
513                 }
514             }
515         }
516         if (order >= m_charList.GetSize()) {
517             order = -2;
518         }
519         return order;
520     }
521     PAGECHAR_INFO charinfo;
522     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(order);
523     CPDF_Point curPos(charinfo.m_OriginX, charinfo.m_OriginY);
524     FX_FLOAT difPosY = 0.0, minXdif = 1000;
525     int minIndex = -2;
526     int index = order;
527     FX_FLOAT height = charinfo.m_CharBox.Height();
528     if (direction == FPDFTEXT_UP) {
529         minIndex = -1;
530         while (1) {
531             if (--index < 0)    {
532                 return -1;
533             }
534             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
535             if (FXSYS_fabs(charinfo.m_OriginY - curPos.y) > FX_MAX(height, charinfo.m_CharBox.Height()) / 2) {
536                 difPosY = charinfo.m_OriginY;
537                 minIndex = index;
538                 break;
539             }
540         }
541         FX_FLOAT PreXdif = charinfo.m_OriginX - curPos.x;
542         minXdif = PreXdif;
543         if (PreXdif == 0)       {
544             return index;
545         }
546         FX_FLOAT curXdif = 0;
547         while (--index >= 0) {
548             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
549             if (difPosY != charinfo.m_OriginY) {
550                 break;
551             }
552             curXdif = charinfo.m_OriginX - curPos.x;
553             if (curXdif == 0) {
554                 return index;
555             }
556             int signflag = 0;
557             if (curXdif > 0) {
558                 signflag = 1;
559             } else {
560                 signflag = -1;
561             }
562             if (signflag * PreXdif < 0) {
563                 if (FXSYS_fabs(PreXdif) < FXSYS_fabs(curXdif)) {
564                     return index + 1;
565                 } else {
566                     return index;
567                 }
568             }
569             if (FXSYS_fabs(curXdif) < FXSYS_fabs(minXdif)) {
570                 minIndex = index;
571                 minXdif = curXdif;
572             }
573             PreXdif = curXdif;
574             if (difPosY != charinfo.m_OriginY) {
575                 break;
576             }
577         }
578         return minIndex;
579     } else if(FPDFTEXT_DOWN) {
580         minIndex = -2;
581         while (1) {
582             if (++index > m_charList.GetSize() - 1)     {
583                 return minIndex;
584             }
585             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
586             if (FXSYS_fabs(charinfo.m_OriginY - curPos.y) > FX_MAX(height, charinfo.m_CharBox.Height()) / 2) {
587                 difPosY = charinfo.m_OriginY;
588                 minIndex = index;
589                 break;
590             }
591         }
592         FX_FLOAT PreXdif = charinfo.m_OriginX - curPos.x;
593         minXdif = PreXdif;
594         if (PreXdif == 0)       {
595             return index;
596         }
597         FX_FLOAT curXdif = 0;
598         while (++index < m_charList.GetSize()) {
599             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
600             if (difPosY != charinfo.m_OriginY) {
601                 break;
602             }
603             curXdif = charinfo.m_OriginX - curPos.x;
604             if (curXdif == 0) {
605                 return index;
606             }
607             int signflag = 0;
608             if (curXdif > 0) {
609                 signflag = 1;
610             } else {
611                 signflag = -1;
612             }
613             if (signflag * PreXdif < 0) {
614                 if (FXSYS_fabs(PreXdif) < FXSYS_fabs(curXdif)) {
615                     return index - 1;
616                 } else {
617                     return index;
618                 }
619             }
620             if (FXSYS_fabs(curXdif) < FXSYS_fabs(minXdif)) {
621                 minXdif = curXdif;
622                 minIndex = index;
623             }
624             PreXdif = curXdif;
625         }
626         return minIndex;
627     }
628 }
629 void CPDF_TextPage::GetCharInfo(int index, FPDF_CHAR_INFO & info) const
630 {
631     if(m_ParseOptions.m_bGetCharCodeOnly) {
632         return;
633     }
634     if (!m_IsParsered)  {
635         return;
636     }
637     if (index < 0 || index >= m_charList.GetSize())     {
638         return;
639     }
640     PAGECHAR_INFO charinfo;
641     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
642     info.m_Charcode = charinfo.m_CharCode;
643     info.m_OriginX = charinfo.m_OriginX;
644     info.m_OriginY = charinfo.m_OriginY;
645     info.m_Unicode = charinfo.m_Unicode;
646     info.m_Flag = charinfo.m_Flag;
647     info.m_CharBox = charinfo.m_CharBox;
648     info.m_pTextObj = charinfo.m_pTextObj;
649     if (charinfo.m_pTextObj && charinfo.m_pTextObj->GetFont()) {
650         info.m_FontSize = charinfo.m_pTextObj->GetFontSize();
651     }
652     info.m_Matrix.Copy(charinfo.m_Matrix);
653     return;
654 }
655 void CPDF_TextPage::CheckMarkedContentObject(int32_t& start, int32_t& nCount) const
656 {
657     PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start);
658     PAGECHAR_INFO charinfo2 = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - 1);
659     if (FPDFTEXT_CHAR_PIECE != charinfo.m_Flag && FPDFTEXT_CHAR_PIECE != charinfo2.m_Flag) {
660         return;
661     }
662     if (FPDFTEXT_CHAR_PIECE == charinfo.m_Flag) {
663         PAGECHAR_INFO charinfo1 = charinfo;
664         int startIndex = start;
665         while(FPDFTEXT_CHAR_PIECE == charinfo1.m_Flag && charinfo1.m_Index == charinfo.m_Index) {
666             startIndex--;
667             if (startIndex < 0) {
668                 break;
669             }
670             charinfo1 = *(PAGECHAR_INFO*)m_charList.GetAt(startIndex);
671         }
672         startIndex++;
673         start = startIndex;
674     }
675     if (FPDFTEXT_CHAR_PIECE == charinfo2.m_Flag) {
676         PAGECHAR_INFO charinfo3 = charinfo2;
677         int endIndex = start + nCount - 1;
678         while(FPDFTEXT_CHAR_PIECE == charinfo3.m_Flag && charinfo3.m_Index == charinfo2.m_Index) {
679             endIndex++;
680             if (endIndex >= m_charList.GetSize())       {
681                 break;
682             }
683             charinfo3 = *(PAGECHAR_INFO*)m_charList.GetAt(endIndex);
684         }
685         endIndex--;
686         nCount = endIndex - start + 1;
687     }
688 }
689 CFX_WideString CPDF_TextPage::GetPageText(int start , int nCount) const
690 {
691     if (!m_IsParsered || nCount == 0) {
692         return L"";
693     }
694     if (start < 0) {
695         start = 0;
696     }
697     if  (nCount == -1) {
698         nCount = m_charList.GetSize() - start;
699         return m_TextBuf.GetWideString().Mid(start, m_TextBuf.GetWideString().GetLength());
700     }
701     if(nCount <= 0 || m_charList.GetSize() <= 0) {
702         return L"";
703     }
704     if(nCount + start > m_charList.GetSize() - 1) {
705         nCount = m_charList.GetSize() - start;
706     }
707     if (nCount <= 0) {
708         return L"";
709     }
710     CheckMarkedContentObject(start, nCount);
711     int startindex = 0;
712     PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start);
713     int startOffset = 0;
714     while(charinfo.m_Index == -1) {
715         startOffset++;
716         if (startOffset > nCount || start + startOffset >= m_charList.GetSize())        {
717             return L"";
718         }
719         charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + startOffset);
720     }
721     startindex = charinfo.m_Index;
722     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - 1);
723     int nCountOffset = 0;
724     while (charinfo.m_Index == -1) {
725         nCountOffset++;
726         if (nCountOffset >= nCount) {
727             return L"";
728         }
729         charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - nCountOffset - 1);
730     }
731     nCount = start + nCount - nCountOffset - startindex;
732     if(nCount <= 0) {
733         return L"";
734     }
735     return m_TextBuf.GetWideString().Mid(startindex, nCount);
736 }
737 int CPDF_TextPage::CountRects(int start, int nCount)
738 {
739     if(m_ParseOptions.m_bGetCharCodeOnly) {
740         return -1;
741     }
742     if (!m_IsParsered)  {
743         return -1;
744     }
745     if (start < 0) {
746         return -1;
747     }
748     if (nCount == -1 || nCount + start > m_charList.GetSize() ) {
749         nCount = m_charList.GetSize() - start;
750     }
751     m_SelRects.RemoveAll();
752     GetRectArray(start, nCount, m_SelRects);
753     return m_SelRects.GetSize();
754 }
755 void CPDF_TextPage::GetRect(int rectIndex, FX_FLOAT& left, FX_FLOAT& top, FX_FLOAT& right, FX_FLOAT &bottom) const
756 {
757     if(m_ParseOptions.m_bGetCharCodeOnly) {
758         return ;
759     }
760     if (!m_IsParsered || rectIndex < 0 || rectIndex >= m_SelRects.GetSize()) {
761         return;
762     }
763     left = m_SelRects.GetAt(rectIndex).left;
764     top = m_SelRects.GetAt(rectIndex).top;
765     right = m_SelRects.GetAt(rectIndex).right;
766     bottom = m_SelRects.GetAt(rectIndex).bottom;
767 }
768 FX_BOOL CPDF_TextPage::GetBaselineRotate(int start, int end, int& Rotate)
769 {
770     if(m_ParseOptions.m_bGetCharCodeOnly) {
771         return FALSE;
772     }
773     if(end == start) {
774         return FALSE;
775     }
776     FX_FLOAT dx, dy;
777     FPDF_CHAR_INFO info1, info2;
778     GetCharInfo(start, info1);
779     GetCharInfo(end, info2);
780     while(info2.m_CharBox.Width() == 0 || info2.m_CharBox.Height() == 0) {
781         end--;
782         if(end <= start) {
783             return FALSE;
784         }
785         GetCharInfo(end, info2);
786     }
787     dx = (info2.m_OriginX - info1.m_OriginX);
788     dy = (info2.m_OriginY - info1.m_OriginY);
789     if(dx == 0) {
790         if(dy > 0) {
791             Rotate = 90;
792         } else if (dy < 0) {
793             Rotate = 270;
794         } else {
795             Rotate = 0;
796         }
797     } else {
798         float a = FXSYS_atan2(dy, dx);
799         Rotate = (int)(a * 180 / FX_PI + 0.5);
800     }
801     if(Rotate < 0) {
802         Rotate = -Rotate;
803     } else if(Rotate > 0) {
804         Rotate = 360 - Rotate;
805     }
806     return TRUE;
807 }
808 FX_BOOL CPDF_TextPage::GetBaselineRotate(const CFX_FloatRect& rect , int& Rotate)
809 {
810     if(m_ParseOptions.m_bGetCharCodeOnly) {
811         return FALSE;
812     }
813     int start, end, count, n = CountBoundedSegments(rect.left, rect.top, rect.right, rect.bottom, TRUE);
814     if(n < 1) {
815         return FALSE;
816     }
817     if(n > 1) {
818         GetBoundedSegment(n - 1, start, count);
819         end = start + count - 1;
820         GetBoundedSegment(0, start, count);
821     } else {
822         GetBoundedSegment(0, start, count);
823         end = start + count - 1;
824     }
825     return GetBaselineRotate(start, end, Rotate);
826 }
827 FX_BOOL CPDF_TextPage::GetBaselineRotate(int rectIndex, int& Rotate)
828 {
829     if(m_ParseOptions.m_bGetCharCodeOnly) {
830         return FALSE;
831     }
832     if (!m_IsParsered || rectIndex < 0 || rectIndex > m_SelRects.GetSize()) {
833         return FALSE;
834     }
835     CFX_FloatRect rect = m_SelRects.GetAt(rectIndex);
836     return GetBaselineRotate(rect , Rotate);
837 }
838 int     CPDF_TextPage::CountBoundedSegments(FX_FLOAT left, FX_FLOAT top, FX_FLOAT right, FX_FLOAT bottom, FX_BOOL bContains )
839 {
840     if(m_ParseOptions.m_bGetCharCodeOnly) {
841         return -1;
842     }
843     m_Segment.RemoveAll();
844     if (!m_IsParsered)  {
845         return -1;
846     }
847     CFX_FloatRect rect(left, bottom, right, top);
848     rect.Normalize();
849     int nCount = m_charList.GetSize();
850     int pos = 0;
851     FPDF_SEGMENT        segment;
852     segment.m_Start = 0;
853     segment.m_nCount = 0;
854     FX_BOOL             segmentStatus = 0;
855     FX_BOOL             IsContainPreChar = FALSE;
856     while (pos < nCount) {
857         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(pos);
858         if(bContains && rect.Contains(charinfo.m_CharBox)) {
859             if (segmentStatus == 0 || segmentStatus == 2) {
860                 segment.m_Start = pos;
861                 segment.m_nCount = 1;
862                 segmentStatus = 1;
863             } else if (segmentStatus == 1) {
864                 segment.m_nCount++;
865             }
866             IsContainPreChar = TRUE;
867         } else if (!bContains && (IsRectIntersect(rect, charinfo.m_CharBox) || rect.Contains(charinfo.m_OriginX, charinfo.m_OriginY))) {
868             if (segmentStatus == 0 || segmentStatus == 2) {
869                 segment.m_Start = pos;
870                 segment.m_nCount = 1;
871                 segmentStatus = 1;
872             } else if (segmentStatus == 1) {
873                 segment.m_nCount++;
874             }
875             IsContainPreChar = TRUE;
876         } else if (charinfo.m_Unicode == 32) {
877             if (IsContainPreChar == TRUE) {
878                 if (segmentStatus == 0 || segmentStatus == 2) {
879                     segment.m_Start = pos;
880                     segment.m_nCount = 1;
881                     segmentStatus = 1;
882                 } else if (segmentStatus == 1) {
883                     segment.m_nCount++;
884                 }
885                 IsContainPreChar = FALSE;
886             } else {
887                 if (segmentStatus == 1) {
888                     segmentStatus = 2;
889                     m_Segment.Add(segment);
890                     segment.m_Start = 0;
891                     segment.m_nCount = 0;
892                 }
893             }
894         } else {
895             if (segmentStatus == 1) {
896                 segmentStatus = 2;
897                 m_Segment.Add(segment);
898                 segment.m_Start = 0;
899                 segment.m_nCount = 0;
900             }
901             IsContainPreChar = FALSE;
902         }
903         pos++;
904     }
905     if (segmentStatus == 1) {
906         segmentStatus = 2;
907         m_Segment.Add(segment);
908         segment.m_Start = 0;
909         segment.m_nCount = 0;
910     }
911     return m_Segment.GetSize();
912 }
913 void CPDF_TextPage::GetBoundedSegment(int index, int& start, int& count) const
914 {
915     if(m_ParseOptions.m_bGetCharCodeOnly) {
916         return ;
917     }
918     if (index < 0 || index >= m_Segment.GetSize()) {
919         return;
920     }
921     start = m_Segment.GetAt(index).m_Start;
922     count = m_Segment.GetAt(index).m_nCount;
923 }
924 int CPDF_TextPage::GetWordBreak(int index, int direction) const
925 {
926     if(m_ParseOptions.m_bGetCharCodeOnly) {
927         return -1;
928     }
929     if (!m_IsParsered)  {
930         return -1;
931     }
932     if (direction != FPDFTEXT_LEFT && direction != FPDFTEXT_RIGHT) {
933         return -1;
934     }
935     if (index < 0 || index >= m_charList.GetSize()) {
936         return -1;
937     }
938     PAGECHAR_INFO charinfo;
939     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
940     if (charinfo.m_Index == -1 || charinfo.m_Flag == FPDFTEXT_CHAR_GENERATED)   {
941         return index;
942     }
943     if (!IsLetter(charinfo.m_Unicode)) {
944         return index;
945     }
946     int breakPos = index;
947     if (direction == FPDFTEXT_LEFT) {
948         while (--breakPos > 0) {
949             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(breakPos);
950             if (!IsLetter(charinfo.m_Unicode)) {
951                 return breakPos;
952             }
953         }
954         return breakPos;
955     } else if (direction == FPDFTEXT_RIGHT) {
956         while (++breakPos < m_charList.GetSize()) {
957             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(breakPos);
958             if (!IsLetter(charinfo.m_Unicode)) {
959                 return breakPos;
960             }
961         }
962         return breakPos;
963     }
964     return breakPos;
965 }
966 int32_t CPDF_TextPage::FindTextlineFlowDirection()
967 {
968     if (!m_pPage)       {
969         return -1;
970     }
971     const int32_t nPageWidth = (int32_t)((CPDF_Page*)m_pPage)->GetPageWidth();
972     const int32_t nPageHeight = (int32_t)((CPDF_Page*)m_pPage)->GetPageHeight();
973     CFX_ByteArray nHorizontalMask;
974     if (!nHorizontalMask.SetSize(nPageWidth)) {
975         return -1;
976     }
977     uint8_t* pDataH = nHorizontalMask.GetData();
978     CFX_ByteArray nVerticalMask;
979     if (!nVerticalMask.SetSize(nPageHeight)) {
980         return -1;
981     }
982     uint8_t* pDataV = nVerticalMask.GetData();
983     int32_t index = 0;
984     FX_FLOAT fLineHeight = 0.0f;
985     CPDF_PageObject* pPageObj = NULL;
986     FX_POSITION pos = NULL;
987     pos = m_pPage->GetFirstObjectPosition();
988     if(!pos) {
989         return -1;
990     }
991     while(pos) {
992         pPageObj = m_pPage->GetNextObject(pos);
993         if(NULL == pPageObj) {
994             continue;
995         }
996         if(PDFPAGE_TEXT != pPageObj->m_Type) {
997             continue;
998         }
999         int32_t minH = (int32_t)pPageObj->m_Left < 0 ? 0 : (int32_t)pPageObj->m_Left;
1000         int32_t maxH = (int32_t)pPageObj->m_Right > nPageWidth ? nPageWidth : (int32_t)pPageObj->m_Right;
1001         int32_t minV = (int32_t)pPageObj->m_Bottom < 0 ? 0 : (int32_t)pPageObj->m_Bottom;
1002         int32_t maxV = (int32_t)pPageObj->m_Top > nPageHeight ? nPageHeight : (int32_t)pPageObj->m_Top;
1003         if (minH >= maxH || minV >= maxV) {
1004             continue;
1005         }
1006         FXSYS_memset(pDataH + minH, 1, maxH - minH);
1007         FXSYS_memset(pDataV + minV, 1, maxV - minV);
1008         if (fLineHeight <= 0.0f) {
1009             fLineHeight = pPageObj->m_Top - pPageObj->m_Bottom;
1010         }
1011         pPageObj = NULL;
1012     }
1013     int32_t nStartH = 0;
1014     int32_t nEndH = 0;
1015     FX_FLOAT nSumH = 0.0f;
1016     for (index = 0; index < nPageWidth; index++)
1017         if(1 == nHorizontalMask[index]) {
1018             break;
1019         }
1020     nStartH = index;
1021     for (index = nPageWidth; index > 0; index--)
1022         if(1 == nHorizontalMask[index - 1]) {
1023             break;
1024         }
1025     nEndH = index;
1026     for (index = nStartH; index < nEndH; index++) {
1027         nSumH += nHorizontalMask[index];
1028     }
1029     nSumH /= nEndH - nStartH;
1030     int32_t nStartV = 0;
1031     int32_t nEndV = 0;
1032     FX_FLOAT nSumV = 0.0f;
1033     for (index = 0; index < nPageHeight; index++)
1034         if(1 == nVerticalMask[index]) {
1035             break;
1036         }
1037     nStartV = index;
1038     for (index = nPageHeight; index > 0; index--)
1039         if(1 == nVerticalMask[index - 1]) {
1040             break;
1041         }
1042     nEndV = index;
1043     for (index = nStartV; index < nEndV; index++) {
1044         nSumV += nVerticalMask[index];
1045     }
1046     nSumV /= nEndV - nStartV;
1047     if ((nEndV - nStartV) < (int32_t)(2 * fLineHeight)) {
1048         return 0;
1049     }
1050     if ((nEndH - nStartH) < (int32_t)(2 * fLineHeight)) {
1051         return 1;
1052     }
1053     if (nSumH > 0.8f) {
1054         return 0;
1055     }
1056     if (nSumH - nSumV > 0.0f) {
1057         return 0;
1058     }
1059     if (nSumV - nSumH > 0.0f) {
1060         return 1;
1061     }
1062     return -1;
1063 }
1064 void CPDF_TextPage::ProcessObject()
1065 {
1066     CPDF_PageObject*    pPageObj = NULL;
1067     if (!m_pPage)       {
1068         return;
1069     }
1070     FX_POSITION pos;
1071     pos = m_pPage->GetFirstObjectPosition();
1072     if (!pos)   {
1073         return;
1074     }
1075     m_TextlineDir = FindTextlineFlowDirection();
1076     int nCount = 0;
1077     while (pos) {
1078         pPageObj = m_pPage->GetNextObject(pos);
1079         if(pPageObj) {
1080             if(pPageObj->m_Type == PDFPAGE_TEXT) {
1081                 CFX_AffineMatrix matrix;
1082                 ProcessTextObject((CPDF_TextObject*)pPageObj, matrix, pos);
1083                 nCount++;
1084             } else if (pPageObj->m_Type == PDFPAGE_FORM) {
1085                 CFX_AffineMatrix formMatrix(1, 0, 0, 1, 0, 0);
1086                 ProcessFormObject((CPDF_FormObject*)pPageObj, formMatrix);
1087             }
1088         }
1089         pPageObj = NULL;
1090     }
1091     int count = m_LineObj.GetSize();
1092     for(int i = 0; i < count; i++) {
1093         ProcessTextObject(m_LineObj.GetAt(i));
1094     }
1095     m_LineObj.RemoveAll();
1096     CloseTempLine();
1097 }
1098 void CPDF_TextPage::ProcessFormObject(CPDF_FormObject* pFormObj, const CFX_AffineMatrix& formMatrix)
1099 {
1100     CPDF_PageObject*    pPageObj = NULL;
1101     FX_POSITION pos;
1102     if (!pFormObj)      {
1103         return;
1104     }
1105     pos = pFormObj->m_pForm->GetFirstObjectPosition();
1106     if (!pos)   {
1107         return;
1108     }
1109     CFX_AffineMatrix curFormMatrix;
1110     curFormMatrix.Copy(pFormObj->m_FormMatrix);
1111     curFormMatrix.Concat(formMatrix);
1112     while (pos) {
1113         pPageObj = pFormObj->m_pForm->GetNextObject(pos);
1114         if(pPageObj) {
1115             if(pPageObj->m_Type == PDFPAGE_TEXT) {
1116                 ProcessTextObject((CPDF_TextObject*)pPageObj, curFormMatrix, pos);
1117             } else if (pPageObj->m_Type == PDFPAGE_FORM) {
1118                 ProcessFormObject((CPDF_FormObject*)pPageObj, curFormMatrix);
1119             }
1120         }
1121         pPageObj = NULL;
1122     }
1123 }
1124 int CPDF_TextPage::GetCharWidth(FX_DWORD charCode, CPDF_Font* pFont) const
1125 {
1126     if(charCode == -1) {
1127         return 0;
1128     }
1129     int w = pFont->GetCharWidthF(charCode);
1130     if(w == 0) {
1131         CFX_ByteString str;
1132         pFont->AppendChar(str, charCode);
1133         w = pFont->GetStringWidth(str, 1);
1134         if(w == 0) {
1135             FX_RECT BBox;
1136             pFont->GetCharBBox(charCode, BBox);
1137             w = BBox.right - BBox.left;
1138         }
1139     }
1140     return w;
1141 }
1142 void CPDF_TextPage::OnPiece(IFX_BidiChar* pBidi, CFX_WideString& str)
1143 {
1144     int32_t start, count;
1145     int32_t ret = pBidi->GetBidiInfo(start, count);
1146     if(ret == 2) {
1147         for(int i = start + count - 1; i >= start; i--) {
1148             m_TextBuf.AppendChar(str.GetAt(i));
1149             m_charList.Add(*(PAGECHAR_INFO*)m_TempCharList.GetAt(i));
1150         }
1151     } else {
1152         int end = start + count ;
1153         for(int i = start; i < end; i++) {
1154             m_TextBuf.AppendChar(str.GetAt(i));
1155             m_charList.Add(*(PAGECHAR_INFO*)m_TempCharList.GetAt(i));
1156         }
1157     }
1158 }
1159 void CPDF_TextPage::AddCharInfoByLRDirection(CFX_WideString& str, int i)
1160 {
1161     PAGECHAR_INFO Info = *(PAGECHAR_INFO*)m_TempCharList.GetAt(i);
1162     FX_WCHAR wChar = str.GetAt(i);
1163     if(!IsControlChar(&Info)) {
1164         Info.m_Index = m_TextBuf.GetLength();
1165         if (wChar >= 0xFB00 && wChar <= 0xFB06) {
1166             FX_WCHAR* pDst = NULL;
1167             FX_STRSIZE nCount = FX_Unicode_GetNormalization(wChar, pDst);
1168             if (nCount >= 1) {
1169                 pDst = FX_Alloc(FX_WCHAR, nCount);
1170                 FX_Unicode_GetNormalization(wChar, pDst);
1171                 for (int nIndex = 0; nIndex < nCount; nIndex++) {
1172                     PAGECHAR_INFO Info2 = Info;
1173                     Info2.m_Unicode = pDst[nIndex];
1174                     Info2.m_Flag = FPDFTEXT_CHAR_PIECE;
1175                     m_TextBuf.AppendChar(Info2.m_Unicode);
1176                     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1177                         m_charList.Add(Info2);
1178                     }
1179                 }
1180                 FX_Free(pDst);
1181                 return;
1182             }
1183         }
1184         m_TextBuf.AppendChar(wChar);
1185     } else {
1186         Info.m_Index = -1;
1187     }
1188     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1189         m_charList.Add(Info);
1190     }
1191 }
1192 void CPDF_TextPage::AddCharInfoByRLDirection(CFX_WideString& str, int i)
1193 {
1194     PAGECHAR_INFO Info = *(PAGECHAR_INFO*)m_TempCharList.GetAt(i);
1195     if(!IsControlChar(&Info)) {
1196         Info.m_Index = m_TextBuf.GetLength();
1197         FX_WCHAR wChar = FX_GetMirrorChar(str.GetAt(i), TRUE, FALSE);
1198         FX_WCHAR* pDst = NULL;
1199         FX_STRSIZE nCount = FX_Unicode_GetNormalization(wChar, pDst);
1200         if (nCount >= 1) {
1201             pDst = FX_Alloc(FX_WCHAR, nCount);
1202             FX_Unicode_GetNormalization(wChar, pDst);
1203             for (int nIndex = 0; nIndex < nCount; nIndex++) {
1204                 PAGECHAR_INFO Info2 = Info;
1205                 Info2.m_Unicode = pDst[nIndex];
1206                 Info2.m_Flag = FPDFTEXT_CHAR_PIECE;
1207                 m_TextBuf.AppendChar(Info2.m_Unicode);
1208                 if( !m_ParseOptions.m_bGetCharCodeOnly) {
1209                     m_charList.Add(Info2);
1210                 }
1211             }
1212             FX_Free(pDst);
1213             return;
1214         } else {
1215             Info.m_Unicode = wChar;
1216         }
1217         m_TextBuf.AppendChar(Info.m_Unicode);
1218     } else {
1219         Info.m_Index = -1;
1220     }
1221     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1222         m_charList.Add(Info);
1223     }
1224 }
1225 void CPDF_TextPage::CloseTempLine()
1226 {
1227     int count1 = m_TempCharList.GetSize();
1228     if (count1 <= 0) {
1229         return;
1230     }
1231     IFX_BidiChar* BidiChar = IFX_BidiChar::Create();
1232     CFX_WideString str = m_TempTextBuf.GetWideString();
1233     CFX_WordArray order;
1234     FX_BOOL bR2L = FALSE;
1235     int32_t start = 0, count = 0;
1236     int nR2L = 0, nL2R = 0;
1237     FX_BOOL bPrevSpace = FALSE;
1238     for (int i = 0; i < str.GetLength(); i++) {
1239         if(str.GetAt(i) == 32) {
1240             if(bPrevSpace) {
1241                 m_TempTextBuf.Delete(i, 1);
1242                 m_TempCharList.Delete(i);
1243                 str.Delete(i);
1244                 count1--;
1245                 i--;
1246                 continue;
1247             }
1248             bPrevSpace = TRUE;
1249         } else {
1250             bPrevSpace = FALSE;
1251         }
1252         if(BidiChar && BidiChar->AppendChar(str.GetAt(i))) {
1253             int32_t ret = BidiChar->GetBidiInfo(start, count);
1254             order.Add(start);
1255             order.Add(count);
1256             order.Add(ret);
1257             if(!bR2L) {
1258                 if(ret == 2) {
1259                     nR2L++;
1260                 } else if (ret == 1) {
1261                     nL2R++;
1262                 }
1263             }
1264         }
1265     }
1266     if(BidiChar && BidiChar->EndChar()) {
1267         int32_t ret = BidiChar->GetBidiInfo(start, count);
1268         order.Add(start);
1269         order.Add(count);
1270         order.Add(ret);
1271         if(!bR2L) {
1272             if(ret == 2) {
1273                 nR2L++;
1274             } else if(ret == 1) {
1275                 nL2R++;
1276             }
1277         }
1278     }
1279     if(nR2L > 0 && nR2L >= nL2R) {
1280         bR2L = TRUE;
1281     }
1282     if (m_parserflag == FPDFTEXT_RLTB || bR2L) {
1283         int count = order.GetSize();
1284         for(int i = count - 1; i > 0; i -= 3) {
1285             int ret = order.GetAt(i);
1286             int start = order.GetAt(i - 2);
1287             int count1 = order.GetAt(i - 1);
1288             if(ret == 2 || ret == 0) {
1289                 for(int j = start + count1 - 1; j >= start; j--) {
1290                     AddCharInfoByRLDirection(str, j);
1291                 }
1292             } else {
1293                 int j = i;
1294                 FX_BOOL bSymbol = FALSE;
1295                 while(j > 0 && order.GetAt(j) != 2) {
1296                     bSymbol = !order.GetAt(j);
1297                     j -= 3;
1298                 }
1299                 int end = start + count1 ;
1300                 int n = 0;
1301                 if(bSymbol) {
1302                     n = j + 6;
1303                 } else {
1304                     n = j + 3;
1305                 }
1306                 if(n >= i) {
1307                     for(int m = start; m < end; m++) {
1308                         AddCharInfoByLRDirection(str, m);
1309                     }
1310                 } else {
1311                     j = i;
1312                     i = n;
1313                     for(; n <= j; n += 3) {
1314                         int start = order.GetAt(n - 2);
1315                         int count1 = order.GetAt(n - 1);
1316                         int end = start + count1 ;
1317                         for(int m = start; m < end; m++) {
1318                             AddCharInfoByLRDirection(str, m);
1319                         }
1320                     }
1321                 }
1322             }
1323         }
1324     } else {
1325         int count = order.GetSize();
1326         FX_BOOL bL2R = FALSE;
1327         for(int i = 0; i < count; i += 3) {
1328             int ret = order.GetAt(i + 2);
1329             int start = order.GetAt(i);
1330             int count1 = order.GetAt(i + 1);
1331             if(ret == 2 || (i == 0 && ret == 0 && !bL2R)) {
1332                 int j = i + 3;
1333                 while(bR2L && j < count) {
1334                     if(order.GetAt(j + 2) == 1) {
1335                         break;
1336                     } else {
1337                         j += 3;
1338                     }
1339                 }
1340                 if(j == 3) {
1341                     i = -3;
1342                     bL2R = TRUE;
1343                     continue;
1344                 }
1345                 int end = m_TempCharList.GetSize() - 1;
1346                 if(j < count) {
1347                     end = order.GetAt(j) - 1;
1348                 }
1349                 i = j - 3;
1350                 for(int n = end; n >= start; n--) {
1351                     AddCharInfoByRLDirection(str, n);
1352                 }
1353             } else {
1354                 int end = start + count1 ;
1355                 for(int n = start; n < end; n++) {
1356                     AddCharInfoByLRDirection(str, n);
1357                 }
1358             }
1359         }
1360     }
1361     order.RemoveAll();
1362     m_TempCharList.RemoveAll();
1363     m_TempTextBuf.Delete(0, m_TempTextBuf.GetLength());
1364     BidiChar->Release();
1365 }
1366 void CPDF_TextPage::ProcessTextObject(CPDF_TextObject*  pTextObj, const CFX_AffineMatrix& formMatrix, FX_POSITION ObjPos)
1367 {
1368     CFX_FloatRect re(pTextObj->m_Left, pTextObj->m_Bottom, pTextObj->m_Right, pTextObj->m_Top);
1369     if(FXSYS_fabs(pTextObj->m_Right - pTextObj->m_Left) < 0.01f ) {
1370         return;
1371     }
1372     int count = m_LineObj.GetSize();
1373     PDFTEXT_Obj Obj;
1374     Obj.m_pTextObj = pTextObj;
1375     Obj.m_formMatrix = formMatrix;
1376     if(count == 0) {
1377         m_LineObj.Add(Obj);
1378         return;
1379     }
1380     if (IsSameAsPreTextObject(pTextObj, ObjPos)) {
1381         return;
1382     }
1383     PDFTEXT_Obj prev_Obj = m_LineObj.GetAt(count - 1);
1384     CPDF_TextObjectItem item;
1385     int nItem = prev_Obj.m_pTextObj->CountItems();
1386     prev_Obj.m_pTextObj->GetItemInfo(nItem - 1, &item);
1387     FX_FLOAT prev_width = GetCharWidth(item.m_CharCode, prev_Obj.m_pTextObj->GetFont()) * prev_Obj.m_pTextObj->GetFontSize() / 1000;
1388     CFX_AffineMatrix prev_matrix;
1389     prev_Obj.m_pTextObj->GetTextMatrix(&prev_matrix);
1390     prev_width = FXSYS_fabs(prev_width);
1391     prev_matrix.Concat(prev_Obj.m_formMatrix);
1392     prev_width = prev_matrix.TransformDistance(prev_width);
1393     pTextObj->GetItemInfo(0, &item);
1394     FX_FLOAT this_width = GetCharWidth(item.m_CharCode, pTextObj->GetFont()) * pTextObj->GetFontSize() / 1000;
1395     this_width = FXSYS_fabs(this_width);
1396     CFX_AffineMatrix this_matrix;
1397     pTextObj->GetTextMatrix(&this_matrix);
1398     this_width = FXSYS_fabs(this_width);
1399     this_matrix.Concat(formMatrix);
1400     this_width = this_matrix.TransformDistance(this_width);
1401     FX_FLOAT threshold = prev_width > this_width ? prev_width / 4 : this_width / 4;
1402     FX_FLOAT prev_x = prev_Obj.m_pTextObj->GetPosX(), prev_y = prev_Obj.m_pTextObj->GetPosY();
1403     prev_Obj.m_formMatrix.Transform(prev_x, prev_y);
1404     m_DisplayMatrix.Transform(prev_x, prev_y);
1405     FX_FLOAT this_x = pTextObj->GetPosX(), this_y = pTextObj->GetPosY();
1406     formMatrix.Transform(this_x, this_y);
1407     m_DisplayMatrix.Transform(this_x, this_y);
1408     if (FXSYS_fabs(this_y - prev_y) > threshold * 2) {
1409         for(int i = 0; i < count; i++) {
1410             ProcessTextObject(m_LineObj.GetAt(i));
1411         }
1412         m_LineObj.RemoveAll();
1413         m_LineObj.Add(Obj);
1414         return;
1415     }
1416     int i = 0;
1417     if(m_ParseOptions.m_bNormalizeObjs) {
1418         for(i = count - 1; i >= 0; i--) {
1419             PDFTEXT_Obj prev_Obj = m_LineObj.GetAt(i);
1420             CFX_AffineMatrix prev_matrix;
1421             prev_Obj.m_pTextObj->GetTextMatrix(&prev_matrix);
1422             FX_FLOAT Prev_x = prev_Obj.m_pTextObj->GetPosX(), Prev_y = prev_Obj.m_pTextObj->GetPosY();
1423             prev_Obj.m_formMatrix.Transform(Prev_x, Prev_y);
1424             m_DisplayMatrix.Transform(Prev_x, Prev_y);
1425             if(this_x >= Prev_x) {
1426                 if(i == count - 1) {
1427                     m_LineObj.Add(Obj);
1428                 } else {
1429                     m_LineObj.InsertAt(i + 1, Obj);
1430                 }
1431                 break;
1432             }
1433         }
1434         if(i < 0) {
1435             m_LineObj.InsertAt(0, Obj);
1436         }
1437     } else {
1438         m_LineObj.Add(Obj);
1439     }
1440 }
1441 int32_t CPDF_TextPage::PreMarkedContent(PDFTEXT_Obj Obj)
1442 {
1443     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1444     CPDF_ContentMarkData* pMarkData = (CPDF_ContentMarkData*)pTextObj->m_ContentMark.GetObject();
1445     if(!pMarkData) {
1446         return FPDFTEXT_MC_PASS;
1447     }
1448     int nContentMark = pMarkData->CountItems();
1449     if (nContentMark < 1) {
1450         return FPDFTEXT_MC_PASS;
1451     }
1452     CFX_WideString actText;
1453     FX_BOOL bExist = FALSE;
1454     CPDF_Dictionary* pDict = NULL;
1455     int n = 0;
1456     for (n = 0; n < nContentMark; n++) {
1457         CPDF_ContentMarkItem& item = pMarkData->GetItem(n);
1458         CFX_ByteString tagStr = (CFX_ByteString)item.GetName();
1459         pDict = (CPDF_Dictionary*)item.GetParam();
1460         CPDF_String* temp = (CPDF_String*)(pDict ? pDict->GetElement(FX_BSTRC("ActualText")) : NULL);
1461         if (temp) {
1462             bExist = TRUE;
1463             actText = temp->GetUnicodeText();
1464         }
1465     }
1466     if (!bExist) {
1467         return FPDFTEXT_MC_PASS;
1468     }
1469     if (m_pPreTextObj) {
1470         if (CPDF_ContentMarkData* pPreMarkData = (CPDF_ContentMarkData*)m_pPreTextObj->m_ContentMark.GetObject()) {
1471             if (pPreMarkData->CountItems() == n) {
1472                 CPDF_ContentMarkItem& item = pPreMarkData->GetItem(n - 1);
1473                 if (pDict == item.GetParam()) {
1474                     return FPDFTEXT_MC_DONE;
1475                 }
1476             }
1477         }
1478     }
1479     CPDF_Font*  pFont = pTextObj->GetFont();
1480     FX_STRSIZE nItems = actText.GetLength();
1481     if (nItems < 1) {
1482         return FPDFTEXT_MC_PASS;
1483     }
1484     bExist = FALSE;
1485     for (FX_STRSIZE i = 0; i < nItems; i++) {
1486         FX_WCHAR wChar = actText.GetAt(i);
1487         if (-1 == pFont->CharCodeFromUnicode(wChar)) {
1488             continue;
1489         } else {
1490             bExist = TRUE;
1491             break;
1492         }
1493     }
1494     if (!bExist) {
1495         return FPDFTEXT_MC_PASS;
1496     }
1497     bExist = FALSE;
1498     for (FX_STRSIZE i = 0; i < nItems; i++) {
1499         FX_WCHAR wChar = actText.GetAt(i);
1500         if ((wChar > 0x80 && wChar < 0xFFFD) || (wChar <= 0x80 && isprint(wChar))) {
1501             bExist = TRUE;
1502             break;
1503         }
1504     }
1505     if (!bExist) {
1506         return FPDFTEXT_MC_DONE;
1507     }
1508     return FPDFTEXT_MC_DELAY;
1509 }
1510 void CPDF_TextPage::ProcessMarkedContent(PDFTEXT_Obj Obj)
1511 {
1512     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1513     CPDF_ContentMarkData* pMarkData = (CPDF_ContentMarkData*)pTextObj->m_ContentMark.GetObject();
1514     if(!pMarkData) {
1515         return;
1516     }
1517     int nContentMark = pMarkData->CountItems();
1518     if (nContentMark < 1) {
1519         return;
1520     }
1521     CFX_WideString actText;
1522     CPDF_Dictionary* pDict = NULL;
1523     int n = 0;
1524     for (n = 0; n < nContentMark; n++) {
1525         CPDF_ContentMarkItem& item = pMarkData->GetItem(n);
1526         CFX_ByteString tagStr = (CFX_ByteString)item.GetName();
1527         pDict = (CPDF_Dictionary*)item.GetParam();
1528         CPDF_String* temp = (CPDF_String*)(pDict ? pDict->GetElement(FX_BSTRC("ActualText")) : NULL);
1529         if (temp) {
1530             actText = temp->GetUnicodeText();
1531         }
1532     }
1533     FX_STRSIZE nItems = actText.GetLength();
1534     if (nItems < 1) {
1535         return;
1536     }
1537     CPDF_Font*  pFont = pTextObj->GetFont();
1538     CFX_AffineMatrix formMatrix = Obj.m_formMatrix;
1539     CFX_AffineMatrix matrix;
1540     pTextObj->GetTextMatrix(&matrix);
1541     matrix.Concat(formMatrix);
1542     FX_FLOAT fPosX = pTextObj->GetPosX();
1543     FX_FLOAT fPosY = pTextObj->GetPosY();
1544     int nCharInfoIndex = m_TextBuf.GetLength();
1545     CFX_FloatRect charBox;
1546     charBox.top = pTextObj->m_Top;
1547     charBox.left = pTextObj->m_Left;
1548     charBox.right = pTextObj->m_Right;
1549     charBox.bottom = pTextObj->m_Bottom;
1550     for (FX_STRSIZE k = 0; k < nItems; k++) {
1551         FX_WCHAR wChar = actText.GetAt(k);
1552         if (wChar <= 0x80 && !isprint(wChar)) {
1553             wChar = 0x20;
1554         }
1555         if (wChar >= 0xFFFD) {
1556             continue;
1557         }
1558         PAGECHAR_INFO charinfo;
1559         charinfo.m_OriginX = fPosX;
1560         charinfo.m_OriginY = fPosY;
1561         charinfo.m_Index = nCharInfoIndex;
1562         charinfo.m_Unicode = wChar;
1563         charinfo.m_CharCode = pFont->CharCodeFromUnicode(wChar);
1564         charinfo.m_Flag = FPDFTEXT_CHAR_PIECE;
1565         charinfo.m_pTextObj = pTextObj;
1566         charinfo.m_CharBox.top = charBox.top;
1567         charinfo.m_CharBox.left = charBox.left;
1568         charinfo.m_CharBox.right = charBox.right;
1569         charinfo.m_CharBox.bottom = charBox.bottom;
1570         charinfo.m_Matrix.Copy(matrix);
1571         m_TempTextBuf.AppendChar(wChar);
1572         m_TempCharList.Add(charinfo);
1573     }
1574 }
1575 void CPDF_TextPage::FindPreviousTextObject(void)
1576 {
1577     if (m_TempCharList.GetSize() < 1 && m_charList.GetSize() < 1) {
1578         return;
1579     }
1580     PAGECHAR_INFO preChar;
1581     if (m_TempCharList.GetSize() >= 1) {
1582         preChar = *(PAGECHAR_INFO*)m_TempCharList.GetAt(m_TempCharList.GetSize() - 1);
1583     } else {
1584         preChar = *(PAGECHAR_INFO*)m_charList.GetAt(m_charList.GetSize() - 1);
1585     }
1586     if (preChar.m_pTextObj) {
1587         m_pPreTextObj = preChar.m_pTextObj;
1588     }
1589 }
1590 void CPDF_TextPage::ProcessTextObject(PDFTEXT_Obj Obj)
1591 {
1592     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1593     if(FXSYS_fabs(pTextObj->m_Right - pTextObj->m_Left) < 0.01f ) {
1594         return;
1595     }
1596     CFX_AffineMatrix formMatrix = Obj.m_formMatrix;
1597     CPDF_Font*  pFont = pTextObj->GetFont();
1598     CFX_AffineMatrix matrix;
1599     pTextObj->GetTextMatrix(&matrix);
1600     matrix.Concat(formMatrix);
1601     int32_t bPreMKC = PreMarkedContent(Obj);
1602     if (FPDFTEXT_MC_DONE == bPreMKC) {
1603         m_pPreTextObj = pTextObj;
1604         m_perMatrix.Copy(formMatrix);
1605         return;
1606     }
1607     int result = 0;
1608     if (m_pPreTextObj) {
1609         result = ProcessInsertObject(pTextObj, formMatrix);
1610         if (2 == result) {
1611             m_CurlineRect = CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top);
1612         } else {
1613             m_CurlineRect.Union(CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top));
1614         }
1615         PAGECHAR_INFO generateChar;
1616         if (result == 1) {
1617             if (GenerateCharInfo(TEXT_BLANK_CHAR, generateChar)) {
1618                 if (!formMatrix.IsIdentity()) {
1619                     generateChar.m_Matrix.Copy(formMatrix);
1620                 }
1621                 m_TempTextBuf.AppendChar(TEXT_BLANK_CHAR);
1622                 m_TempCharList.Add(generateChar);
1623             }
1624         } else if(result == 2) {
1625             CloseTempLine();
1626             if(m_TextBuf.GetSize()) {
1627                 if(m_ParseOptions.m_bGetCharCodeOnly) {
1628                     m_TextBuf.AppendChar(TEXT_RETURN_CHAR);
1629                     m_TextBuf.AppendChar(TEXT_LINEFEED_CHAR);
1630                 } else {
1631                     if(GenerateCharInfo(TEXT_RETURN_CHAR, generateChar)) {
1632                         m_TextBuf.AppendChar(TEXT_RETURN_CHAR);
1633                         if (!formMatrix.IsIdentity()) {
1634                             generateChar.m_Matrix.Copy(formMatrix);
1635                         }
1636                         m_charList.Add(generateChar);
1637                     }
1638                     if(GenerateCharInfo(TEXT_LINEFEED_CHAR, generateChar)) {
1639                         m_TextBuf.AppendChar(TEXT_LINEFEED_CHAR);
1640                         if (!formMatrix.IsIdentity()) {
1641                             generateChar.m_Matrix.Copy(formMatrix);
1642                         }
1643                         m_charList.Add(generateChar);
1644                     }
1645                 }
1646             }
1647         } else if (result == 3 && !m_ParseOptions.m_bOutputHyphen) {
1648             int32_t nChars = pTextObj->CountChars();
1649             if (nChars == 1) {
1650                 CPDF_TextObjectItem item;
1651                 pTextObj->GetCharInfo(0, &item);
1652                 CFX_WideString wstrItem = pTextObj->GetFont()->UnicodeFromCharCode(item.m_CharCode);
1653                 if(wstrItem.IsEmpty()) {
1654                     wstrItem += (FX_WCHAR)item.m_CharCode;
1655                 }
1656                 FX_WCHAR curChar = wstrItem.GetAt(0);
1657                 if (0x2D == curChar || 0xAD == curChar) {
1658                     return;
1659                 }
1660             }
1661             while (m_TempTextBuf.GetSize() > 0 && m_TempTextBuf.GetWideString().GetAt(m_TempTextBuf.GetLength() - 1) == 0x20) {
1662                 m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1663                 m_TempCharList.Delete(m_TempCharList.GetSize() - 1);
1664             }
1665             PAGECHAR_INFO* cha = (PAGECHAR_INFO*)m_TempCharList.GetAt(m_TempCharList.GetSize() - 1);
1666             m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1667             cha->m_Unicode = 0x2;
1668             cha->m_Flag = FPDFTEXT_CHAR_HYPHEN;
1669             m_TempTextBuf.AppendChar(0xfffe);
1670         }
1671     } else {
1672         m_CurlineRect = CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top);
1673     }
1674     if (FPDFTEXT_MC_DELAY == bPreMKC) {
1675         ProcessMarkedContent(Obj);
1676         m_pPreTextObj = pTextObj;
1677         m_perMatrix.Copy(formMatrix);
1678         return;
1679     }
1680     m_pPreTextObj = pTextObj;
1681     m_perMatrix.Copy(formMatrix);
1682     int nItems = pTextObj->CountItems();
1683     FX_FLOAT baseSpace = _CalculateBaseSpace(pTextObj, matrix);
1684
1685     const FX_BOOL bR2L = IsRightToLeft(pTextObj, pFont, nItems);
1686     const FX_BOOL bIsBidiAndMirrorInverse =
1687         bR2L && (matrix.a * matrix.d - matrix.b * matrix.c) < 0;
1688     int32_t iBufStartAppend = m_TempTextBuf.GetLength();
1689     int32_t iCharListStartAppend = m_TempCharList.GetSize();
1690
1691     FX_FLOAT spacing = 0;
1692     for (int i = 0; i < nItems; i++) {
1693         CPDF_TextObjectItem item;
1694         PAGECHAR_INFO charinfo;
1695         charinfo.m_OriginX = 0;
1696         charinfo.m_OriginY = 0;
1697         pTextObj->GetItemInfo(i, &item);
1698         if (item.m_CharCode == (FX_DWORD) - 1) {
1699             CFX_WideString str = m_TempTextBuf.GetWideString();
1700             if(str.IsEmpty()) {
1701                 str = m_TextBuf.GetWideString();
1702             }
1703             if (str.IsEmpty() || str.GetAt(str.GetLength() - 1) == TEXT_BLANK_CHAR) {
1704                 continue;
1705             }
1706             FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
1707             spacing = -fontsize_h * item.m_OriginX / 1000;
1708             continue;
1709         }
1710         FX_FLOAT charSpace = pTextObj->m_TextState.GetObject()->m_CharSpace;
1711         if (charSpace > 0.001) {
1712             spacing += matrix.TransformDistance(charSpace);
1713         } else if(charSpace < -0.001) {
1714             spacing -= matrix.TransformDistance(FXSYS_fabs(charSpace));
1715         }
1716         spacing -= baseSpace;
1717         if (spacing && i > 0) {
1718             int last_width = 0;
1719             FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
1720             FX_DWORD space_charcode = pFont->CharCodeFromUnicode(' ');
1721             FX_FLOAT threshold = 0;
1722             if (space_charcode != -1) {
1723                 threshold = fontsize_h * pFont->GetCharWidthF(space_charcode) / 1000 ;
1724             }
1725             if (threshold > fontsize_h / 3) {
1726                 threshold = 0;
1727             } else {
1728                 threshold /= 2;
1729             }
1730             if (threshold == 0) {
1731                 threshold = fontsize_h;
1732                 int this_width = FXSYS_abs(GetCharWidth(item.m_CharCode, pFont));
1733                 threshold = this_width > last_width ? (FX_FLOAT)this_width : (FX_FLOAT)last_width;
1734                 threshold = _NormalizeThreshold(threshold);
1735                 threshold = fontsize_h * threshold / 1000;
1736             }
1737             if (threshold && (spacing && spacing >= threshold) ) {
1738                 charinfo.m_Unicode = TEXT_BLANK_CHAR;
1739                 charinfo.m_Flag = FPDFTEXT_CHAR_GENERATED;
1740                 charinfo.m_pTextObj = pTextObj;
1741                 charinfo.m_Index = m_TextBuf.GetLength();
1742                 m_TempTextBuf.AppendChar(TEXT_BLANK_CHAR);
1743                 charinfo.m_CharCode = -1;
1744                 charinfo.m_Matrix.Copy(formMatrix);
1745                 matrix.Transform(item.m_OriginX, item.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1746                 charinfo.m_CharBox = CFX_FloatRect(charinfo.m_OriginX, charinfo.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1747                 m_TempCharList.Add(charinfo);
1748             }
1749             if (item.m_CharCode == (FX_DWORD) - 1) {
1750                 continue;
1751             }
1752         }
1753         spacing = 0;
1754         CFX_WideString wstrItem = pFont->UnicodeFromCharCode(item.m_CharCode);
1755         FX_BOOL bNoUnicode = FALSE;
1756         FX_WCHAR wChar = wstrItem.GetAt(0);
1757         if ((wstrItem.IsEmpty() || wChar == 0) && item.m_CharCode) {
1758             if(wstrItem.IsEmpty()) {
1759                 wstrItem += (FX_WCHAR)item.m_CharCode;
1760             } else {
1761                 wstrItem.SetAt(0, (FX_WCHAR)item.m_CharCode);
1762             }
1763             bNoUnicode = TRUE;
1764         }
1765         charinfo.m_Index = -1;
1766         charinfo.m_CharCode = item.m_CharCode;
1767         if(bNoUnicode) {
1768             charinfo.m_Flag = FPDFTEXT_CHAR_UNUNICODE;
1769         } else {
1770             charinfo.m_Flag = FPDFTEXT_CHAR_NORMAL;
1771         }
1772         charinfo.m_pTextObj = pTextObj;
1773         charinfo.m_OriginX = 0, charinfo.m_OriginY = 0;
1774         matrix.Transform(item.m_OriginX, item.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1775         FX_RECT rect(0, 0, 0, 0);
1776         rect.Intersect(0, 0, 0, 0);
1777         charinfo.m_pTextObj->GetFont()->GetCharBBox(charinfo.m_CharCode, rect);
1778         charinfo.m_CharBox.top = rect.top * pTextObj->GetFontSize() / 1000 + item.m_OriginY;
1779         charinfo.m_CharBox.left = rect.left * pTextObj->GetFontSize() / 1000 + item.m_OriginX;
1780         charinfo.m_CharBox.right = rect.right * pTextObj->GetFontSize() / 1000 + item.m_OriginX;
1781         charinfo.m_CharBox.bottom = rect.bottom * pTextObj->GetFontSize() / 1000 + item.m_OriginY;
1782         if (fabsf(charinfo.m_CharBox.top - charinfo.m_CharBox.bottom) < 0.01f) {
1783             charinfo.m_CharBox.top = charinfo.m_CharBox.bottom + pTextObj->GetFontSize();
1784         }
1785         if (fabsf(charinfo.m_CharBox.right - charinfo.m_CharBox.left) < 0.01f) {
1786             charinfo.m_CharBox.right = charinfo.m_CharBox.left + pTextObj->GetCharWidth(charinfo.m_CharCode);
1787         }
1788         matrix.TransformRect(charinfo.m_CharBox);
1789         charinfo.m_Matrix.Copy(matrix);
1790         if (wstrItem.IsEmpty()) {
1791             charinfo.m_Unicode = 0;
1792             m_TempCharList.Add(charinfo);
1793             m_TempTextBuf.AppendChar(0xfffe);
1794             continue;
1795         } else {
1796             int nTotal = wstrItem.GetLength();
1797             FX_BOOL bDel = FALSE;
1798             const int count = std::min(m_TempCharList.GetSize(), 7);
1799             FX_FLOAT threshold = charinfo.m_Matrix.TransformXDistance((FX_FLOAT)TEXT_CHARRATIO_GAPDELTA * pTextObj->GetFontSize());
1800             for (int n = m_TempCharList.GetSize();
1801                  n > m_TempCharList.GetSize() - count;
1802                  n--) {
1803                 PAGECHAR_INFO* charinfo1 = (PAGECHAR_INFO*)m_TempCharList.GetAt(n - 1);
1804                 if(charinfo1->m_CharCode == charinfo.m_CharCode &&
1805                         charinfo1->m_pTextObj->GetFont() == charinfo.m_pTextObj->GetFont()  &&
1806                         FXSYS_fabs(charinfo1->m_OriginX - charinfo.m_OriginX) < threshold  &&
1807                         FXSYS_fabs(charinfo1->m_OriginY - charinfo.m_OriginY) < threshold) {
1808                     bDel = TRUE;
1809                     break;
1810                 }
1811             }
1812             if(!bDel) {
1813                 for (int nIndex = 0; nIndex < nTotal; nIndex++) {
1814                     charinfo.m_Unicode = wstrItem.GetAt(nIndex);
1815                     if (charinfo.m_Unicode) {
1816                         charinfo.m_Index = m_TextBuf.GetLength();
1817                         m_TempTextBuf.AppendChar(charinfo.m_Unicode);
1818                     } else {
1819                         m_TempTextBuf.AppendChar(0xfffe);
1820                     }
1821                     m_TempCharList.Add(charinfo);
1822                 }
1823             } else if(i == 0) {
1824                 CFX_WideString str = m_TempTextBuf.GetWideString();
1825                 if (!str.IsEmpty() && str.GetAt(str.GetLength() - 1) == TEXT_BLANK_CHAR) {
1826                     m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1827                     m_TempCharList.Delete(m_TempCharList.GetSize() - 1);
1828                 }
1829             }
1830         }
1831     }
1832     if (bIsBidiAndMirrorInverse) {
1833         SwapTempTextBuf(iCharListStartAppend, iBufStartAppend);
1834     }
1835 }
1836 void CPDF_TextPage::SwapTempTextBuf(int32_t iCharListStartAppend,
1837                                     int32_t iBufStartAppend)
1838 {
1839     int32_t i, j;
1840     i = iCharListStartAppend;
1841     j = m_TempCharList.GetSize() - 1;
1842     for (; i < j; i++, j--) {
1843         std::swap(m_TempCharList[i], m_TempCharList[j]);
1844         std::swap(m_TempCharList[i].m_Index, m_TempCharList[j].m_Index);
1845     }
1846     FX_WCHAR * pTempBuffer = m_TempTextBuf.GetBuffer();
1847     i = iBufStartAppend;
1848     j = m_TempTextBuf.GetLength() - 1;
1849     for (; i < j; i++, j--) {
1850         std::swap(pTempBuffer[i], pTempBuffer[j]);
1851     }
1852 }
1853 FX_BOOL CPDF_TextPage::IsRightToLeft(const CPDF_TextObject* pTextObj,
1854                                      const CPDF_Font* pFont,
1855                                      int nItems) const
1856 {
1857     IFX_BidiChar* BidiChar = IFX_BidiChar::Create();
1858     int32_t nR2L = 0;
1859     int32_t nL2R = 0;
1860     int32_t start = 0, count = 0;
1861     CPDF_TextObjectItem item;
1862     for (int32_t i = 0; i < nItems; i++) {
1863         pTextObj->GetItemInfo(i, &item);
1864         if (item.m_CharCode == (FX_DWORD)-1) {
1865             continue;
1866         }
1867         CFX_WideString wstrItem = pFont->UnicodeFromCharCode(item.m_CharCode);
1868         FX_WCHAR wChar = wstrItem.GetAt(0);
1869         if ((wstrItem.IsEmpty() || wChar == 0) && item.m_CharCode) {
1870             wChar = (FX_WCHAR)item.m_CharCode;
1871         }
1872         if (!wChar) {
1873             continue;
1874         }
1875         if (BidiChar && BidiChar->AppendChar(wChar)) {
1876             int32_t ret = BidiChar->GetBidiInfo(start, count);
1877             if (ret == 2) {
1878                 nR2L++;
1879             }
1880             else if (ret == 1) {
1881                 nL2R++;
1882             }
1883         }
1884     }
1885     if (BidiChar && BidiChar->EndChar()) {
1886         int32_t ret = BidiChar->GetBidiInfo(start, count);
1887         if (ret == 2) {
1888             nR2L++;
1889         }
1890         else if (ret == 1) {
1891             nL2R++;
1892         }
1893     }
1894     if (BidiChar)
1895       BidiChar->Release();
1896     return (nR2L > 0 && nR2L >= nL2R);
1897 }
1898 int32_t CPDF_TextPage::GetTextObjectWritingMode(const CPDF_TextObject* pTextObj)
1899 {
1900     int32_t nChars = pTextObj->CountChars();
1901     if (nChars == 1) {
1902         return m_TextlineDir;
1903     }
1904     CPDF_TextObjectItem first, last;
1905     pTextObj->GetCharInfo(0, &first);
1906     pTextObj->GetCharInfo(nChars - 1, &last);
1907     CFX_Matrix textMatrix;
1908     pTextObj->GetTextMatrix(&textMatrix);
1909     textMatrix.TransformPoint(first.m_OriginX, first.m_OriginY);
1910     textMatrix.TransformPoint(last.m_OriginX, last.m_OriginY);
1911     FX_FLOAT dX = FXSYS_fabs(last.m_OriginX - first.m_OriginX);
1912     FX_FLOAT dY = FXSYS_fabs(last.m_OriginY - first.m_OriginY);
1913     if (dX <= 0.0001f && dY <= 0.0001f) {
1914         return -1;
1915     }
1916     CFX_VectorF v;
1917     v.Set(dX, dY);
1918     v.Normalize();
1919     if (v.y <= 0.0872f) {
1920         if (v.x <= 0.0872f) {
1921             return m_TextlineDir;
1922         }
1923         return 0;
1924     } else if (v.x <= 0.0872f) {
1925         return 1;
1926     }
1927     return m_TextlineDir;
1928 }
1929 FX_BOOL CPDF_TextPage::IsHyphen(FX_WCHAR curChar)
1930 {
1931     CFX_WideString strCurText = m_TempTextBuf.GetWideString();
1932     if(strCurText.GetLength() == 0) {
1933         strCurText = m_TextBuf.GetWideString();
1934     }
1935     FX_STRSIZE nCount = strCurText.GetLength();
1936     int nIndex = nCount - 1;
1937     FX_WCHAR wcTmp = strCurText.GetAt(nIndex);
1938     while(wcTmp == 0x20 && nIndex <= nCount - 1 && nIndex >= 0) {
1939         wcTmp = strCurText.GetAt(--nIndex);
1940     }
1941     if (0x2D == wcTmp || 0xAD == wcTmp) {
1942         if (--nIndex > 0) {
1943             FX_WCHAR preChar = strCurText.GetAt((nIndex));
1944             if (((preChar >= L'A' && preChar <= L'Z') || (preChar >= L'a' && preChar <= L'z'))
1945                     && ((curChar >= L'A' && curChar <= L'Z') || (curChar >= L'a' && curChar <= L'z'))) {
1946                 return TRUE;
1947             }
1948         }
1949         int size = m_TempCharList.GetSize();
1950         PAGECHAR_INFO preChar;
1951         if (size) {
1952             preChar = (PAGECHAR_INFO)m_TempCharList[size - 1];
1953         } else {
1954             size = m_charList.GetSize();
1955             if(size == 0) {
1956                 return FALSE;
1957             }
1958             preChar = (PAGECHAR_INFO)m_charList[size - 1];
1959         }
1960         if (FPDFTEXT_CHAR_PIECE == preChar.m_Flag)
1961             if (0xAD == preChar.m_Unicode || 0x2D == preChar.m_Unicode) {
1962                 return TRUE;
1963             }
1964     }
1965     return FALSE;
1966 }
1967 int CPDF_TextPage::ProcessInsertObject(const CPDF_TextObject* pObj, const CFX_AffineMatrix& formMatrix)
1968 {
1969     FindPreviousTextObject();
1970     FX_BOOL bNewline = FALSE;
1971     int WritingMode = GetTextObjectWritingMode(pObj);
1972     if(WritingMode == -1) {
1973         WritingMode = GetTextObjectWritingMode(m_pPreTextObj);
1974     }
1975     CFX_FloatRect this_rect(pObj->m_Left, pObj->m_Bottom, pObj->m_Right, pObj->m_Top);
1976     CFX_FloatRect prev_rect(m_pPreTextObj->m_Left, m_pPreTextObj->m_Bottom, m_pPreTextObj->m_Right, m_pPreTextObj->m_Top);
1977     CPDF_TextObjectItem PrevItem, item;
1978     int nItem = m_pPreTextObj->CountItems();
1979     m_pPreTextObj->GetItemInfo(nItem - 1, &PrevItem);
1980     pObj->GetItemInfo(0, &item);
1981     CFX_WideString wstrItem = pObj->GetFont()->UnicodeFromCharCode(item.m_CharCode);
1982     if(wstrItem.IsEmpty()) {
1983         wstrItem += (FX_WCHAR)item.m_CharCode;
1984     }
1985     FX_WCHAR curChar = wstrItem.GetAt(0);
1986     if(WritingMode == 0) {
1987         if(this_rect.Height() > 4.5 && prev_rect.Height() > 4.5) {
1988             FX_FLOAT top = this_rect.top < prev_rect.top ? this_rect.top : prev_rect.top;
1989             FX_FLOAT bottom = this_rect.bottom > prev_rect.bottom ? this_rect.bottom : prev_rect.bottom;
1990             if(bottom >= top) {
1991                 if(IsHyphen(curChar)) {
1992                     return 3;
1993                 }
1994                 return 2;
1995             }
1996         }
1997     } else if (WritingMode == 1) {
1998         if(this_rect.Width() > pObj->GetFontSize() * 0.1f && prev_rect.Width() > m_pPreTextObj->GetFontSize() * 0.1f) {
1999             FX_FLOAT left = this_rect.left > m_CurlineRect.left ? this_rect.left : m_CurlineRect.left;
2000             FX_FLOAT right = this_rect.right < m_CurlineRect.right ? this_rect.right : m_CurlineRect.right;
2001             if(right <= left) {
2002                 if(IsHyphen(curChar)) {
2003                     return 3;
2004                 }
2005                 return 2;
2006             }
2007         }
2008     }
2009     FX_FLOAT last_pos = PrevItem.m_OriginX;
2010     int nLastWidth = GetCharWidth(PrevItem.m_CharCode, m_pPreTextObj->GetFont());
2011     FX_FLOAT last_width = nLastWidth * m_pPreTextObj->GetFontSize() / 1000;
2012     last_width = FXSYS_fabs(last_width);
2013     int nThisWidth = GetCharWidth(item.m_CharCode, pObj->GetFont());
2014     FX_FLOAT this_width = nThisWidth * pObj->GetFontSize() / 1000;
2015     this_width = FXSYS_fabs(this_width);
2016     FX_FLOAT threshold = last_width > this_width ? last_width / 4 : this_width / 4;
2017     CFX_AffineMatrix prev_matrix, prev_reverse;
2018     m_pPreTextObj->GetTextMatrix(&prev_matrix);
2019     prev_matrix.Concat(m_perMatrix);
2020     prev_reverse.SetReverse(prev_matrix);
2021     FX_FLOAT x = pObj->GetPosX();
2022     FX_FLOAT y = pObj->GetPosY();
2023     formMatrix.Transform(x, y);
2024     prev_reverse.Transform(x, y);
2025     if(last_width < this_width) {
2026         threshold = prev_reverse.TransformDistance(threshold);
2027     }
2028     CFX_FloatRect rect1(m_pPreTextObj->m_Left, pObj->m_Bottom, m_pPreTextObj->m_Right, pObj->m_Top);
2029     CFX_FloatRect rect2(m_pPreTextObj->m_Left, m_pPreTextObj->m_Bottom, m_pPreTextObj->m_Right, m_pPreTextObj->m_Top);
2030     CFX_FloatRect rect3 = rect1;
2031     rect1.Intersect(rect2);
2032     if (WritingMode == 0) {
2033         if ((rect1.IsEmpty() && rect2.Height() > 5 && rect3.Height() > 5)
2034                 || ((y > threshold * 2 || y < threshold * -3) && (FXSYS_fabs(y) < 1 ? FXSYS_fabs(x) < FXSYS_fabs(y) : TRUE))) {
2035             bNewline = TRUE;
2036             if(nItem > 1 ) {
2037                 CPDF_TextObjectItem tempItem;
2038                 m_pPreTextObj->GetItemInfo(0, &tempItem);
2039                 CFX_AffineMatrix m;
2040                 m_pPreTextObj->GetTextMatrix(&m);
2041                 if(PrevItem.m_OriginX > tempItem.m_OriginX &&
2042                         m_DisplayMatrix.a > 0.9 && m_DisplayMatrix.b < 0.1 &&
2043                         m_DisplayMatrix.c < 0.1 && m_DisplayMatrix.d < -0.9
2044                         && m.b < 0.1 && m.c < 0.1 ) {
2045                     CFX_FloatRect re(0, m_pPreTextObj->m_Bottom, 1000, m_pPreTextObj->m_Top);
2046                     if(re.Contains(pObj->GetPosX(), pObj->GetPosY())) {
2047                         bNewline = FALSE;
2048                     } else {
2049                         CFX_FloatRect re(0, pObj->m_Bottom, 1000, pObj->m_Top);
2050                         if(re.Contains(m_pPreTextObj->GetPosX(), m_pPreTextObj->GetPosY())) {
2051                             bNewline = FALSE;
2052                         }
2053                     }
2054                 }
2055             }
2056         }
2057     }
2058     if(bNewline) {
2059         if(IsHyphen(curChar)) {
2060             return 3;
2061         }
2062         return 2;
2063     }
2064     int32_t nChars = pObj->CountChars();
2065     if (nChars == 1 && ( 0x2D == curChar || 0xAD == curChar))
2066         if (IsHyphen(curChar)) {
2067             return 3;
2068         }
2069     CFX_WideString PrevStr = m_pPreTextObj->GetFont()->UnicodeFromCharCode(PrevItem.m_CharCode);
2070     FX_WCHAR preChar = PrevStr.GetAt(PrevStr.GetLength() - 1);
2071     CFX_AffineMatrix matrix;
2072     pObj->GetTextMatrix(&matrix);
2073     matrix.Concat(formMatrix);
2074     threshold = (FX_FLOAT)(nLastWidth > nThisWidth ? nLastWidth : nThisWidth);
2075     threshold = threshold > 400 ? (threshold < 700 ? threshold / 4 :  (threshold > 800 ? threshold / 6 : threshold / 5)) : (threshold / 2);
2076     if(nLastWidth >= nThisWidth) {
2077         threshold *= FXSYS_fabs(m_pPreTextObj->GetFontSize());
2078     } else {
2079         threshold *= FXSYS_fabs(pObj->GetFontSize());
2080         threshold = matrix.TransformDistance(threshold);
2081         threshold = prev_reverse.TransformDistance(threshold);
2082     }
2083     threshold /= 1000;
2084     if((threshold < 1.4881 && threshold > 1.4879)
2085             || (threshold < 1.39001 && threshold > 1.38999)) {
2086         threshold *= 1.5;
2087     }
2088     if (FXSYS_fabs(last_pos + last_width - x) > threshold && curChar != L' ' && preChar != L' ')
2089         if (curChar != L' ' && preChar != L' ') {
2090             if((x - last_pos - last_width) > threshold || (last_pos - x - last_width) > threshold) {
2091                 return 1;
2092             }
2093             if(x < 0 && (last_pos - x - last_width) > threshold) {
2094                 return 1;
2095             }
2096             if((x - last_pos - last_width) > this_width || (x - last_pos - this_width) > last_width ) {
2097                 return 1;
2098             }
2099         }
2100     return 0;
2101 }
2102 FX_BOOL CPDF_TextPage::IsSameTextObject(CPDF_TextObject* pTextObj1, CPDF_TextObject* pTextObj2)
2103 {
2104     if (!pTextObj1 || !pTextObj2) {
2105         return FALSE;
2106     }
2107     CFX_FloatRect rcPreObj(pTextObj2->m_Left, pTextObj2->m_Bottom, pTextObj2->m_Right, pTextObj2->m_Top);
2108     CFX_FloatRect rcCurObj(pTextObj1->m_Left, pTextObj1->m_Bottom, pTextObj1->m_Right, pTextObj1->m_Top);
2109     if (rcPreObj.IsEmpty() && rcCurObj.IsEmpty() && !m_ParseOptions.m_bGetCharCodeOnly) {
2110         FX_FLOAT dbXdif = FXSYS_fabs(rcPreObj.left - rcCurObj.left);
2111         int nCount = m_charList.GetSize();
2112         if (nCount >= 2) {
2113             PAGECHAR_INFO perCharTemp = (PAGECHAR_INFO)m_charList[nCount - 2];
2114             FX_FLOAT dbSpace = perCharTemp.m_CharBox.Width();
2115             if (dbXdif > dbSpace) {
2116                 return FALSE;
2117             }
2118         }
2119     }
2120     if (!rcPreObj.IsEmpty() || !rcCurObj.IsEmpty()) {
2121         rcPreObj.Intersect(rcCurObj);
2122         if (rcPreObj.IsEmpty()) {
2123             return FALSE;
2124         }
2125         if (FXSYS_fabs(rcPreObj.Width() - rcCurObj.Width()) > rcCurObj.Width() / 2) {
2126             return FALSE;
2127         }
2128         if (pTextObj2->GetFontSize() != pTextObj1->GetFontSize()) {
2129             return FALSE;
2130         }
2131     }
2132     int nPreCount = pTextObj2->CountItems();
2133     int nCurCount = pTextObj1->CountItems();
2134     if (nPreCount != nCurCount) {
2135         return FALSE;
2136     }
2137     CPDF_TextObjectItem itemPer, itemCur;
2138     for (int i = 0; i < nPreCount; i++) {
2139         pTextObj2->GetItemInfo(i, &itemPer);
2140         pTextObj1->GetItemInfo(i, &itemCur);
2141         if (itemCur.m_CharCode != itemPer.m_CharCode) {
2142             return FALSE;
2143         }
2144     }
2145     if(FXSYS_fabs(pTextObj1->GetPosX() - pTextObj2->GetPosX()) > GetCharWidth(itemPer.m_CharCode, pTextObj2->GetFont())*pTextObj2->GetFontSize() / 1000 * 0.9 ||
2146             FXSYS_fabs(pTextObj1->GetPosY() - pTextObj2->GetPosY()) >
2147             FX_MAX(FX_MAX(rcPreObj.Height() , rcPreObj.Width()), pTextObj2->GetFontSize()) / 8) {
2148         return FALSE;
2149     }
2150     return TRUE;
2151 }
2152 FX_BOOL CPDF_TextPage::IsSameAsPreTextObject(CPDF_TextObject* pTextObj, FX_POSITION ObjPos)
2153 {
2154     if (!pTextObj) {
2155         return FALSE;
2156     }
2157     int i = 0;
2158     if (!ObjPos) {
2159         ObjPos = m_pPage->GetLastObjectPosition();
2160     }
2161     CPDF_PageObject* pObj = m_pPage->GetPrevObject(ObjPos);
2162     while (i < 5 && ObjPos) {
2163         pObj = m_pPage->GetPrevObject(ObjPos);
2164         if(pObj == pTextObj) {
2165             continue;
2166         }
2167         if(pObj->m_Type != PDFPAGE_TEXT) {
2168             continue;
2169         }
2170         if(IsSameTextObject((CPDF_TextObject*)pObj, pTextObj)) {
2171             return TRUE;
2172         }
2173         i++;
2174     }
2175     return FALSE;
2176 }
2177 FX_BOOL CPDF_TextPage::GenerateCharInfo(FX_WCHAR unicode, PAGECHAR_INFO& info)
2178 {
2179     int size = m_TempCharList.GetSize();
2180     PAGECHAR_INFO preChar;
2181     if (size) {
2182         preChar = (PAGECHAR_INFO)m_TempCharList[size - 1];
2183     } else {
2184         size = m_charList.GetSize();
2185         if(size == 0) {
2186             return FALSE;
2187         }
2188         preChar = (PAGECHAR_INFO)m_charList[size - 1];
2189     }
2190     info.m_Index = m_TextBuf.GetLength();
2191     info.m_Unicode = unicode;
2192     info.m_pTextObj = NULL;
2193     info.m_CharCode = -1;
2194     info.m_Flag = FPDFTEXT_CHAR_GENERATED;
2195     int preWidth = 0;
2196     if (preChar.m_pTextObj && preChar.m_CharCode != (FX_DWORD) - 1) {
2197         preWidth = GetCharWidth(preChar.m_CharCode, preChar.m_pTextObj->GetFont());
2198     }
2199     FX_FLOAT fs = 0;
2200     if(preChar.m_pTextObj) {
2201         fs = preChar.m_pTextObj->GetFontSize();
2202     } else {
2203         fs = preChar.m_CharBox.Height();
2204     }
2205     if(!fs) {
2206         fs = 1;
2207     }
2208     info.m_OriginX = preChar.m_OriginX + preWidth * (fs) / 1000;
2209     info.m_OriginY = preChar.m_OriginY;
2210     info.m_CharBox = CFX_FloatRect(info.m_OriginX, info.m_OriginY, info.m_OriginX, info.m_OriginY);
2211     return TRUE;
2212 }
2213 FX_BOOL CPDF_TextPage::IsRectIntersect(const CFX_FloatRect& rect1, const CFX_FloatRect& rect2)
2214 {
2215     CFX_FloatRect rect = rect1;
2216     rect.Intersect(rect2);
2217     return !rect.IsEmpty();
2218 }
2219 FX_BOOL CPDF_TextPage::IsLetter(FX_WCHAR unicode)
2220 {
2221     if (unicode < L'A') {
2222         return FALSE;
2223     }
2224     if (unicode > L'Z' && unicode < L'a') {
2225         return FALSE;
2226     }
2227     if (unicode > L'z') {
2228         return FALSE;
2229     }
2230     return TRUE;
2231 }
2232 CPDF_TextPageFind::CPDF_TextPageFind(const IPDF_TextPage* pTextPage)
2233     : m_pTextPage(pTextPage),
2234       m_flags(0),
2235       m_findNextStart(-1),
2236       m_findPreStart(-1),
2237       m_bMatchCase(FALSE),
2238       m_bMatchWholeWord(FALSE),
2239       m_resStart(0),
2240       m_resEnd(-1),
2241       m_IsFind(FALSE)
2242 {
2243     m_strText = m_pTextPage->GetPageText();
2244     int nCount = pTextPage->CountChars();
2245     if(nCount) {
2246         m_CharIndex.Add(0);
2247     }
2248     for(int i = 0; i < nCount; i++) {
2249         FPDF_CHAR_INFO info;
2250         pTextPage->GetCharInfo(i, info);
2251         int indexSize = m_CharIndex.GetSize();
2252         if(info.m_Flag == CHAR_NORMAL || info.m_Flag == CHAR_GENERATED) {
2253             if(indexSize % 2) {
2254                 m_CharIndex.Add(1);
2255             } else {
2256                 if(indexSize <= 0) {
2257                     continue;
2258                 }
2259                 m_CharIndex.SetAt(indexSize - 1, m_CharIndex.GetAt(indexSize - 1) + 1);
2260             }
2261         } else {
2262             if(indexSize % 2) {
2263                 if(indexSize <= 0) {
2264                     continue;
2265                 }
2266                 m_CharIndex.SetAt(indexSize - 1, i + 1);
2267             } else {
2268                 m_CharIndex.Add(i + 1);
2269             }
2270         }
2271     }
2272     int indexSize = m_CharIndex.GetSize();
2273     if(indexSize % 2) {
2274         m_CharIndex.RemoveAt(indexSize - 1);
2275     }
2276 }
2277 int CPDF_TextPageFind::GetCharIndex(int index) const
2278 {
2279     return m_pTextPage->CharIndexFromTextIndex(index);
2280     int indexSize = m_CharIndex.GetSize();
2281     int count = 0;
2282     for(int i = 0; i < indexSize; i += 2) {
2283         count += m_CharIndex.GetAt(i + 1);
2284         if(count > index) {
2285             return      index - count + m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i);
2286         }
2287     }
2288     return -1;
2289 }
2290 FX_BOOL CPDF_TextPageFind::FindFirst(const CFX_WideString& findwhat, int flags, int startPos)
2291 {
2292     if (!m_pTextPage) {
2293         return FALSE;
2294     }
2295     if (m_strText.IsEmpty() || m_bMatchCase != (flags & FPDFTEXT_MATCHCASE)) {
2296         m_strText = m_pTextPage->GetPageText();
2297     }
2298     CFX_WideString findwhatStr = findwhat;
2299     m_findWhat = findwhatStr;
2300     m_flags = flags;
2301     m_bMatchCase = flags & FPDFTEXT_MATCHCASE;
2302     if (m_strText.IsEmpty()) {
2303         m_IsFind = FALSE;
2304         return TRUE;
2305     }
2306     FX_STRSIZE len = findwhatStr.GetLength();
2307     if (!m_bMatchCase) {
2308         findwhatStr.MakeLower();
2309         m_strText.MakeLower();
2310     }
2311     m_bMatchWholeWord = flags & FPDFTEXT_MATCHWHOLEWORD;
2312     m_findNextStart = startPos;
2313     if (startPos == -1) {
2314         m_findPreStart = m_strText.GetLength() - 1;
2315     } else {
2316         m_findPreStart = startPos;
2317     }
2318     m_csFindWhatArray.RemoveAll();
2319     int i = 0;
2320     while(i < len) {
2321         if(findwhatStr.GetAt(i) != ' ') {
2322             break;
2323         }
2324         i++;
2325     }
2326     if(i < len) {
2327         ExtractFindWhat(findwhatStr);
2328     } else {
2329         m_csFindWhatArray.Add(findwhatStr);
2330     }
2331     if(m_csFindWhatArray.GetSize() <= 0) {
2332         return FALSE;
2333     }
2334     m_IsFind = TRUE;
2335     m_resStart = 0;
2336     m_resEnd = -1;
2337     return TRUE;
2338 }
2339 FX_BOOL CPDF_TextPageFind::FindNext()
2340 {
2341     if (!m_pTextPage) {
2342         return FALSE;
2343     }
2344     m_resArray.RemoveAll();
2345     if(m_findNextStart == -1) {
2346         return FALSE;
2347     }
2348     if(m_strText.IsEmpty()) {
2349         m_IsFind = FALSE;
2350         return m_IsFind;
2351     }
2352     int strLen = m_strText.GetLength();
2353     if (m_findNextStart > strLen - 1) {
2354         m_IsFind = FALSE;
2355         return m_IsFind;
2356     }
2357     int nCount = m_csFindWhatArray.GetSize();
2358     int nResultPos = 0;
2359     int nStartPos = 0;
2360     nStartPos = m_findNextStart;
2361     FX_BOOL bSpaceStart = FALSE;
2362     for(int iWord = 0; iWord < nCount; iWord++) {
2363         CFX_WideString csWord = m_csFindWhatArray[iWord];
2364         if(csWord.IsEmpty()) {
2365             if(iWord == nCount - 1) {
2366                 FX_WCHAR strInsert = m_strText.GetAt(nStartPos);
2367                 if(strInsert == TEXT_LINEFEED_CHAR || strInsert == TEXT_BLANK_CHAR || strInsert == TEXT_RETURN_CHAR || strInsert == 160) {
2368                     nResultPos = nStartPos + 1;
2369                     break;
2370                 }
2371                 iWord = -1;
2372             } else if(iWord == 0) {
2373                 bSpaceStart = TRUE;
2374             }
2375             continue;
2376         }
2377         int endIndex;
2378         nResultPos = m_strText.Find(csWord.c_str(), nStartPos);
2379         if (nResultPos == -1) {
2380             m_IsFind = FALSE;
2381             return m_IsFind;
2382         }
2383         endIndex = nResultPos + csWord.GetLength() - 1;
2384         if(iWord == 0) {
2385             m_resStart = nResultPos;
2386         }
2387         FX_BOOL bMatch = TRUE;
2388         if(iWord != 0 && !bSpaceStart) {
2389             int PreResEndPos = nStartPos;
2390             int curChar = csWord.GetAt(0);
2391             CFX_WideString lastWord = m_csFindWhatArray[iWord - 1];
2392             int lastChar = lastWord.GetAt(lastWord.GetLength() - 1);
2393             if(nStartPos == nResultPos && !(_IsIgnoreSpaceCharacter(lastChar) || _IsIgnoreSpaceCharacter(curChar))) {
2394                 bMatch = FALSE;
2395             }
2396             for(int d = PreResEndPos; d < nResultPos; d++) {
2397                 FX_WCHAR strInsert = m_strText.GetAt(d);
2398                 if(strInsert != TEXT_LINEFEED_CHAR && strInsert != TEXT_BLANK_CHAR && strInsert != TEXT_RETURN_CHAR && strInsert != 160) {
2399                     bMatch = FALSE;
2400                     break;
2401                 }
2402             }
2403         } else if(bSpaceStart) {
2404             if(nResultPos > 0) {
2405                 FX_WCHAR strInsert = m_strText.GetAt(nResultPos - 1);
2406                 if(strInsert != TEXT_LINEFEED_CHAR && strInsert != TEXT_BLANK_CHAR && strInsert != TEXT_RETURN_CHAR && strInsert != 160) {
2407                     bMatch = FALSE;
2408                     m_resStart = nResultPos;
2409                 } else {
2410                     m_resStart = nResultPos - 1;
2411                 }
2412             }
2413         }
2414         if(m_bMatchWholeWord && bMatch) {
2415             bMatch = IsMatchWholeWord(m_strText, nResultPos, endIndex);
2416         }
2417         nStartPos = endIndex + 1;
2418         if(!bMatch) {
2419             iWord = -1;
2420             if(bSpaceStart) {
2421                 nStartPos = m_resStart + m_csFindWhatArray[1].GetLength();
2422             } else {
2423                 nStartPos = m_resStart + m_csFindWhatArray[0].GetLength();
2424             }
2425         }
2426     }
2427     m_resEnd = nResultPos + m_csFindWhatArray[m_csFindWhatArray.GetSize() - 1].GetLength() - 1;
2428     m_IsFind = TRUE;
2429     int resStart = GetCharIndex(m_resStart);
2430     int resEnd = GetCharIndex(m_resEnd);
2431     m_pTextPage->GetRectArray(resStart, resEnd - resStart + 1, m_resArray);
2432     if(m_flags & FPDFTEXT_CONSECUTIVE) {
2433         m_findNextStart = m_resStart + 1;
2434         m_findPreStart = m_resEnd - 1;
2435     } else {
2436         m_findNextStart = m_resEnd + 1;
2437         m_findPreStart = m_resStart - 1;
2438     }
2439     return m_IsFind;
2440 }
2441 FX_BOOL CPDF_TextPageFind::FindPrev()
2442 {
2443     if (!m_pTextPage) {
2444         return FALSE;
2445     }
2446     m_resArray.RemoveAll();
2447     if(m_strText.IsEmpty() || m_findPreStart < 0) {
2448         m_IsFind = FALSE;
2449         return m_IsFind;
2450     }
2451     CPDF_TextPageFind findEngine(m_pTextPage);
2452     FX_BOOL ret = findEngine.FindFirst(m_findWhat, m_flags);
2453     if(!ret) {
2454         m_IsFind = FALSE;
2455         return m_IsFind;
2456     }
2457     int order = -1, MatchedCount = 0;
2458     while(ret) {
2459         ret = findEngine.FindNext();
2460         if(ret) {
2461             int order1 = findEngine.GetCurOrder() ;
2462             int MatchedCount1 = findEngine.GetMatchedCount();
2463             if(((order1 + MatchedCount1) - 1) > m_findPreStart) {
2464                 break;
2465             }
2466             order = order1;
2467             MatchedCount = MatchedCount1;
2468         }
2469     }
2470     if(order == -1) {
2471         m_IsFind = FALSE;
2472         return m_IsFind;
2473     }
2474     m_resStart = m_pTextPage->TextIndexFromCharIndex(order);
2475     m_resEnd = m_pTextPage->TextIndexFromCharIndex(order + MatchedCount - 1);
2476     m_IsFind = TRUE;
2477     m_pTextPage->GetRectArray(order, MatchedCount, m_resArray);
2478     if(m_flags & FPDFTEXT_CONSECUTIVE) {
2479         m_findNextStart = m_resStart + 1;
2480         m_findPreStart = m_resEnd - 1;
2481     } else {
2482         m_findNextStart = m_resEnd + 1;
2483         m_findPreStart = m_resStart - 1;
2484     }
2485     return m_IsFind;
2486 }
2487 void CPDF_TextPageFind::ExtractFindWhat(const CFX_WideString& findwhat)
2488 {
2489     if(findwhat.IsEmpty()) {
2490         return ;
2491     }
2492     int index = 0;
2493     while(1) {
2494         CFX_WideString csWord = TEXT_EMPTY;
2495         int ret = ExtractSubString(csWord, findwhat.c_str(), index, TEXT_BLANK_CHAR);
2496         if(csWord.IsEmpty()) {
2497             if(ret) {
2498                 m_csFindWhatArray.Add(CFX_WideString(L""));
2499                 index++;
2500                 continue;
2501             } else {
2502                 break;
2503             }
2504         }
2505         int pos = 0;
2506         while(pos < csWord.GetLength()) {
2507             CFX_WideString curStr = csWord.Mid(pos, 1);
2508             FX_WCHAR curChar = csWord.GetAt(pos);
2509             if (_IsIgnoreSpaceCharacter(curChar)) {
2510                 if (pos > 0 && curChar == 0x2019) {
2511                     pos++;
2512                     continue;
2513                 }
2514                 if (pos > 0 ) {
2515                     CFX_WideString preStr = csWord.Mid(0, pos);
2516                     m_csFindWhatArray.Add(preStr);
2517                 }
2518                 m_csFindWhatArray.Add(curStr);
2519                 if (pos == csWord.GetLength() - 1) {
2520                     csWord.Empty();
2521                     break;
2522                 }
2523                 csWord = csWord.Right(csWord.GetLength() - pos - 1);
2524                 pos = 0;
2525                 continue;
2526             }
2527             pos++;
2528         }
2529         if (!csWord.IsEmpty()) {
2530             m_csFindWhatArray.Add(csWord);
2531         }
2532         index++;
2533     }
2534 }
2535 FX_BOOL CPDF_TextPageFind::IsMatchWholeWord(const CFX_WideString& csPageText, int startPos, int endPos)
2536 {
2537     int char_left = 0;
2538     int char_right = 0;
2539     int char_count = endPos - startPos + 1;
2540     if(char_count < 1) {
2541         return FALSE;
2542     }
2543     if (char_count == 1 && csPageText.GetAt(startPos) > 255) {
2544         return TRUE;
2545     }
2546     if(startPos - 1 >= 0 ) {
2547         char_left = csPageText.GetAt(startPos - 1);
2548     }
2549     if(startPos + char_count < csPageText.GetLength()) {
2550         char_right = csPageText.GetAt(startPos + char_count);
2551     }
2552     if ((char_left > 'A' && char_left < 'a') || (char_left > 'a' && char_left < 'z') || (char_left > 0xfb00 && char_left < 0xfb06) || (char_left >= '0' && char_left <= '9') ||
2553             (char_right > 'A' && char_right < 'a') || (char_right > 'a' && char_right < 'z') || (char_right > 0xfb00 && char_right < 0xfb06) || (char_right >= '0' && char_right <= '9')) {
2554         return FALSE;
2555     }
2556     if(!(('A' > char_left || char_left > 'Z')  && ('a' > char_left || char_left > 'z')
2557             && ('A' > char_right || char_right > 'Z')  && ('a' > char_right || char_right > 'z'))) {
2558         return FALSE;
2559     }
2560     if (char_count > 0) {
2561         if (csPageText.GetAt(startPos) >= L'0' && csPageText.GetAt(startPos) <= L'9' && char_left >= L'0' && char_left <= L'9') {
2562             return FALSE;
2563         }
2564         if (csPageText.GetAt(endPos) >= L'0' && csPageText.GetAt(endPos) <= L'9' && char_right >= L'0' && char_right <= L'9') {
2565             return FALSE;
2566         }
2567     }
2568     return TRUE;
2569 }
2570 FX_BOOL CPDF_TextPageFind::ExtractSubString(CFX_WideString& rString, const FX_WCHAR* lpszFullString,
2571         int iSubString, FX_WCHAR chSep)
2572 {
2573     if (lpszFullString == NULL) {
2574         return FALSE;
2575     }
2576     while (iSubString--) {
2577         lpszFullString = FXSYS_wcschr(lpszFullString, chSep);
2578         if (lpszFullString == NULL) {
2579             rString.Empty();
2580             return FALSE;
2581         }
2582         lpszFullString++;
2583         while(*lpszFullString == chSep) {
2584             lpszFullString++;
2585         }
2586     }
2587     const FX_WCHAR* lpchEnd = FXSYS_wcschr(lpszFullString, chSep);
2588     int nLen = (lpchEnd == NULL) ?
2589                (int)FXSYS_wcslen(lpszFullString) : (int)(lpchEnd - lpszFullString);
2590     ASSERT(nLen >= 0);
2591     FXSYS_memcpy(rString.GetBuffer(nLen), lpszFullString, nLen * sizeof(FX_WCHAR));
2592     rString.ReleaseBuffer();
2593     return TRUE;
2594 }
2595 CFX_WideString CPDF_TextPageFind::MakeReverse(const CFX_WideString& str)
2596 {
2597     CFX_WideString str2;
2598     str2.Empty();
2599     int nlen = str.GetLength();
2600     for(int i = nlen - 1; i >= 0; i--) {
2601         str2 += str.GetAt(i);
2602     }
2603     return str2;
2604 }
2605 void CPDF_TextPageFind::GetRectArray(CFX_RectArray& rects) const
2606 {
2607     rects.Copy(m_resArray);
2608 }
2609 int     CPDF_TextPageFind::GetCurOrder() const
2610 {
2611     return GetCharIndex(m_resStart);
2612 }
2613 int     CPDF_TextPageFind::GetMatchedCount()const
2614 {
2615     int resStart = GetCharIndex(m_resStart);
2616     int resEnd = GetCharIndex(m_resEnd);
2617     return resEnd - resStart + 1;
2618 }
2619 CPDF_LinkExtract::CPDF_LinkExtract()
2620     : m_pTextPage(NULL),
2621       m_IsParserd(FALSE)
2622 {
2623 }
2624 CPDF_LinkExtract::~CPDF_LinkExtract()
2625 {
2626     DeleteLinkList();
2627 }
2628 FX_BOOL CPDF_LinkExtract::ExtractLinks(const IPDF_TextPage* pTextPage)
2629 {
2630     if (!pTextPage || !pTextPage->IsParsered()) {
2631         return FALSE;
2632     }
2633     m_pTextPage = (const CPDF_TextPage*)pTextPage;
2634     m_strPageText = m_pTextPage->GetPageText(0, -1);
2635     DeleteLinkList();
2636     if (m_strPageText.IsEmpty()) {
2637         return FALSE;
2638     }
2639     parserLink();
2640     m_IsParserd = TRUE;
2641     return TRUE;
2642 }
2643 void CPDF_LinkExtract::DeleteLinkList()
2644 {
2645     while (m_LinkList.GetSize()) {
2646         CPDF_LinkExt* linkinfo = NULL;
2647         linkinfo = m_LinkList.GetAt(0);
2648         m_LinkList.RemoveAt(0);
2649         delete linkinfo;
2650     }
2651     m_LinkList.RemoveAll();
2652 }
2653 int CPDF_LinkExtract::CountLinks() const
2654 {
2655     if (!m_IsParserd)   {
2656         return -1;
2657     }
2658     return m_LinkList.GetSize();
2659 }
2660 void CPDF_LinkExtract::parserLink()
2661 {
2662     int start = 0, pos = 0;
2663     int TotalChar = m_pTextPage->CountChars();
2664     while (pos < TotalChar) {
2665         FPDF_CHAR_INFO pageChar;
2666         m_pTextPage->GetCharInfo(pos, pageChar);
2667         if (pageChar.m_Flag == CHAR_GENERATED || pageChar.m_Unicode == 0x20 || pos == TotalChar - 1) {
2668             int nCount = pos - start;
2669             if(pos == TotalChar - 1) {
2670                 nCount++;
2671             }
2672             CFX_WideString strBeCheck;
2673             strBeCheck = m_pTextPage->GetPageText(start, nCount);
2674             if (strBeCheck.GetLength() > 5) {
2675                 while(strBeCheck.GetLength() > 0) {
2676                     FX_WCHAR ch = strBeCheck.GetAt(strBeCheck.GetLength() - 1);
2677                     if (ch == L')' || ch == L',' || ch == L'>' || ch == L'.') {
2678                         strBeCheck = strBeCheck.Mid(0, strBeCheck.GetLength() - 1);
2679                         nCount--;
2680                     } else {
2681                         break;
2682                     }
2683                 }
2684                 if (nCount > 5 && (CheckWebLink(strBeCheck) || CheckMailLink(strBeCheck))) {
2685                     if (!AppendToLinkList(start, nCount, strBeCheck)) {
2686                         break;
2687                     }
2688                 }
2689             }
2690             start = ++pos;
2691         } else {
2692             pos++;
2693         }
2694     }
2695 }
2696 FX_BOOL CPDF_LinkExtract::CheckWebLink(CFX_WideString& strBeCheck)
2697 {
2698     CFX_WideString str = strBeCheck;
2699     str.MakeLower();
2700     if (str.Find(L"http://www.") != -1) {
2701         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"http://www."));
2702         return TRUE;
2703     } else if (str.Find(L"http://") != -1) {
2704         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"http://"));
2705         return TRUE;
2706     } else if (str.Find(L"https://www.") != -1) {
2707         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"https://www."));
2708         return TRUE;
2709     } else if (str.Find(L"https://") != -1) {
2710         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"https://"));
2711         return TRUE;
2712     } else if (str.Find(L"www.") != -1) {
2713         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"www."));
2714         strBeCheck = L"http://" + strBeCheck;
2715         return TRUE;
2716     } else {
2717         return FALSE;
2718     }
2719 }
2720 FX_BOOL CPDF_LinkExtract::CheckMailLink(CFX_WideString& str)
2721 {
2722     str.MakeLower();
2723     int aPos = str.Find(L'@');
2724     if (aPos < 1) {
2725         return FALSE;
2726     }
2727     if (str.GetAt(aPos - 1) == L'.' || str.GetAt(aPos - 1) == L'_') {
2728         return FALSE;
2729     }
2730     int i;
2731     for (i = aPos - 1; i >= 0; i--) {
2732         FX_WCHAR ch = str.GetAt(i);
2733         if (ch == L'_' || ch == L'.' || (ch >= L'a' && ch <= L'z') || (ch >= L'0' && ch <= L'9')) {
2734             continue;
2735         } else {
2736             if (i == aPos - 1) {
2737                 return FALSE;
2738             }
2739             str = str.Right(str.GetLength() - i - 1);
2740             break;
2741         }
2742     }
2743     aPos = str.Find(L'@');
2744     if (aPos < 1) {
2745         return FALSE;
2746     }
2747     CFX_WideString strtemp = L"";
2748     for (i = 0; i < aPos; i++) {
2749         FX_WCHAR wch = str.GetAt(i);
2750         if (wch >= L'a' && wch <= L'z') {
2751             break;
2752         } else {
2753             strtemp = str.Right(str.GetLength() - i + 1);
2754         }
2755     }
2756     if (strtemp != L"") {
2757         str = strtemp;
2758     }
2759     aPos = str.Find(L'@');
2760     if (aPos < 1) {
2761         return FALSE;
2762     }
2763     str.TrimRight(L'.');
2764     strtemp = str;
2765     int ePos = str.Find(L'.');
2766     if (ePos == -1) {
2767         return FALSE;
2768     }
2769     while (ePos != -1) {
2770         strtemp = strtemp.Right(strtemp.GetLength() - ePos - 1);
2771         ePos = strtemp.Find('.');
2772     }
2773     ePos = strtemp.GetLength();
2774     for (i = 0; i < ePos; i++) {
2775         FX_WCHAR wch = str.GetAt(i);
2776         if ((wch >= L'a' && wch <= L'z') || (wch >= L'0' && wch <= L'9')) {
2777             continue;
2778         } else {
2779             str = str.Left(str.GetLength() - ePos + i + 1);
2780             ePos = ePos - i - 1;
2781             break;
2782         }
2783     }
2784     int nLen = str.GetLength();
2785     for (i = aPos + 1; i < nLen - ePos; i++) {
2786         FX_WCHAR wch = str.GetAt(i);
2787         if (wch == L'-' || wch == L'.' || (wch >= L'a' && wch <= L'z') || (wch >= L'0' && wch <= L'9')) {
2788             continue;
2789         } else {
2790             return FALSE;
2791         }
2792     }
2793     if (str.Find(L"mailto:") == -1) {
2794         str = L"mailto:" + str;
2795     }
2796     return TRUE;
2797 }
2798 FX_BOOL CPDF_LinkExtract::AppendToLinkList(int start, int count, const CFX_WideString& strUrl)
2799 {
2800     CPDF_LinkExt* linkInfo = new CPDF_LinkExt;
2801     linkInfo->m_strUrl = strUrl;
2802     linkInfo->m_Start = start;
2803     linkInfo->m_Count = count;
2804     m_LinkList.Add(linkInfo);
2805     return TRUE;
2806 }
2807 CFX_WideString CPDF_LinkExtract::GetURL(int index) const
2808 {
2809     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2810         return L"";
2811     }
2812     CPDF_LinkExt* link = NULL;
2813     link = m_LinkList.GetAt(index);
2814     if (!link) {
2815         return L"";
2816     }
2817     return link->m_strUrl;
2818 }
2819 void CPDF_LinkExtract::GetBoundedSegment(int index, int& start, int& count) const
2820 {
2821     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2822         return ;
2823     }
2824     CPDF_LinkExt* link = NULL;
2825     link = m_LinkList.GetAt(index);
2826     if (!link) {
2827         return ;
2828     }
2829     start = link->m_Start;
2830     count = link->m_Count;
2831 }
2832 void CPDF_LinkExtract::GetRects(int index, CFX_RectArray& rects) const
2833 {
2834     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2835         return;
2836     }
2837     CPDF_LinkExt* link = NULL;
2838     link = m_LinkList.GetAt(index);
2839     if (!link) {
2840         return ;
2841     }
2842     m_pTextPage->GetRectArray(link->m_Start, link->m_Count, rects);
2843 }