Fix an array size mismatch.
[pdfium.git] / core / src / fpdftext / fpdf_text_int.cpp
1 // Copyright 2014 PDFium Authors. All rights reserved.
2 // Use of this source code is governed by a BSD-style license that can be
3 // found in the LICENSE file.
4  
5 // Original code copyright 2014 Foxit Software Inc. http://www.foxitsoftware.com
6
7 #include "../../include/fpdfapi/fpdf_resource.h"
8 #include "../../include/fpdfapi/fpdf_pageobj.h"
9 #include "../../include/fpdftext/fpdf_text.h"
10 #include "../../include/fpdfapi/fpdf_page.h"
11 #include "../../include/fpdfapi/fpdf_module.h"
12 #include <ctype.h>
13 #include <algorithm>
14 #include "text_int.h"
15
16 namespace {
17
18 FX_BOOL _IsIgnoreSpaceCharacter(FX_WCHAR curChar)
19 {
20     if(curChar < 255 ) {
21         return FALSE;
22     }
23     if ( (curChar >= 0x0600 && curChar <= 0x06FF)
24             || (curChar >= 0xFE70 && curChar <= 0xFEFF)
25             || (curChar >= 0xFB50 && curChar <= 0xFDFF)
26             || (curChar >= 0x0400 && curChar <= 0x04FF)
27             || (curChar >= 0x0500 && curChar <= 0x052F)
28             || (curChar >= 0xA640 && curChar <= 0xA69F)
29             || (curChar >= 0x2DE0 && curChar <= 0x2DFF)
30             || curChar == 8467
31             || (curChar >= 0x2000 && curChar <= 0x206F)) {
32         return FALSE;
33     }
34     return TRUE;
35 }
36
37 FX_FLOAT _NormalizeThreshold(FX_FLOAT threshold)
38 {
39     if (threshold < 300) {
40         return threshold / 2.0;
41     } else if (threshold < 500) {
42         return threshold / 4.0;
43     } else if (threshold < 700) {
44         return threshold / 5.0;
45     }
46     return threshold / 6.0;
47 }
48
49 FX_FLOAT _CalculateBaseSpace(const CPDF_TextObject* pTextObj,
50                              const CFX_AffineMatrix& matrix)
51 {
52     FX_FLOAT baseSpace = 0.0;
53     const int nItems = pTextObj->CountItems();
54     if (pTextObj->m_TextState.GetObject()->m_CharSpace && nItems >= 3) {
55         FX_BOOL bAllChar = TRUE;
56         FX_FLOAT spacing = matrix.TransformDistance(
57             pTextObj->m_TextState.GetObject()->m_CharSpace);
58         baseSpace = spacing;
59         for (int i = 0; i < nItems; i++) {
60             CPDF_TextObjectItem item;
61             pTextObj->GetItemInfo(i, &item);
62             if (item.m_CharCode == (FX_DWORD) - 1) {
63                 FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
64                 FX_FLOAT kerning = -fontsize_h * item.m_OriginX / 1000;
65                 baseSpace = std::min(baseSpace, kerning + spacing);
66                 bAllChar = FALSE;
67             }
68         }
69         if (baseSpace < 0.0 || (nItems == 3 && !bAllChar)) {
70             baseSpace = 0.0;
71         }
72     }
73     return baseSpace;
74 }
75
76 }  // namespace
77
78 CPDFText_ParseOptions::CPDFText_ParseOptions()
79     : m_bGetCharCodeOnly(FALSE), m_bNormalizeObjs(TRUE), m_bOutputHyphen(FALSE)
80 {
81 }
82 IPDF_TextPage* IPDF_TextPage::CreateTextPage(const CPDF_Page* pPage, CPDFText_ParseOptions ParserOptions)
83 {
84     CPDF_TextPage* pTextPageEx = FX_NEW CPDF_TextPage(pPage, ParserOptions);
85     return pTextPageEx;
86 }
87 IPDF_TextPage* IPDF_TextPage::CreateTextPage(const CPDF_Page* pPage, int flags)
88 {
89     CPDF_TextPage* pTextPage = FX_NEW CPDF_TextPage(pPage, flags);
90     return      pTextPage;
91 }
92 IPDF_TextPage*  IPDF_TextPage::CreateTextPage(const CPDF_PageObjects* pObjs, int flags)
93 {
94     CPDF_TextPage* pTextPage = FX_NEW CPDF_TextPage(pObjs, flags);
95     return      pTextPage;
96 }
97 IPDF_TextPageFind*      IPDF_TextPageFind::CreatePageFind(const IPDF_TextPage* pTextPage)
98 {
99     if (!pTextPage) {
100         return NULL;
101     }
102     return FX_NEW CPDF_TextPageFind(pTextPage);
103 }
104 IPDF_LinkExtract* IPDF_LinkExtract::CreateLinkExtract()
105 {
106     return FX_NEW CPDF_LinkExtract();
107 }
108 #define  TEXT_BLANK_CHAR                L' '
109 #define  TEXT_LINEFEED_CHAR             L'\n'
110 #define  TEXT_RETURN_CHAR               L'\r'
111 #define  TEXT_EMPTY                             L""
112 #define  TEXT_BLANK                             L" "
113 #define  TEXT_RETURN_LINEFEED   L"\r\n"
114 #define  TEXT_LINEFEED                  L"\n"
115 #define  TEXT_CHARRATIO_GAPDELTA        0.070
116 CPDF_TextPage::CPDF_TextPage(const CPDF_Page* pPage, int flags)
117     : m_charList(512),
118       m_TempCharList(50),
119       m_pPreTextObj(NULL),
120       m_IsParsered(FALSE),
121       m_TextlineDir(-1),
122       m_CurlineRect(0, 0, 0, 0)
123 {
124     m_pPage = pPage;
125     m_parserflag = flags;
126     m_TextBuf.EstimateSize(0, 10240);
127     pPage->GetDisplayMatrix(m_DisplayMatrix, 0, 0, (int) pPage->GetPageWidth(), (int)pPage->GetPageHeight(), 0);
128 }
129 CPDF_TextPage::CPDF_TextPage(const CPDF_Page* pPage, CPDFText_ParseOptions ParserOptions)
130     : m_ParseOptions(ParserOptions)
131     , m_charList(512)
132     , m_TempCharList(50)
133     , m_pPreTextObj(NULL)
134     , m_IsParsered(FALSE)
135     , m_TextlineDir(-1)
136     , m_CurlineRect(0, 0, 0, 0)
137 {
138     m_pPage = pPage;
139     m_parserflag = 0;
140     m_TextBuf.EstimateSize(0, 10240);
141     pPage->GetDisplayMatrix(m_DisplayMatrix, 0, 0, (int) pPage->GetPageWidth(), (int)pPage->GetPageHeight(), 0);
142 }
143 CPDF_TextPage::CPDF_TextPage(const CPDF_PageObjects* pPage, int flags)
144     : m_charList(512),
145       m_TempCharList(50),
146       m_pPreTextObj(NULL),
147       m_IsParsered(FALSE),
148       m_TextlineDir(-1),
149       m_CurlineRect(0, 0, 0, 0)
150 {
151     m_pPage = pPage;
152     m_parserflag = flags;
153     m_TextBuf.EstimateSize(0, 10240);
154     CFX_FloatRect pageRect = pPage->CalcBoundingBox();
155     m_DisplayMatrix = CFX_AffineMatrix(1, 0, 0, -1, pageRect.right, pageRect.top);
156 }
157 void CPDF_TextPage::NormalizeObjects(FX_BOOL bNormalize)
158 {
159     m_ParseOptions.m_bNormalizeObjs = bNormalize;
160 }
161 FX_BOOL CPDF_TextPage::IsControlChar(PAGECHAR_INFO* pCharInfo)
162 {
163     if(!pCharInfo) {
164         return FALSE;
165     }
166     switch(pCharInfo->m_Unicode) {
167         case 0x2:
168         case 0x3:
169         case 0x93:
170         case 0x94:
171         case 0x96:
172         case 0x97:
173         case 0x98:
174         case 0xfffe:
175             if(pCharInfo->m_Flag == FPDFTEXT_CHAR_HYPHEN) {
176                 return FALSE;
177             } else {
178                 return TRUE;
179             }
180         default:
181             return FALSE;
182     }
183 }
184 FX_BOOL CPDF_TextPage::ParseTextPage()
185 {
186     if (!m_pPage) {
187         m_IsParsered = FALSE;
188         return FALSE;
189     }
190     m_IsParsered = FALSE;
191     m_TextBuf.Clear();
192     m_charList.RemoveAll();
193     m_pPreTextObj = NULL;
194     ProcessObject();
195     m_IsParsered = TRUE;
196     if(!m_ParseOptions.m_bGetCharCodeOnly) {
197         m_CharIndex.RemoveAll();
198         int nCount = m_charList.GetSize();
199         if(nCount) {
200             m_CharIndex.Add(0);
201         }
202         for(int i = 0; i < nCount; i++) {
203             int indexSize = m_CharIndex.GetSize();
204             FX_BOOL bNormal = FALSE;
205             PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(i);
206             if(charinfo.m_Flag == FPDFTEXT_CHAR_GENERATED) {
207                 bNormal = TRUE;
208             }
209             else if(charinfo.m_Unicode == 0 || IsControlChar(&charinfo))
210                 bNormal = FALSE;
211             else {
212                 bNormal = TRUE;
213             }
214             if(bNormal) {
215                 if(indexSize % 2) {
216                     m_CharIndex.Add(1);
217                 } else {
218                     if(indexSize <= 0) {
219                         continue;
220                     }
221                     m_CharIndex.SetAt(indexSize - 1, m_CharIndex.GetAt(indexSize - 1) + 1);
222                 }
223             } else {
224                 if(indexSize % 2) {
225                     if(indexSize <= 0) {
226                         continue;
227                     }
228                     m_CharIndex.SetAt(indexSize - 1, i + 1);
229                 } else {
230                     m_CharIndex.Add(i + 1);
231                 }
232             }
233         }
234         int indexSize = m_CharIndex.GetSize();
235         if(indexSize % 2) {
236             m_CharIndex.RemoveAt(indexSize - 1);
237         }
238     }
239     return TRUE;
240 }
241 int     CPDF_TextPage::CountChars() const
242 {
243     if(m_ParseOptions.m_bGetCharCodeOnly) {
244         return m_TextBuf.GetSize();
245     }
246     return m_charList.GetSize();
247 }
248 int CPDF_TextPage::CharIndexFromTextIndex(int TextIndex) const
249 {
250     int indexSize = m_CharIndex.GetSize();
251     int count = 0;
252     for(int i = 0; i < indexSize; i += 2) {
253         count += m_CharIndex.GetAt(i + 1);
254         if(count > TextIndex) {
255             return      TextIndex - count + m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i);
256         }
257     }
258     return -1;
259 }
260 int CPDF_TextPage::TextIndexFromCharIndex(int CharIndex) const
261 {
262     int indexSize = m_CharIndex.GetSize();
263     int count = 0;
264     for(int i = 0; i < indexSize; i += 2) {
265         count += m_CharIndex.GetAt(i + 1);
266         if(m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i) > CharIndex) {
267             if(CharIndex - m_CharIndex.GetAt(i) < 0) {
268                 return -1;
269             }
270             return      CharIndex - m_CharIndex.GetAt(i) + count - m_CharIndex.GetAt(i + 1);
271         }
272     }
273     return -1;
274 }
275 void CPDF_TextPage::GetRectArray(int start, int nCount, CFX_RectArray& rectArray) const
276 {
277     if(m_ParseOptions.m_bGetCharCodeOnly) {
278         return;
279     }
280     if(start < 0 || nCount == 0) {
281         return;
282     }
283     if (!m_IsParsered)  {
284         return;
285     }
286     PAGECHAR_INFO               info_curchar;
287     CPDF_TextObject*    pCurObj = NULL;
288     CFX_FloatRect               rect;
289     int                                 curPos = start;
290     FX_BOOL                             flagNewRect = TRUE;
291     if (nCount + start > m_charList.GetSize() || nCount == -1) {
292         nCount = m_charList.GetSize() - start;
293     }
294     while (nCount--) {
295         info_curchar = *(PAGECHAR_INFO*)m_charList.GetAt(curPos++);
296         if (info_curchar.m_Flag == FPDFTEXT_CHAR_GENERATED) {
297             continue;
298         }
299         if(info_curchar.m_CharBox.Width() < 0.01 || info_curchar.m_CharBox.Height() < 0.01) {
300             continue;
301         }
302         if(!pCurObj) {
303             pCurObj = info_curchar.m_pTextObj;
304         }
305         if (pCurObj != info_curchar.m_pTextObj) {
306             rectArray.Add(rect);
307             pCurObj = info_curchar.m_pTextObj;
308             flagNewRect = TRUE;
309         }
310         if (flagNewRect) {
311             FX_FLOAT orgX = info_curchar.m_OriginX, orgY = info_curchar.m_OriginY;
312             CFX_AffineMatrix matrix, matrix_reverse;
313             info_curchar.m_pTextObj->GetTextMatrix(&matrix);
314             matrix.Concat(info_curchar.m_Matrix);
315             matrix_reverse.SetReverse(matrix);
316             matrix_reverse.Transform(orgX, orgY);
317             rect.left = info_curchar.m_CharBox.left;
318             rect.right = info_curchar.m_CharBox.right;
319             if (pCurObj->GetFont()->GetTypeDescent()) {
320                 rect.bottom = orgY + pCurObj->GetFont()->GetTypeDescent() * pCurObj->GetFontSize() / 1000;
321                 FX_FLOAT xPosTemp = orgX;
322                 matrix.Transform(xPosTemp, rect.bottom);
323             } else {
324                 rect.bottom = info_curchar.m_CharBox.bottom;
325             }
326             if (pCurObj->GetFont()->GetTypeAscent()) {
327                 rect.top = orgY + pCurObj->GetFont()->GetTypeAscent() * pCurObj->GetFontSize() / 1000;
328                 FX_FLOAT xPosTemp = orgX + GetCharWidth(info_curchar.m_CharCode, pCurObj->GetFont()) * pCurObj->GetFontSize() / 1000;
329                 matrix.Transform(xPosTemp, rect.top);
330             } else {
331                 rect.top = info_curchar.m_CharBox.top;
332             }
333             flagNewRect = FALSE;
334             rect = info_curchar.m_CharBox;
335             rect.Normalize();
336         } else {
337             info_curchar.m_CharBox.Normalize();
338             if (rect.left > info_curchar.m_CharBox.left) {
339                 rect.left = info_curchar.m_CharBox.left;
340             }
341             if (rect.right < info_curchar.m_CharBox.right) {
342                 rect.right = info_curchar.m_CharBox.right;
343             }
344             if ( rect.top < info_curchar.m_CharBox.top) {
345                 rect.top = info_curchar.m_CharBox.top;
346             }
347             if (rect.bottom > info_curchar.m_CharBox.bottom) {
348                 rect.bottom = info_curchar.m_CharBox.bottom;
349             }
350         }
351     }
352     rectArray.Add(rect);
353     return;
354 }
355 int CPDF_TextPage::GetIndexAtPos(CPDF_Point point , FX_FLOAT xTorelance, FX_FLOAT yTorelance) const
356 {
357     if(m_ParseOptions.m_bGetCharCodeOnly) {
358         return -3;
359     }
360     if (!m_IsParsered)  {
361         return  -3;
362     }
363     int pos = 0;
364     int NearPos = -1;
365     double xdif = 5000, ydif = 5000;
366     while(pos < m_charList.GetSize()) {
367         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)(m_charList.GetAt(pos));
368         CFX_FloatRect charrect = charinfo.m_CharBox;
369         if (charrect.Contains(point.x, point.y)) {
370             break;
371         }
372         if (xTorelance > 0 || yTorelance > 0) {
373             CFX_FloatRect charRectExt;
374             charrect.Normalize();
375             charRectExt.left = charrect.left - xTorelance / 2;
376             charRectExt.right = charrect.right + xTorelance / 2;
377             charRectExt.top = charrect.top + yTorelance / 2;
378             charRectExt.bottom = charrect.bottom - yTorelance / 2;
379             if (charRectExt.Contains(point.x, point.y)) {
380                 double curXdif, curYdif;
381                 curXdif = FXSYS_fabs(point.x - charrect.left) < FXSYS_fabs(point.x - charrect.right) ? FXSYS_fabs(point.x - charrect.left) : FXSYS_fabs(point.x - charrect.right);
382                 curYdif = FXSYS_fabs(point.y - charrect.bottom) < FXSYS_fabs(point.y - charrect.top     ) ? FXSYS_fabs(point.y - charrect.bottom) : FXSYS_fabs(point.y - charrect.top);
383                 if (curYdif + curXdif < xdif + ydif) {
384                     ydif = curYdif;
385                     xdif = curXdif;
386                     NearPos = pos;
387                 }
388             }
389         }
390         ++pos;
391     }
392     if (pos >= m_charList.GetSize()) {
393         pos = NearPos;
394     }
395     return pos;
396 }
397 CFX_WideString CPDF_TextPage::GetTextByRect(const CFX_FloatRect& rect) const
398 {
399     CFX_WideString strText;
400     if(m_ParseOptions.m_bGetCharCodeOnly || !m_IsParsered) {
401         return strText;
402     }
403     int nCount = m_charList.GetSize();
404     int pos = 0;
405     FX_FLOAT posy = 0;
406     FX_BOOL IsContainPreChar = FALSE;
407     FX_BOOL     ISAddLineFeed = FALSE;
408     while (pos < nCount) {
409         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(pos++);
410         if (IsRectIntersect(rect, charinfo.m_CharBox)) {
411             if (FXSYS_fabs(posy - charinfo.m_OriginY) > 0 && !IsContainPreChar && ISAddLineFeed) {
412                 posy = charinfo.m_OriginY;
413                 if (strText.GetLength() > 0) {
414                     strText += L"\r\n";
415                 }
416             }
417             IsContainPreChar = TRUE;
418             ISAddLineFeed = FALSE;
419             if (charinfo.m_Unicode) {
420                 strText += charinfo.m_Unicode;
421             }
422         } else if (charinfo.m_Unicode == 32) {
423             if (IsContainPreChar && charinfo.m_Unicode) {
424                 strText += charinfo.m_Unicode;
425                 IsContainPreChar = FALSE;
426                 ISAddLineFeed = FALSE;
427             }
428         } else {
429             IsContainPreChar = FALSE;
430             ISAddLineFeed = TRUE;
431         }
432     }
433     return strText;
434 }
435 void CPDF_TextPage::GetRectsArrayByRect(const CFX_FloatRect& rect, CFX_RectArray& resRectArray) const
436 {
437     if(m_ParseOptions.m_bGetCharCodeOnly) {
438         return;
439     }
440     if (!m_IsParsered)  {
441         return;
442     }
443     CFX_FloatRect               curRect;
444     FX_BOOL                             flagNewRect = TRUE;
445     CPDF_TextObject*    pCurObj = NULL;
446     int nCount = m_charList.GetSize();
447     int pos = 0;
448     while (pos < nCount) {
449         PAGECHAR_INFO info_curchar = *(PAGECHAR_INFO*)m_charList.GetAt(pos++);
450         if (info_curchar.m_Flag == FPDFTEXT_CHAR_GENERATED) {
451             continue;
452         }
453         if (IsRectIntersect(rect, info_curchar.m_CharBox)) {
454             if(!pCurObj) {
455                 pCurObj = info_curchar.m_pTextObj;
456             }
457             if (pCurObj != info_curchar.m_pTextObj) {
458                 resRectArray.Add(curRect);
459                 pCurObj = info_curchar.m_pTextObj;
460                 flagNewRect = TRUE;
461             }
462             if (flagNewRect) {
463                 curRect = info_curchar.m_CharBox;
464                 flagNewRect = FALSE;
465                 curRect.Normalize();
466             } else {
467                 info_curchar.m_CharBox.Normalize();
468                 if (curRect.left > info_curchar.m_CharBox.left) {
469                     curRect.left = info_curchar.m_CharBox.left;
470                 }
471                 if (curRect.right < info_curchar.m_CharBox.right) {
472                     curRect.right = info_curchar.m_CharBox.right;
473                 }
474                 if ( curRect.top < info_curchar.m_CharBox.top) {
475                     curRect.top = info_curchar.m_CharBox.top;
476                 }
477                 if (curRect.bottom > info_curchar.m_CharBox.bottom) {
478                     curRect.bottom = info_curchar.m_CharBox.bottom;
479                 }
480             }
481         }
482     }
483     resRectArray.Add(curRect);
484     return;
485 }
486 int     CPDF_TextPage::GetIndexAtPos(FX_FLOAT x, FX_FLOAT y, FX_FLOAT xTorelance, FX_FLOAT yTorelance) const
487 {
488     if(m_ParseOptions.m_bGetCharCodeOnly) {
489         return -3;
490     }
491     CPDF_Point point(x, y);
492     return GetIndexAtPos(point, xTorelance, yTorelance);
493 }
494 int CPDF_TextPage::GetOrderByDirection(int order, int direction) const
495 {
496     if(m_ParseOptions.m_bGetCharCodeOnly) {
497         return -3;
498     }
499     if (!m_IsParsered) {
500         return -3;
501     }
502     if (direction == FPDFTEXT_RIGHT || direction == FPDFTEXT_LEFT) {
503         order += direction;
504         while(order >= 0 && order < m_charList.GetSize()) {
505             PAGECHAR_INFO cinfo = *(PAGECHAR_INFO*)m_charList.GetAt(order);
506             if (cinfo.m_Flag != FPDFTEXT_CHAR_GENERATED) {
507                 break;
508             } else {
509                 if (cinfo.m_Unicode == TEXT_LINEFEED_CHAR || cinfo.m_Unicode == TEXT_RETURN_CHAR) {
510                     order += direction;
511                 } else {
512                     break;
513                 }
514             }
515         }
516         if (order >= m_charList.GetSize()) {
517             order = -2;
518         }
519         return order;
520     }
521     PAGECHAR_INFO charinfo;
522     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(order);
523     CPDF_Point curPos(charinfo.m_OriginX, charinfo.m_OriginY);
524     FX_FLOAT difPosY = 0.0, minXdif = 1000;
525     int minIndex = -2;
526     int index = order;
527     FX_FLOAT height = charinfo.m_CharBox.Height();
528     if (direction == FPDFTEXT_UP) {
529         minIndex = -1;
530         while (1) {
531             if (--index < 0)    {
532                 return -1;
533             }
534             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
535             if (FXSYS_fabs(charinfo.m_OriginY - curPos.y) > FX_MAX(height, charinfo.m_CharBox.Height()) / 2) {
536                 difPosY = charinfo.m_OriginY;
537                 minIndex = index;
538                 break;
539             }
540         }
541         FX_FLOAT PreXdif = charinfo.m_OriginX - curPos.x;
542         minXdif = PreXdif;
543         if (PreXdif == 0)       {
544             return index;
545         }
546         FX_FLOAT curXdif = 0;
547         while (--index >= 0) {
548             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
549             if (difPosY != charinfo.m_OriginY) {
550                 break;
551             }
552             curXdif = charinfo.m_OriginX - curPos.x;
553             if (curXdif == 0) {
554                 return index;
555             }
556             int signflag = 0;
557             if (curXdif > 0) {
558                 signflag = 1;
559             } else {
560                 signflag = -1;
561             }
562             if (signflag * PreXdif < 0) {
563                 if (FXSYS_fabs(PreXdif) < FXSYS_fabs(curXdif)) {
564                     return index + 1;
565                 } else {
566                     return index;
567                 }
568             }
569             if (FXSYS_fabs(curXdif) < FXSYS_fabs(minXdif)) {
570                 minIndex = index;
571                 minXdif = curXdif;
572             }
573             PreXdif = curXdif;
574             if (difPosY != charinfo.m_OriginY) {
575                 break;
576             }
577         }
578         return minIndex;
579     } else if(FPDFTEXT_DOWN) {
580         minIndex = -2;
581         while (1) {
582             if (++index > m_charList.GetSize() - 1)     {
583                 return minIndex;
584             }
585             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
586             if (FXSYS_fabs(charinfo.m_OriginY - curPos.y) > FX_MAX(height, charinfo.m_CharBox.Height()) / 2) {
587                 difPosY = charinfo.m_OriginY;
588                 minIndex = index;
589                 break;
590             }
591         }
592         FX_FLOAT PreXdif = charinfo.m_OriginX - curPos.x;
593         minXdif = PreXdif;
594         if (PreXdif == 0)       {
595             return index;
596         }
597         FX_FLOAT curXdif = 0;
598         while (++index < m_charList.GetSize()) {
599             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
600             if (difPosY != charinfo.m_OriginY) {
601                 break;
602             }
603             curXdif = charinfo.m_OriginX - curPos.x;
604             if (curXdif == 0) {
605                 return index;
606             }
607             int signflag = 0;
608             if (curXdif > 0) {
609                 signflag = 1;
610             } else {
611                 signflag = -1;
612             }
613             if (signflag * PreXdif < 0) {
614                 if (FXSYS_fabs(PreXdif) < FXSYS_fabs(curXdif)) {
615                     return index - 1;
616                 } else {
617                     return index;
618                 }
619             }
620             if (FXSYS_fabs(curXdif) < FXSYS_fabs(minXdif)) {
621                 minXdif = curXdif;
622                 minIndex = index;
623             }
624             PreXdif = curXdif;
625         }
626         return minIndex;
627     }
628 }
629 void CPDF_TextPage::GetCharInfo(int index, FPDF_CHAR_INFO & info) const
630 {
631     if(m_ParseOptions.m_bGetCharCodeOnly) {
632         return;
633     }
634     if (!m_IsParsered)  {
635         return;
636     }
637     if (index < 0 || index >= m_charList.GetSize())     {
638         return;
639     }
640     PAGECHAR_INFO charinfo;
641     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
642     info.m_Charcode = charinfo.m_CharCode;
643     info.m_OriginX = charinfo.m_OriginX;
644     info.m_OriginY = charinfo.m_OriginY;
645     info.m_Unicode = charinfo.m_Unicode;
646     info.m_Flag = charinfo.m_Flag;
647     info.m_CharBox = charinfo.m_CharBox;
648     info.m_pTextObj = charinfo.m_pTextObj;
649     if (charinfo.m_pTextObj && charinfo.m_pTextObj->GetFont()) {
650         info.m_FontSize = charinfo.m_pTextObj->GetFontSize();
651     }
652     info.m_Matrix.Copy(charinfo.m_Matrix);
653     return;
654 }
655 void CPDF_TextPage::CheckMarkedContentObject(FX_INT32& start, FX_INT32& nCount) const
656 {
657     PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start);
658     PAGECHAR_INFO charinfo2 = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - 1);
659     if (FPDFTEXT_CHAR_PIECE != charinfo.m_Flag && FPDFTEXT_CHAR_PIECE != charinfo2.m_Flag) {
660         return;
661     }
662     if (FPDFTEXT_CHAR_PIECE == charinfo.m_Flag) {
663         PAGECHAR_INFO charinfo1 = charinfo;
664         int startIndex = start;
665         while(FPDFTEXT_CHAR_PIECE == charinfo1.m_Flag && charinfo1.m_Index == charinfo.m_Index) {
666             startIndex--;
667             if (startIndex < 0) {
668                 break;
669             }
670             charinfo1 = *(PAGECHAR_INFO*)m_charList.GetAt(startIndex);
671         }
672         startIndex++;
673         start = startIndex;
674     }
675     if (FPDFTEXT_CHAR_PIECE == charinfo2.m_Flag) {
676         PAGECHAR_INFO charinfo3 = charinfo2;
677         int endIndex = start + nCount - 1;
678         while(FPDFTEXT_CHAR_PIECE == charinfo3.m_Flag && charinfo3.m_Index == charinfo2.m_Index) {
679             endIndex++;
680             if (endIndex >= m_charList.GetSize())       {
681                 break;
682             }
683             charinfo3 = *(PAGECHAR_INFO*)m_charList.GetAt(endIndex);
684         }
685         endIndex--;
686         nCount = endIndex - start + 1;
687     }
688 }
689 CFX_WideString CPDF_TextPage::GetPageText(int start , int nCount) const
690 {
691     if (!m_IsParsered || nCount == 0) {
692         return L"";
693     }
694     if (start < 0) {
695         start = 0;
696     }
697     if  (nCount == -1) {
698         nCount = m_charList.GetSize() - start;
699         return m_TextBuf.GetWideString().Mid(start, m_TextBuf.GetWideString().GetLength());
700     }
701     if(nCount <= 0 || m_charList.GetSize() <= 0) {
702         return L"";
703     }
704     if(nCount + start > m_charList.GetSize() - 1) {
705         nCount = m_charList.GetSize() - start;
706     }
707     if (nCount <= 0) {
708         return L"";
709     }
710     CheckMarkedContentObject(start, nCount);
711     int startindex = 0;
712     PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start);
713     int startOffset = 0;
714     while(charinfo.m_Index == -1) {
715         startOffset++;
716         if (startOffset > nCount || start + startOffset >= m_charList.GetSize())        {
717             return L"";
718         }
719         charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + startOffset);
720     }
721     startindex = charinfo.m_Index;
722     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - 1);
723     int nCountOffset = 0;
724     while (charinfo.m_Index == -1) {
725         nCountOffset++;
726         if (nCountOffset >= nCount) {
727             return L"";
728         }
729         charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(start + nCount - nCountOffset - 1);
730     }
731     nCount = start + nCount - nCountOffset - startindex;
732     if(nCount <= 0) {
733         return L"";
734     }
735     return m_TextBuf.GetWideString().Mid(startindex, nCount);
736 }
737 int CPDF_TextPage::CountRects(int start, int nCount)
738 {
739     if(m_ParseOptions.m_bGetCharCodeOnly) {
740         return -1;
741     }
742     if (!m_IsParsered)  {
743         return -1;
744     }
745     if (start < 0) {
746         return -1;
747     }
748     if (nCount == -1 || nCount + start > m_charList.GetSize() ) {
749         nCount = m_charList.GetSize() - start;
750     }
751     m_SelRects.RemoveAll();
752     GetRectArray(start, nCount, m_SelRects);
753     return m_SelRects.GetSize();
754 }
755 void CPDF_TextPage::GetRect(int rectIndex, FX_FLOAT& left, FX_FLOAT& top, FX_FLOAT& right, FX_FLOAT &bottom) const
756 {
757     if(m_ParseOptions.m_bGetCharCodeOnly) {
758         return ;
759     }
760     if (!m_IsParsered || rectIndex < 0 || rectIndex >= m_SelRects.GetSize()) {
761         return;
762     }
763     left = m_SelRects.GetAt(rectIndex).left;
764     top = m_SelRects.GetAt(rectIndex).top;
765     right = m_SelRects.GetAt(rectIndex).right;
766     bottom = m_SelRects.GetAt(rectIndex).bottom;
767 }
768 FX_BOOL CPDF_TextPage::GetBaselineRotate(int start, int end, int& Rotate)
769 {
770     if(m_ParseOptions.m_bGetCharCodeOnly) {
771         return FALSE;
772     }
773     if(end == start) {
774         return FALSE;
775     }
776     FX_FLOAT dx, dy;
777     FPDF_CHAR_INFO info1, info2;
778     GetCharInfo(start, info1);
779     GetCharInfo(end, info2);
780     while(info2.m_CharBox.Width() == 0 || info2.m_CharBox.Height() == 0) {
781         end--;
782         if(end <= start) {
783             return FALSE;
784         }
785         GetCharInfo(end, info2);
786     }
787     dx = (info2.m_OriginX - info1.m_OriginX);
788     dy = (info2.m_OriginY - info1.m_OriginY);
789     if(dx == 0) {
790         if(dy > 0) {
791             Rotate = 90;
792         } else if (dy < 0) {
793             Rotate = 270;
794         } else {
795             Rotate = 0;
796         }
797     } else {
798         float a = FXSYS_atan2(dy, dx);
799         Rotate = (int)(a * 180 / FX_PI + 0.5);
800     }
801     if(Rotate < 0) {
802         Rotate = -Rotate;
803     } else if(Rotate > 0) {
804         Rotate = 360 - Rotate;
805     }
806     return TRUE;
807 }
808 FX_BOOL CPDF_TextPage::GetBaselineRotate(const CFX_FloatRect& rect , int& Rotate)
809 {
810     if(m_ParseOptions.m_bGetCharCodeOnly) {
811         return FALSE;
812     }
813     int start, end, count, n = CountBoundedSegments(rect.left, rect.top, rect.right, rect.bottom, TRUE);
814     if(n < 1) {
815         return FALSE;
816     }
817     if(n > 1) {
818         GetBoundedSegment(n - 1, start, count);
819         end = start + count - 1;
820         GetBoundedSegment(0, start, count);
821     } else {
822         GetBoundedSegment(0, start, count);
823         end = start + count - 1;
824     }
825     return GetBaselineRotate(start, end, Rotate);
826 }
827 FX_BOOL CPDF_TextPage::GetBaselineRotate(int rectIndex, int& Rotate)
828 {
829     if(m_ParseOptions.m_bGetCharCodeOnly) {
830         return FALSE;
831     }
832     if (!m_IsParsered || rectIndex < 0 || rectIndex > m_SelRects.GetSize()) {
833         return FALSE;
834     }
835     CFX_FloatRect rect = m_SelRects.GetAt(rectIndex);
836     return GetBaselineRotate(rect , Rotate);
837 }
838 int     CPDF_TextPage::CountBoundedSegments(FX_FLOAT left, FX_FLOAT top, FX_FLOAT right, FX_FLOAT bottom, FX_BOOL bContains )
839 {
840     if(m_ParseOptions.m_bGetCharCodeOnly) {
841         return -1;
842     }
843     m_Segment.RemoveAll();
844     if (!m_IsParsered)  {
845         return -1;
846     }
847     CFX_FloatRect rect(left, bottom, right, top);
848     rect.Normalize();
849     int nCount = m_charList.GetSize();
850     int pos = 0;
851     FPDF_SEGMENT        segment;
852     segment.m_Start = 0;
853     segment.m_nCount = 0;
854     FX_BOOL             segmentStatus = 0;
855     FX_BOOL             IsContainPreChar = FALSE;
856     while (pos < nCount) {
857         PAGECHAR_INFO charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(pos);
858         if(bContains && rect.Contains(charinfo.m_CharBox)) {
859             if (segmentStatus == 0 || segmentStatus == 2) {
860                 segment.m_Start = pos;
861                 segment.m_nCount = 1;
862                 segmentStatus = 1;
863             } else if (segmentStatus == 1) {
864                 segment.m_nCount++;
865             }
866             IsContainPreChar = TRUE;
867         } else if (!bContains && (IsRectIntersect(rect, charinfo.m_CharBox) || rect.Contains(charinfo.m_OriginX, charinfo.m_OriginY))) {
868             if (segmentStatus == 0 || segmentStatus == 2) {
869                 segment.m_Start = pos;
870                 segment.m_nCount = 1;
871                 segmentStatus = 1;
872             } else if (segmentStatus == 1) {
873                 segment.m_nCount++;
874             }
875             IsContainPreChar = TRUE;
876         } else if (charinfo.m_Unicode == 32) {
877             if (IsContainPreChar == TRUE) {
878                 if (segmentStatus == 0 || segmentStatus == 2) {
879                     segment.m_Start = pos;
880                     segment.m_nCount = 1;
881                     segmentStatus = 1;
882                 } else if (segmentStatus == 1) {
883                     segment.m_nCount++;
884                 }
885                 IsContainPreChar = FALSE;
886             } else {
887                 if (segmentStatus == 1) {
888                     segmentStatus = 2;
889                     m_Segment.Add(segment);
890                     segment.m_Start = 0;
891                     segment.m_nCount = 0;
892                 }
893             }
894         } else {
895             if (segmentStatus == 1) {
896                 segmentStatus = 2;
897                 m_Segment.Add(segment);
898                 segment.m_Start = 0;
899                 segment.m_nCount = 0;
900             }
901             IsContainPreChar = FALSE;
902         }
903         pos++;
904     }
905     if (segmentStatus == 1) {
906         segmentStatus = 2;
907         m_Segment.Add(segment);
908         segment.m_Start = 0;
909         segment.m_nCount = 0;
910     }
911     return m_Segment.GetSize();
912 }
913 void CPDF_TextPage::GetBoundedSegment(int index, int& start, int& count) const
914 {
915     if(m_ParseOptions.m_bGetCharCodeOnly) {
916         return ;
917     }
918     if (index < 0 || index >= m_Segment.GetSize()) {
919         return;
920     }
921     start = m_Segment.GetAt(index).m_Start;
922     count = m_Segment.GetAt(index).m_nCount;
923 }
924 int CPDF_TextPage::GetWordBreak(int index, int direction) const
925 {
926     if(m_ParseOptions.m_bGetCharCodeOnly) {
927         return -1;
928     }
929     if (!m_IsParsered)  {
930         return -1;
931     }
932     if (direction != FPDFTEXT_LEFT && direction != FPDFTEXT_RIGHT) {
933         return -1;
934     }
935     if (index < 0 || index >= m_charList.GetSize()) {
936         return -1;
937     }
938     PAGECHAR_INFO charinfo;
939     charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(index);
940     if (charinfo.m_Index == -1 || charinfo.m_Flag == FPDFTEXT_CHAR_GENERATED)   {
941         return index;
942     }
943     if (!IsLetter(charinfo.m_Unicode)) {
944         return index;
945     }
946     int breakPos = index;
947     if (direction == FPDFTEXT_LEFT) {
948         while (--breakPos > 0) {
949             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(breakPos);
950             if (!IsLetter(charinfo.m_Unicode)) {
951                 return breakPos;
952             }
953         }
954         return breakPos;
955     } else if (direction == FPDFTEXT_RIGHT) {
956         while (++breakPos < m_charList.GetSize()) {
957             charinfo = *(PAGECHAR_INFO*)m_charList.GetAt(breakPos);
958             if (!IsLetter(charinfo.m_Unicode)) {
959                 return breakPos;
960             }
961         }
962         return breakPos;
963     }
964     return breakPos;
965 }
966 FX_INT32 CPDF_TextPage::FindTextlineFlowDirection()
967 {
968     if (!m_pPage)       {
969         return -1;
970     }
971     const FX_INT32 nPageWidth = (FX_INT32)((CPDF_Page*)m_pPage)->GetPageWidth();
972     const FX_INT32 nPageHeight = (FX_INT32)((CPDF_Page*)m_pPage)->GetPageHeight();
973     CFX_ByteArray nHorizontalMask;
974     if (!nHorizontalMask.SetSize(nPageWidth)) {
975         return -1;
976     }
977     FX_BYTE* pDataH = nHorizontalMask.GetData();
978     CFX_ByteArray nVerticalMask;
979     if (!nVerticalMask.SetSize(nPageHeight)) {
980         return -1;
981     }
982     FX_BYTE* pDataV = nVerticalMask.GetData();
983     FX_INT32 index = 0;
984     FX_FLOAT fLineHeight = 0.0f;
985     CPDF_PageObject* pPageObj = NULL;
986     FX_POSITION pos = NULL;
987     pos = m_pPage->GetFirstObjectPosition();
988     if(!pos) {
989         return -1;
990     }
991     while(pos) {
992         pPageObj = m_pPage->GetNextObject(pos);
993         if(NULL == pPageObj) {
994             continue;
995         }
996         if(PDFPAGE_TEXT != pPageObj->m_Type) {
997             continue;
998         }
999         FX_INT32 minH = (FX_INT32)pPageObj->m_Left < 0 ? 0 : (FX_INT32)pPageObj->m_Left;
1000         FX_INT32 maxH = (FX_INT32)pPageObj->m_Right > nPageWidth ? nPageWidth : (FX_INT32)pPageObj->m_Right;
1001         FX_INT32 minV = (FX_INT32)pPageObj->m_Bottom < 0 ? 0 : (FX_INT32)pPageObj->m_Bottom;
1002         FX_INT32 maxV = (FX_INT32)pPageObj->m_Top > nPageHeight ? nPageHeight : (FX_INT32)pPageObj->m_Top;
1003         if (minH >= maxH || minV >= maxV) {
1004             continue;
1005         }
1006         FXSYS_memset8(pDataH + minH, 1, maxH - minH);
1007         FXSYS_memset8(pDataV + minV, 1, maxV - minV);
1008         if (fLineHeight <= 0.0f) {
1009             fLineHeight = pPageObj->m_Top - pPageObj->m_Bottom;
1010         }
1011         pPageObj = NULL;
1012     }
1013     FX_INT32 nStartH = 0;
1014     FX_INT32 nEndH = 0;
1015     FX_FLOAT nSumH = 0.0f;
1016     for (index = 0; index < nPageWidth; index++)
1017         if(1 == nHorizontalMask[index]) {
1018             break;
1019         }
1020     nStartH = index;
1021     for (index = nPageWidth; index > 0; index--)
1022         if(1 == nHorizontalMask[index - 1]) {
1023             break;
1024         }
1025     nEndH = index;
1026     for (index = nStartH; index < nEndH; index++) {
1027         nSumH += nHorizontalMask[index];
1028     }
1029     nSumH /= nEndH - nStartH;
1030     FX_INT32 nStartV = 0;
1031     FX_INT32 nEndV = 0;
1032     FX_FLOAT nSumV = 0.0f;
1033     for (index = 0; index < nPageHeight; index++)
1034         if(1 == nVerticalMask[index]) {
1035             break;
1036         }
1037     nStartV = index;
1038     for (index = nPageHeight; index > 0; index--)
1039         if(1 == nVerticalMask[index - 1]) {
1040             break;
1041         }
1042     nEndV = index;
1043     for (index = nStartV; index < nEndV; index++) {
1044         nSumV += nVerticalMask[index];
1045     }
1046     nSumV /= nEndV - nStartV;
1047     if ((nEndV - nStartV) < (FX_INT32)(2 * fLineHeight)) {
1048         return 0;
1049     }
1050     if ((nEndH - nStartH) < (FX_INT32)(2 * fLineHeight)) {
1051         return 1;
1052     }
1053     if (nSumH > 0.8f) {
1054         return 0;
1055     }
1056     if (nSumH - nSumV > 0.0f) {
1057         return 0;
1058     }
1059     if (nSumV - nSumH > 0.0f) {
1060         return 1;
1061     }
1062     return -1;
1063 }
1064 void CPDF_TextPage::ProcessObject()
1065 {
1066     CPDF_PageObject*    pPageObj = NULL;
1067     if (!m_pPage)       {
1068         return;
1069     }
1070     FX_POSITION pos;
1071     pos = m_pPage->GetFirstObjectPosition();
1072     if (!pos)   {
1073         return;
1074     }
1075     m_TextlineDir = FindTextlineFlowDirection();
1076     int nCount = 0;
1077     while (pos) {
1078         pPageObj = m_pPage->GetNextObject(pos);
1079         if(pPageObj) {
1080             if(pPageObj->m_Type == PDFPAGE_TEXT) {
1081                 CFX_AffineMatrix matrix;
1082                 ProcessTextObject((CPDF_TextObject*)pPageObj, matrix, pos);
1083                 nCount++;
1084             } else if (pPageObj->m_Type == PDFPAGE_FORM) {
1085                 CFX_AffineMatrix formMatrix(1, 0, 0, 1, 0, 0);
1086                 ProcessFormObject((CPDF_FormObject*)pPageObj, formMatrix);
1087             }
1088         }
1089         pPageObj = NULL;
1090     }
1091     int count = m_LineObj.GetSize();
1092     for(int i = 0; i < count; i++) {
1093         ProcessTextObject(m_LineObj.GetAt(i));
1094     }
1095     m_LineObj.RemoveAll();
1096     CloseTempLine();
1097 }
1098 void CPDF_TextPage::ProcessFormObject(CPDF_FormObject* pFormObj, const CFX_AffineMatrix& formMatrix)
1099 {
1100     CPDF_PageObject*    pPageObj = NULL;
1101     FX_POSITION pos;
1102     if (!pFormObj)      {
1103         return;
1104     }
1105     pos = pFormObj->m_pForm->GetFirstObjectPosition();
1106     if (!pos)   {
1107         return;
1108     }
1109     CFX_AffineMatrix curFormMatrix;
1110     curFormMatrix.Copy(pFormObj->m_FormMatrix);
1111     curFormMatrix.Concat(formMatrix);
1112     while (pos) {
1113         pPageObj = pFormObj->m_pForm->GetNextObject(pos);
1114         if(pPageObj) {
1115             if(pPageObj->m_Type == PDFPAGE_TEXT) {
1116                 ProcessTextObject((CPDF_TextObject*)pPageObj, curFormMatrix, pos);
1117             } else if (pPageObj->m_Type == PDFPAGE_FORM) {
1118                 ProcessFormObject((CPDF_FormObject*)pPageObj, curFormMatrix);
1119             }
1120         }
1121         pPageObj = NULL;
1122     }
1123 }
1124 int CPDF_TextPage::GetCharWidth(FX_DWORD charCode, CPDF_Font* pFont) const
1125 {
1126     if(charCode == -1) {
1127         return 0;
1128     }
1129     int w = pFont->GetCharWidthF(charCode);
1130     if(w == 0) {
1131         CFX_ByteString str;
1132         pFont->AppendChar(str, charCode);
1133         w = pFont->GetStringWidth(str, 1);
1134         if(w == 0) {
1135             FX_RECT BBox;
1136             pFont->GetCharBBox(charCode, BBox);
1137             w = BBox.right - BBox.left;
1138         }
1139     }
1140     return w;
1141 }
1142 void CPDF_TextPage::OnPiece(IFX_BidiChar* pBidi, CFX_WideString& str)
1143 {
1144     FX_INT32 start, count;
1145     FX_INT32 ret = pBidi->GetBidiInfo(start, count);
1146     if(ret == 2) {
1147         for(int i = start + count - 1; i >= start; i--) {
1148             m_TextBuf.AppendChar(str.GetAt(i));
1149             m_charList.Add(*(PAGECHAR_INFO*)m_TempCharList.GetAt(i));
1150         }
1151     } else {
1152         int end = start + count ;
1153         for(int i = start; i < end; i++) {
1154             m_TextBuf.AppendChar(str.GetAt(i));
1155             m_charList.Add(*(PAGECHAR_INFO*)m_TempCharList.GetAt(i));
1156         }
1157     }
1158 }
1159 void CPDF_TextPage::AddCharInfoByLRDirection(CFX_WideString& str, int i)
1160 {
1161     PAGECHAR_INFO Info = *(PAGECHAR_INFO*)m_TempCharList.GetAt(i);
1162     FX_WCHAR wChar = str.GetAt(i);
1163     if(!IsControlChar(&Info)) {
1164         Info.m_Index = m_TextBuf.GetLength();
1165         if (wChar >= 0xFB00 && wChar <= 0xFB06) {
1166             FX_LPWSTR pDst = NULL;
1167             FX_STRSIZE nCount = FX_Unicode_GetNormalization(wChar, pDst);
1168             if (nCount >= 1) {
1169                 pDst = FX_Alloc(FX_WCHAR, nCount);
1170                 if (!pDst) {
1171                     return;
1172                 }
1173                 FX_Unicode_GetNormalization(wChar, pDst);
1174                 for (int nIndex = 0; nIndex < nCount; nIndex++) {
1175                     PAGECHAR_INFO Info2 = Info;
1176                     Info2.m_Unicode = pDst[nIndex];
1177                     Info2.m_Flag = FPDFTEXT_CHAR_PIECE;
1178                     m_TextBuf.AppendChar(Info2.m_Unicode);
1179                     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1180                         m_charList.Add(Info2);
1181                     }
1182                 }
1183                 FX_Free(pDst);
1184                 return;
1185             }
1186         }
1187         m_TextBuf.AppendChar(wChar);
1188     } else {
1189         Info.m_Index = -1;
1190     }
1191     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1192         m_charList.Add(Info);
1193     }
1194 }
1195 void CPDF_TextPage::AddCharInfoByRLDirection(CFX_WideString& str, int i)
1196 {
1197     PAGECHAR_INFO Info = *(PAGECHAR_INFO*)m_TempCharList.GetAt(i);
1198     if(!IsControlChar(&Info)) {
1199         Info.m_Index = m_TextBuf.GetLength();
1200         FX_WCHAR wChar = FX_GetMirrorChar(str.GetAt(i), TRUE, FALSE);
1201         FX_LPWSTR pDst = NULL;
1202         FX_STRSIZE nCount = FX_Unicode_GetNormalization(wChar, pDst);
1203         if (nCount >= 1) {
1204             pDst = FX_Alloc(FX_WCHAR, nCount);
1205             if (!pDst) {
1206                 return;
1207             }
1208             FX_Unicode_GetNormalization(wChar, pDst);
1209             for (int nIndex = 0; nIndex < nCount; nIndex++) {
1210                 PAGECHAR_INFO Info2 = Info;
1211                 Info2.m_Unicode = pDst[nIndex];
1212                 Info2.m_Flag = FPDFTEXT_CHAR_PIECE;
1213                 m_TextBuf.AppendChar(Info2.m_Unicode);
1214                 if( !m_ParseOptions.m_bGetCharCodeOnly) {
1215                     m_charList.Add(Info2);
1216                 }
1217             }
1218             FX_Free(pDst);
1219             return;
1220         } else {
1221             Info.m_Unicode = wChar;
1222         }
1223         m_TextBuf.AppendChar(Info.m_Unicode);
1224     } else {
1225         Info.m_Index = -1;
1226     }
1227     if( !m_ParseOptions.m_bGetCharCodeOnly) {
1228         m_charList.Add(Info);
1229     }
1230 }
1231 void CPDF_TextPage::CloseTempLine()
1232 {
1233     int count1 = m_TempCharList.GetSize();
1234     if (count1 <= 0) {
1235         return;
1236     }
1237     IFX_BidiChar* BidiChar = IFX_BidiChar::Create();
1238     CFX_WideString str = m_TempTextBuf.GetWideString();
1239     CFX_WordArray order;
1240     FX_BOOL bR2L = FALSE;
1241     FX_INT32 start = 0, count = 0;
1242     int nR2L = 0, nL2R = 0;
1243     FX_BOOL bPrevSpace = FALSE;
1244     for (int i = 0; i < str.GetLength(); i++) {
1245         if(str.GetAt(i) == 32) {
1246             if(bPrevSpace) {
1247                 m_TempTextBuf.Delete(i, 1);
1248                 m_TempCharList.Delete(i);
1249                 str.Delete(i);
1250                 count1--;
1251                 i--;
1252                 continue;
1253             }
1254             bPrevSpace = TRUE;
1255         } else {
1256             bPrevSpace = FALSE;
1257         }
1258         if(BidiChar && BidiChar->AppendChar(str.GetAt(i))) {
1259             FX_INT32 ret = BidiChar->GetBidiInfo(start, count);
1260             order.Add(start);
1261             order.Add(count);
1262             order.Add(ret);
1263             if(!bR2L) {
1264                 if(ret == 2) {
1265                     nR2L++;
1266                 } else if (ret == 1) {
1267                     nL2R++;
1268                 }
1269             }
1270         }
1271     }
1272     if(BidiChar && BidiChar->EndChar()) {
1273         FX_INT32 ret = BidiChar->GetBidiInfo(start, count);
1274         order.Add(start);
1275         order.Add(count);
1276         order.Add(ret);
1277         if(!bR2L) {
1278             if(ret == 2) {
1279                 nR2L++;
1280             } else if(ret == 1) {
1281                 nL2R++;
1282             }
1283         }
1284     }
1285     if(nR2L > 0 && nR2L >= nL2R) {
1286         bR2L = TRUE;
1287     }
1288     if(this->m_parserflag == FPDFTEXT_RLTB || bR2L) {
1289         int count = order.GetSize();
1290         for(int i = count - 1; i > 0; i -= 3) {
1291             int ret = order.GetAt(i);
1292             int start = order.GetAt(i - 2);
1293             int count1 = order.GetAt(i - 1);
1294             if(ret == 2 || ret == 0) {
1295                 for(int j = start + count1 - 1; j >= start; j--) {
1296                     AddCharInfoByRLDirection(str, j);
1297                 }
1298             } else {
1299                 int j = i;
1300                 FX_BOOL bSymbol = FALSE;
1301                 while(j > 0 && order.GetAt(j) != 2) {
1302                     bSymbol = !order.GetAt(j);
1303                     j -= 3;
1304                 }
1305                 int end = start + count1 ;
1306                 int n = 0;
1307                 if(bSymbol) {
1308                     n = j + 6;
1309                 } else {
1310                     n = j + 3;
1311                 }
1312                 if(n >= i) {
1313                     for(int m = start; m < end; m++) {
1314                         AddCharInfoByLRDirection(str, m);
1315                     }
1316                 } else {
1317                     j = i;
1318                     i = n;
1319                     for(; n <= j; n += 3) {
1320                         int start = order.GetAt(n - 2);
1321                         int count1 = order.GetAt(n - 1);
1322                         int end = start + count1 ;
1323                         for(int m = start; m < end; m++) {
1324                             AddCharInfoByLRDirection(str, m);
1325                         }
1326                     }
1327                 }
1328             }
1329         }
1330     } else {
1331         int count = order.GetSize();
1332         FX_BOOL bL2R = FALSE;
1333         for(int i = 0; i < count; i += 3) {
1334             int ret = order.GetAt(i + 2);
1335             int start = order.GetAt(i);
1336             int count1 = order.GetAt(i + 1);
1337             if(ret == 2 || (i == 0 && ret == 0 && !bL2R)) {
1338                 int j = i + 3;
1339                 while(bR2L && j < count) {
1340                     if(order.GetAt(j + 2) == 1) {
1341                         break;
1342                     } else {
1343                         j += 3;
1344                     }
1345                 }
1346                 if(j == 3) {
1347                     i = -3;
1348                     bL2R = TRUE;
1349                     continue;
1350                 }
1351                 int end = m_TempCharList.GetSize() - 1;
1352                 if(j < count) {
1353                     end = order.GetAt(j) - 1;
1354                 }
1355                 i = j - 3;
1356                 for(int n = end; n >= start; n--) {
1357                     AddCharInfoByRLDirection(str, n);
1358                 }
1359             } else {
1360                 int end = start + count1 ;
1361                 for(int n = start; n < end; n++) {
1362                     AddCharInfoByLRDirection(str, n);
1363                 }
1364             }
1365         }
1366     }
1367     int ntext = m_TextBuf.GetSize();
1368     ntext = m_charList.GetSize();
1369     order.RemoveAll();
1370     m_TempCharList.RemoveAll();
1371     m_TempTextBuf.Delete(0, m_TempTextBuf.GetLength());
1372     BidiChar->Release();
1373 }
1374 void CPDF_TextPage::ProcessTextObject(CPDF_TextObject*  pTextObj, const CFX_AffineMatrix& formMatrix, FX_POSITION ObjPos)
1375 {
1376     CFX_FloatRect re(pTextObj->m_Left, pTextObj->m_Bottom, pTextObj->m_Right, pTextObj->m_Top);
1377     if(FXSYS_fabs(pTextObj->m_Right - pTextObj->m_Left) < 0.01f ) {
1378         return;
1379     }
1380     int count = m_LineObj.GetSize();
1381     PDFTEXT_Obj Obj;
1382     Obj.m_pTextObj = pTextObj;
1383     Obj.m_formMatrix = formMatrix;
1384     if(count == 0) {
1385         m_LineObj.Add(Obj);
1386         return;
1387     }
1388     if (IsSameAsPreTextObject(pTextObj, ObjPos)) {
1389         return;
1390     }
1391     PDFTEXT_Obj prev_Obj = m_LineObj.GetAt(count - 1);
1392     CPDF_TextObjectItem item;
1393     int nItem = prev_Obj.m_pTextObj->CountItems();
1394     prev_Obj.m_pTextObj->GetItemInfo(nItem - 1, &item);
1395     FX_FLOAT prev_width = GetCharWidth(item.m_CharCode, prev_Obj.m_pTextObj->GetFont()) * prev_Obj.m_pTextObj->GetFontSize() / 1000;
1396     CFX_AffineMatrix prev_matrix;
1397     prev_Obj.m_pTextObj->GetTextMatrix(&prev_matrix);
1398     prev_width = FXSYS_fabs(prev_width);
1399     prev_matrix.Concat(prev_Obj.m_formMatrix);
1400     prev_width = prev_matrix.TransformDistance(prev_width);
1401     pTextObj->GetItemInfo(0, &item);
1402     FX_FLOAT this_width = GetCharWidth(item.m_CharCode, pTextObj->GetFont()) * pTextObj->GetFontSize() / 1000;
1403     this_width = FXSYS_fabs(this_width);
1404     CFX_AffineMatrix this_matrix;
1405     pTextObj->GetTextMatrix(&this_matrix);
1406     this_width = FXSYS_fabs(this_width);
1407     this_matrix.Concat(formMatrix);
1408     this_width = this_matrix.TransformDistance(this_width);
1409     FX_FLOAT threshold = prev_width > this_width ? prev_width / 4 : this_width / 4;
1410     FX_FLOAT prev_x = prev_Obj.m_pTextObj->GetPosX(), prev_y = prev_Obj.m_pTextObj->GetPosY();
1411     prev_Obj.m_formMatrix.Transform(prev_x, prev_y);
1412     m_DisplayMatrix.Transform(prev_x, prev_y);
1413     FX_FLOAT this_x = pTextObj->GetPosX(), this_y = pTextObj->GetPosY();
1414     formMatrix.Transform(this_x, this_y);
1415     m_DisplayMatrix.Transform(this_x, this_y);
1416     if (FXSYS_fabs(this_y - prev_y) > threshold * 2) {
1417         for(int i = 0; i < count; i++) {
1418             ProcessTextObject(m_LineObj.GetAt(i));
1419         }
1420         m_LineObj.RemoveAll();
1421         m_LineObj.Add(Obj);
1422         return;
1423     }
1424     int i = 0;
1425     if(m_ParseOptions.m_bNormalizeObjs) {
1426         for(i = count - 1; i >= 0; i--) {
1427             PDFTEXT_Obj prev_Obj = m_LineObj.GetAt(i);
1428             CFX_AffineMatrix prev_matrix;
1429             prev_Obj.m_pTextObj->GetTextMatrix(&prev_matrix);
1430             FX_FLOAT Prev_x = prev_Obj.m_pTextObj->GetPosX(), Prev_y = prev_Obj.m_pTextObj->GetPosY();
1431             prev_Obj.m_formMatrix.Transform(Prev_x, Prev_y);
1432             m_DisplayMatrix.Transform(Prev_x, Prev_y);
1433             if(this_x >= Prev_x) {
1434                 if(i == count - 1) {
1435                     m_LineObj.Add(Obj);
1436                 } else {
1437                     m_LineObj.InsertAt(i + 1, Obj);
1438                 }
1439                 break;
1440             }
1441         }
1442         if(i < 0) {
1443             m_LineObj.InsertAt(0, Obj);
1444         }
1445     } else {
1446         m_LineObj.Add(Obj);
1447     }
1448 }
1449 FX_INT32 CPDF_TextPage::PreMarkedContent(PDFTEXT_Obj Obj)
1450 {
1451     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1452     CPDF_ContentMarkData* pMarkData = (CPDF_ContentMarkData*)pTextObj->m_ContentMark.GetObject();
1453     if(!pMarkData) {
1454         return FPDFTEXT_MC_PASS;
1455     }
1456     int nContentMark = pMarkData->CountItems();
1457     if (nContentMark < 1) {
1458         return FPDFTEXT_MC_PASS;
1459     }
1460     CFX_WideString actText;
1461     FX_BOOL bExist = FALSE;
1462     CPDF_Dictionary* pDict = NULL;
1463     int n = 0;
1464     for (n = 0; n < nContentMark; n++) {
1465         CPDF_ContentMarkItem& item = pMarkData->GetItem(n);
1466         CFX_ByteString tagStr = (CFX_ByteString)item.GetName();
1467         pDict = (CPDF_Dictionary*)item.GetParam();
1468         CPDF_String* temp = (CPDF_String*)(pDict ? pDict->GetElement(FX_BSTRC("ActualText")) : NULL);
1469         if (temp) {
1470             bExist = TRUE;
1471             actText = temp->GetUnicodeText();
1472         }
1473     }
1474     if (!bExist) {
1475         return FPDFTEXT_MC_PASS;
1476     }
1477     if (m_pPreTextObj) {
1478         if (CPDF_ContentMarkData* pPreMarkData = (CPDF_ContentMarkData*)m_pPreTextObj->m_ContentMark.GetObject()) {
1479             if (pPreMarkData->CountItems() == n) {
1480                 CPDF_ContentMarkItem& item = pPreMarkData->GetItem(n - 1);
1481                 if (pDict == item.GetParam()) {
1482                     return FPDFTEXT_MC_DONE;
1483                 }
1484             }
1485         }
1486     }
1487     CPDF_Font*  pFont = pTextObj->GetFont();
1488     FX_STRSIZE nItems = actText.GetLength();
1489     if (nItems < 1) {
1490         return FPDFTEXT_MC_PASS;
1491     }
1492     bExist = FALSE;
1493     for (FX_STRSIZE i = 0; i < nItems; i++) {
1494         FX_WCHAR wChar = actText.GetAt(i);
1495         if (-1 == pFont->CharCodeFromUnicode(wChar)) {
1496             continue;
1497         } else {
1498             bExist = TRUE;
1499             break;
1500         }
1501     }
1502     if (!bExist) {
1503         return FPDFTEXT_MC_PASS;
1504     }
1505     bExist = FALSE;
1506     for (FX_STRSIZE i = 0; i < nItems; i++) {
1507         FX_WCHAR wChar = actText.GetAt(i);
1508         if ((wChar > 0x80 && wChar < 0xFFFD) || (wChar <= 0x80 && isprint(wChar))) {
1509             bExist = TRUE;
1510             break;
1511         }
1512     }
1513     if (!bExist) {
1514         return FPDFTEXT_MC_DONE;
1515     }
1516     return FPDFTEXT_MC_DELAY;
1517 }
1518 void CPDF_TextPage::ProcessMarkedContent(PDFTEXT_Obj Obj)
1519 {
1520     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1521     CPDF_ContentMarkData* pMarkData = (CPDF_ContentMarkData*)pTextObj->m_ContentMark.GetObject();
1522     if(!pMarkData) {
1523         return;
1524     }
1525     int nContentMark = pMarkData->CountItems();
1526     if (nContentMark < 1) {
1527         return;
1528     }
1529     CFX_WideString actText;
1530     CPDF_Dictionary* pDict = NULL;
1531     int n = 0;
1532     for (n = 0; n < nContentMark; n++) {
1533         CPDF_ContentMarkItem& item = pMarkData->GetItem(n);
1534         CFX_ByteString tagStr = (CFX_ByteString)item.GetName();
1535         pDict = (CPDF_Dictionary*)item.GetParam();
1536         CPDF_String* temp = (CPDF_String*)(pDict ? pDict->GetElement(FX_BSTRC("ActualText")) : NULL);
1537         if (temp) {
1538             actText = temp->GetUnicodeText();
1539         }
1540     }
1541     FX_STRSIZE nItems = actText.GetLength();
1542     if (nItems < 1) {
1543         return;
1544     }
1545     CPDF_Font*  pFont = pTextObj->GetFont();
1546     CFX_AffineMatrix formMatrix = Obj.m_formMatrix;
1547     CFX_AffineMatrix matrix;
1548     pTextObj->GetTextMatrix(&matrix);
1549     matrix.Concat(formMatrix);
1550     FX_FLOAT fPosX = pTextObj->GetPosX();
1551     FX_FLOAT fPosY = pTextObj->GetPosY();
1552     int nCharInfoIndex = m_TextBuf.GetLength();
1553     CFX_FloatRect charBox;
1554     charBox.top = pTextObj->m_Top;
1555     charBox.left = pTextObj->m_Left;
1556     charBox.right = pTextObj->m_Right;
1557     charBox.bottom = pTextObj->m_Bottom;
1558     for (FX_STRSIZE k = 0; k < nItems; k++) {
1559         FX_WCHAR wChar = actText.GetAt(k);
1560         if (wChar <= 0x80 && !isprint(wChar)) {
1561             wChar = 0x20;
1562         }
1563         if (wChar >= 0xFFFD) {
1564             continue;
1565         }
1566         PAGECHAR_INFO charinfo;
1567         charinfo.m_OriginX = fPosX;
1568         charinfo.m_OriginY = fPosY;
1569         charinfo.m_Index = nCharInfoIndex;
1570         charinfo.m_Unicode = wChar;
1571         charinfo.m_CharCode = pFont->CharCodeFromUnicode(wChar);
1572         charinfo.m_Flag = FPDFTEXT_CHAR_PIECE;
1573         charinfo.m_pTextObj = pTextObj;
1574         charinfo.m_CharBox.top = charBox.top;
1575         charinfo.m_CharBox.left = charBox.left;
1576         charinfo.m_CharBox.right = charBox.right;
1577         charinfo.m_CharBox.bottom = charBox.bottom;
1578         charinfo.m_Matrix.Copy(matrix);
1579         m_TempTextBuf.AppendChar(wChar);
1580         m_TempCharList.Add(charinfo);
1581     }
1582 }
1583 void CPDF_TextPage::FindPreviousTextObject(void)
1584 {
1585     if (m_TempCharList.GetSize() < 1 && m_charList.GetSize() < 1) {
1586         return;
1587     }
1588     PAGECHAR_INFO preChar;
1589     if (m_TempCharList.GetSize() >= 1) {
1590         preChar = *(PAGECHAR_INFO*)m_TempCharList.GetAt(m_TempCharList.GetSize() - 1);
1591     } else {
1592         preChar = *(PAGECHAR_INFO*)m_charList.GetAt(m_charList.GetSize() - 1);
1593     }
1594     if (preChar.m_pTextObj) {
1595         m_pPreTextObj = preChar.m_pTextObj;
1596     }
1597 }
1598 void CPDF_TextPage::ProcessTextObject(PDFTEXT_Obj Obj)
1599 {
1600     CPDF_TextObject* pTextObj = Obj.m_pTextObj;
1601     if(FXSYS_fabs(pTextObj->m_Right - pTextObj->m_Left) < 0.01f ) {
1602         return;
1603     }
1604     CFX_AffineMatrix formMatrix = Obj.m_formMatrix;
1605     CPDF_Font*  pFont = pTextObj->GetFont();
1606     CFX_AffineMatrix matrix;
1607     pTextObj->GetTextMatrix(&matrix);
1608     matrix.Concat(formMatrix);
1609     FX_INT32 bPreMKC = PreMarkedContent(Obj);
1610     if (FPDFTEXT_MC_DONE == bPreMKC) {
1611         m_pPreTextObj = pTextObj;
1612         m_perMatrix.Copy(formMatrix);
1613         return;
1614     }
1615     int result = 0;
1616     if (m_pPreTextObj) {
1617         result = ProcessInsertObject(pTextObj, formMatrix);
1618         if (2 == result) {
1619             m_CurlineRect = CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top);
1620         } else {
1621             m_CurlineRect.Union(CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top));
1622         }
1623         PAGECHAR_INFO generateChar;
1624         if (result == 1) {
1625             if (GenerateCharInfo(TEXT_BLANK_CHAR, generateChar)) {
1626                 if (!formMatrix.IsIdentity()) {
1627                     generateChar.m_Matrix.Copy(formMatrix);
1628                 }
1629                 m_TempTextBuf.AppendChar(TEXT_BLANK_CHAR);
1630                 m_TempCharList.Add(generateChar);
1631             }
1632         } else if(result == 2) {
1633             CloseTempLine();
1634             if(m_TextBuf.GetSize()) {
1635                 if(m_ParseOptions.m_bGetCharCodeOnly) {
1636                     m_TextBuf.AppendChar(TEXT_RETURN_CHAR);
1637                     m_TextBuf.AppendChar(TEXT_LINEFEED_CHAR);
1638                 } else {
1639                     if(GenerateCharInfo(TEXT_RETURN_CHAR, generateChar)) {
1640                         m_TextBuf.AppendChar(TEXT_RETURN_CHAR);
1641                         if (!formMatrix.IsIdentity()) {
1642                             generateChar.m_Matrix.Copy(formMatrix);
1643                         }
1644                         m_charList.Add(generateChar);
1645                     }
1646                     if(GenerateCharInfo(TEXT_LINEFEED_CHAR, generateChar)) {
1647                         m_TextBuf.AppendChar(TEXT_LINEFEED_CHAR);
1648                         if (!formMatrix.IsIdentity()) {
1649                             generateChar.m_Matrix.Copy(formMatrix);
1650                         }
1651                         m_charList.Add(generateChar);
1652                     }
1653                 }
1654             }
1655         } else if (result == 3 && !m_ParseOptions.m_bOutputHyphen) {
1656             FX_INT32 nChars = pTextObj->CountChars();
1657             if (nChars == 1) {
1658                 CPDF_TextObjectItem item;
1659                 pTextObj->GetCharInfo(0, &item);
1660                 CFX_WideString wstrItem = pTextObj->GetFont()->UnicodeFromCharCode(item.m_CharCode);
1661                 if(wstrItem.IsEmpty()) {
1662                     wstrItem += (FX_WCHAR)item.m_CharCode;
1663                 }
1664                 FX_WCHAR curChar = wstrItem.GetAt(0);
1665                 if (0x2D == curChar || 0xAD == curChar) {
1666                     return;
1667                 }
1668             }
1669             while (m_TempTextBuf.GetSize() > 0 && m_TempTextBuf.GetWideString().GetAt(m_TempTextBuf.GetLength() - 1) == 0x20) {
1670                 m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1671                 m_TempCharList.Delete(m_TempCharList.GetSize() - 1);
1672             }
1673             PAGECHAR_INFO* cha = (PAGECHAR_INFO*)m_TempCharList.GetAt(m_TempCharList.GetSize() - 1);
1674             m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1675             cha->m_Unicode = 0x2;
1676             cha->m_Flag = FPDFTEXT_CHAR_HYPHEN;
1677             m_TempTextBuf.AppendChar(0xfffe);
1678         }
1679     } else {
1680         m_CurlineRect = CFX_FloatRect(Obj.m_pTextObj->m_Left, Obj.m_pTextObj->m_Bottom, Obj.m_pTextObj->m_Right, Obj.m_pTextObj->m_Top);
1681     }
1682     if (FPDFTEXT_MC_DELAY == bPreMKC) {
1683         ProcessMarkedContent(Obj);
1684         m_pPreTextObj = pTextObj;
1685         m_perMatrix.Copy(formMatrix);
1686         return;
1687     }
1688     m_pPreTextObj = pTextObj;
1689     m_perMatrix.Copy(formMatrix);
1690     int nItems = pTextObj->CountItems();
1691     FX_FLOAT baseSpace = _CalculateBaseSpace(pTextObj, matrix);
1692
1693     const FX_BOOL bR2L = IsRightToLeft(pTextObj, pFont, nItems);
1694     const FX_BOOL bIsBidiAndMirrorInverse =
1695         bR2L && (matrix.a * matrix.d - matrix.b * matrix.c) < 0;
1696     FX_INT32 iBufStartAppend = m_TempTextBuf.GetLength();
1697     FX_INT32 iCharListStartAppend = m_TempCharList.GetSize();
1698
1699     FX_FLOAT spacing = 0;
1700     for (int i = 0; i < nItems; i++) {
1701         CPDF_TextObjectItem item;
1702         PAGECHAR_INFO charinfo;
1703         charinfo.m_OriginX = 0;
1704         charinfo.m_OriginY = 0;
1705         pTextObj->GetItemInfo(i, &item);
1706         if (item.m_CharCode == (FX_DWORD) - 1) {
1707             CFX_WideString str = m_TempTextBuf.GetWideString();
1708             if(str.IsEmpty()) {
1709                 str = m_TextBuf.GetWideString();
1710             }
1711             if (str.IsEmpty() || str.GetAt(str.GetLength() - 1) == TEXT_BLANK_CHAR) {
1712                 continue;
1713             }
1714             FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
1715             spacing = -fontsize_h * item.m_OriginX / 1000;
1716             continue;
1717         }
1718         FX_FLOAT charSpace = pTextObj->m_TextState.GetObject()->m_CharSpace;
1719         if (charSpace > 0.001) {
1720             spacing += matrix.TransformDistance(charSpace);
1721         } else if(charSpace < -0.001) {
1722             spacing -= matrix.TransformDistance(FXSYS_fabs(charSpace));
1723         }
1724         spacing -= baseSpace;
1725         if (spacing && i > 0) {
1726             int last_width = 0;
1727             FX_FLOAT fontsize_h = pTextObj->m_TextState.GetFontSizeH();
1728             FX_DWORD space_charcode = pFont->CharCodeFromUnicode(' ');
1729             FX_FLOAT threshold = 0;
1730             if (space_charcode != -1) {
1731                 threshold = fontsize_h * pFont->GetCharWidthF(space_charcode) / 1000 ;
1732             }
1733             if (threshold > fontsize_h / 3) {
1734                 threshold = 0;
1735             } else {
1736                 threshold /= 2;
1737             }
1738             if (threshold == 0) {
1739                 threshold = fontsize_h;
1740                 int this_width = FXSYS_abs(GetCharWidth(item.m_CharCode, pFont));
1741                 threshold = this_width > last_width ? (FX_FLOAT)this_width : (FX_FLOAT)last_width;
1742                 threshold = _NormalizeThreshold(threshold);
1743                 threshold = fontsize_h * threshold / 1000;
1744             }
1745             if (threshold && (spacing && spacing >= threshold) ) {
1746                 charinfo.m_Unicode = TEXT_BLANK_CHAR;
1747                 charinfo.m_Flag = FPDFTEXT_CHAR_GENERATED;
1748                 charinfo.m_pTextObj = pTextObj;
1749                 charinfo.m_Index = m_TextBuf.GetLength();
1750                 m_TempTextBuf.AppendChar(TEXT_BLANK_CHAR);
1751                 charinfo.m_CharCode = -1;
1752                 charinfo.m_Matrix.Copy(formMatrix);
1753                 matrix.Transform(item.m_OriginX, item.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1754                 charinfo.m_CharBox = CFX_FloatRect(charinfo.m_OriginX, charinfo.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1755                 m_TempCharList.Add(charinfo);
1756             }
1757             if (item.m_CharCode == (FX_DWORD) - 1) {
1758                 continue;
1759             }
1760         }
1761         spacing = 0;
1762         CFX_WideString wstrItem = pFont->UnicodeFromCharCode(item.m_CharCode);
1763         FX_BOOL bNoUnicode = FALSE;
1764         FX_WCHAR wChar = wstrItem.GetAt(0);
1765         if ((wstrItem.IsEmpty() || wChar == 0) && item.m_CharCode) {
1766             if(wstrItem.IsEmpty()) {
1767                 wstrItem += (FX_WCHAR)item.m_CharCode;
1768             } else {
1769                 wstrItem.SetAt(0, (FX_WCHAR)item.m_CharCode);
1770             }
1771             bNoUnicode = TRUE;
1772         }
1773         charinfo.m_Index = -1;
1774         charinfo.m_CharCode = item.m_CharCode;
1775         if(bNoUnicode) {
1776             charinfo.m_Flag = FPDFTEXT_CHAR_UNUNICODE;
1777         } else {
1778             charinfo.m_Flag = FPDFTEXT_CHAR_NORMAL;
1779         }
1780         charinfo.m_pTextObj = pTextObj;
1781         charinfo.m_OriginX = 0, charinfo.m_OriginY = 0;
1782         matrix.Transform(item.m_OriginX, item.m_OriginY, charinfo.m_OriginX, charinfo.m_OriginY);
1783         FX_RECT rect(0, 0, 0, 0);
1784         rect.Intersect(0, 0, 0, 0);
1785         charinfo.m_pTextObj->GetFont()->GetCharBBox(charinfo.m_CharCode, rect);
1786         charinfo.m_CharBox.top = rect.top * pTextObj->GetFontSize() / 1000 + item.m_OriginY;
1787         charinfo.m_CharBox.left = rect.left * pTextObj->GetFontSize() / 1000 + item.m_OriginX;
1788         charinfo.m_CharBox.right = rect.right * pTextObj->GetFontSize() / 1000 + item.m_OriginX;
1789         charinfo.m_CharBox.bottom = rect.bottom * pTextObj->GetFontSize() / 1000 + item.m_OriginY;
1790         if (fabsf(charinfo.m_CharBox.top - charinfo.m_CharBox.bottom) < 0.01f) {
1791             charinfo.m_CharBox.top = charinfo.m_CharBox.bottom + pTextObj->GetFontSize();
1792         }
1793         if (fabsf(charinfo.m_CharBox.right - charinfo.m_CharBox.left) < 0.01f) {
1794             charinfo.m_CharBox.right = charinfo.m_CharBox.left + pTextObj->GetCharWidth(charinfo.m_CharCode);
1795         }
1796         matrix.TransformRect(charinfo.m_CharBox);
1797         charinfo.m_Matrix.Copy(matrix);
1798         if (wstrItem.IsEmpty()) {
1799             charinfo.m_Unicode = 0;
1800             m_TempCharList.Add(charinfo);
1801             m_TempTextBuf.AppendChar(0xfffe);
1802             continue;
1803         } else {
1804             int nTotal = wstrItem.GetLength();
1805             FX_BOOL bDel = FALSE;
1806             const int count = std::min(m_TempCharList.GetSize(), 7);
1807             FX_FLOAT threshold = charinfo.m_Matrix.TransformXDistance((FX_FLOAT)TEXT_CHARRATIO_GAPDELTA * pTextObj->GetFontSize());
1808             for (int n = m_TempCharList.GetSize();
1809                  n > m_TempCharList.GetSize() - count;
1810                  n--) {
1811                 PAGECHAR_INFO* charinfo1 = (PAGECHAR_INFO*)m_TempCharList.GetAt(n - 1);
1812                 if(charinfo1->m_CharCode == charinfo.m_CharCode &&
1813                         charinfo1->m_pTextObj->GetFont() == charinfo.m_pTextObj->GetFont()  &&
1814                         FXSYS_fabs(charinfo1->m_OriginX - charinfo.m_OriginX) < threshold  &&
1815                         FXSYS_fabs(charinfo1->m_OriginY - charinfo.m_OriginY) < threshold) {
1816                     bDel = TRUE;
1817                     break;
1818                 }
1819             }
1820             if(!bDel) {
1821                 for (int nIndex = 0; nIndex < nTotal; nIndex++) {
1822                     charinfo.m_Unicode = wstrItem.GetAt(nIndex);
1823                     if (charinfo.m_Unicode) {
1824                         charinfo.m_Index = m_TextBuf.GetLength();
1825                         m_TempTextBuf.AppendChar(charinfo.m_Unicode);
1826                     } else {
1827                         m_TempTextBuf.AppendChar(0xfffe);
1828                     }
1829                     m_TempCharList.Add(charinfo);
1830                 }
1831             } else if(i == 0) {
1832                 CFX_WideString str = m_TempTextBuf.GetWideString();
1833                 if (!str.IsEmpty() && str.GetAt(str.GetLength() - 1) == TEXT_BLANK_CHAR) {
1834                     m_TempTextBuf.Delete(m_TempTextBuf.GetLength() - 1, 1);
1835                     m_TempCharList.Delete(m_TempCharList.GetSize() - 1);
1836                 }
1837             }
1838         }
1839     }
1840     if (bIsBidiAndMirrorInverse) {
1841         SwapTempTextBuf(iCharListStartAppend, iBufStartAppend);
1842     }
1843 }
1844 void CPDF_TextPage::SwapTempTextBuf(FX_INT32 iCharListStartAppend,
1845                                     FX_INT32 iBufStartAppend)
1846 {
1847     FX_INT32 i, j;
1848     i = iCharListStartAppend;
1849     j = m_TempCharList.GetSize() - 1;
1850     for (; i < j; i++, j--) {
1851         std::swap(m_TempCharList[i], m_TempCharList[j]);
1852         std::swap(m_TempCharList[i].m_Index, m_TempCharList[j].m_Index);
1853     }
1854     FX_WCHAR * pTempBuffer = m_TempTextBuf.GetBuffer();
1855     i = iBufStartAppend;
1856     j = m_TempTextBuf.GetLength() - 1;
1857     for (; i < j; i++, j--) {
1858         std::swap(pTempBuffer[i], pTempBuffer[j]);
1859     }
1860 }
1861 FX_BOOL CPDF_TextPage::IsRightToLeft(const CPDF_TextObject* pTextObj,
1862                                      const CPDF_Font* pFont,
1863                                      int nItems) const
1864 {
1865     IFX_BidiChar* BidiChar = IFX_BidiChar::Create();
1866     FX_INT32 nR2L = 0;
1867     FX_INT32 nL2R = 0;
1868     FX_INT32 start = 0, count = 0;
1869     CPDF_TextObjectItem item;
1870     for (FX_INT32 i = 0; i < nItems; i++) {
1871         pTextObj->GetItemInfo(i, &item);
1872         if (item.m_CharCode == (FX_DWORD)-1) {
1873             continue;
1874         }
1875         CFX_WideString wstrItem = pFont->UnicodeFromCharCode(item.m_CharCode);
1876         FX_WCHAR wChar = wstrItem.GetAt(0);
1877         if ((wstrItem.IsEmpty() || wChar == 0) && item.m_CharCode) {
1878             wChar = (FX_WCHAR)item.m_CharCode;
1879         }
1880         if (!wChar) {
1881             continue;
1882         }
1883         if (BidiChar && BidiChar->AppendChar(wChar)) {
1884             FX_INT32 ret = BidiChar->GetBidiInfo(start, count);
1885             if (ret == 2) {
1886                 nR2L++;
1887             }
1888             else if (ret == 1) {
1889                 nL2R++;
1890             }
1891         }
1892     }
1893     if (BidiChar && BidiChar->EndChar()) {
1894         FX_INT32 ret = BidiChar->GetBidiInfo(start, count);
1895         if (ret == 2) {
1896             nR2L++;
1897         }
1898         else if (ret == 1) {
1899             nL2R++;
1900         }
1901     }
1902     if (BidiChar)
1903       BidiChar->Release();
1904     return (nR2L > 0 && nR2L >= nL2R);
1905 }
1906 FX_INT32 CPDF_TextPage::GetTextObjectWritingMode(const CPDF_TextObject* pTextObj)
1907 {
1908     FX_INT32 nChars = pTextObj->CountChars();
1909     if (nChars == 1) {
1910         return m_TextlineDir;
1911     }
1912     CPDF_TextObjectItem first, last;
1913     pTextObj->GetCharInfo(0, &first);
1914     pTextObj->GetCharInfo(nChars - 1, &last);
1915     CFX_Matrix textMatrix;
1916     pTextObj->GetTextMatrix(&textMatrix);
1917     textMatrix.TransformPoint(first.m_OriginX, first.m_OriginY);
1918     textMatrix.TransformPoint(last.m_OriginX, last.m_OriginY);
1919     FX_FLOAT dX = FXSYS_fabs(last.m_OriginX - first.m_OriginX);
1920     FX_FLOAT dY = FXSYS_fabs(last.m_OriginY - first.m_OriginY);
1921     if (dX <= 0.0001f && dY <= 0.0001f) {
1922         return -1;
1923     }
1924     CFX_VectorF v;
1925     v.Set(dX, dY);
1926     v.Normalize();
1927     if (v.y <= 0.0872f) {
1928         if (v.x <= 0.0872f) {
1929             return m_TextlineDir;
1930         }
1931         return 0;
1932     } else if (v.x <= 0.0872f) {
1933         return 1;
1934     }
1935     return m_TextlineDir;
1936 }
1937 FX_BOOL CPDF_TextPage::IsHyphen(FX_WCHAR curChar)
1938 {
1939     CFX_WideString strCurText = m_TempTextBuf.GetWideString();
1940     if(strCurText.GetLength() == 0) {
1941         strCurText = m_TextBuf.GetWideString();
1942     }
1943     FX_STRSIZE nCount = strCurText.GetLength();
1944     int nIndex = nCount - 1;
1945     FX_WCHAR wcTmp = strCurText.GetAt(nIndex);
1946     while(wcTmp == 0x20 && nIndex <= nCount - 1 && nIndex >= 0) {
1947         wcTmp = strCurText.GetAt(--nIndex);
1948     }
1949     if (0x2D == wcTmp || 0xAD == wcTmp) {
1950         if (--nIndex > 0) {
1951             FX_WCHAR preChar = strCurText.GetAt((nIndex));
1952             if (((preChar >= L'A' && preChar <= L'Z') || (preChar >= L'a' && preChar <= L'z'))
1953                     && ((curChar >= L'A' && curChar <= L'Z') || (curChar >= L'a' && curChar <= L'z'))) {
1954                 return TRUE;
1955             }
1956         }
1957         int size = m_TempCharList.GetSize();
1958         PAGECHAR_INFO preChar;
1959         if (size) {
1960             preChar = (PAGECHAR_INFO)m_TempCharList[size - 1];
1961         } else {
1962             size = m_charList.GetSize();
1963             if(size == 0) {
1964                 return FALSE;
1965             }
1966             preChar = (PAGECHAR_INFO)m_charList[size - 1];
1967         }
1968         if (FPDFTEXT_CHAR_PIECE == preChar.m_Flag)
1969             if (0xAD == preChar.m_Unicode || 0x2D == preChar.m_Unicode) {
1970                 return TRUE;
1971             }
1972     }
1973     return FALSE;
1974 }
1975 int CPDF_TextPage::ProcessInsertObject(const CPDF_TextObject* pObj, const CFX_AffineMatrix& formMatrix)
1976 {
1977     FindPreviousTextObject();
1978     FX_BOOL bNewline = FALSE;
1979     int WritingMode = GetTextObjectWritingMode(pObj);
1980     if(WritingMode == -1) {
1981         WritingMode = GetTextObjectWritingMode(m_pPreTextObj);
1982     }
1983     CFX_FloatRect this_rect(pObj->m_Left, pObj->m_Bottom, pObj->m_Right, pObj->m_Top);
1984     CFX_FloatRect prev_rect(m_pPreTextObj->m_Left, m_pPreTextObj->m_Bottom, m_pPreTextObj->m_Right, m_pPreTextObj->m_Top);
1985     CPDF_TextObjectItem PrevItem, item;
1986     int nItem = m_pPreTextObj->CountItems();
1987     m_pPreTextObj->GetItemInfo(nItem - 1, &PrevItem);
1988     pObj->GetItemInfo(0, &item);
1989     CFX_WideString wstrItem = pObj->GetFont()->UnicodeFromCharCode(item.m_CharCode);
1990     if(wstrItem.IsEmpty()) {
1991         wstrItem += (FX_WCHAR)item.m_CharCode;
1992     }
1993     FX_WCHAR curChar = wstrItem.GetAt(0);
1994     if(WritingMode == 0) {
1995         if(this_rect.Height() > 4.5 && prev_rect.Height() > 4.5) {
1996             FX_FLOAT top = this_rect.top < prev_rect.top ? this_rect.top : prev_rect.top;
1997             FX_FLOAT bottom = this_rect.bottom > prev_rect.bottom ? this_rect.bottom : prev_rect.bottom;
1998             if(bottom >= top) {
1999                 if(IsHyphen(curChar)) {
2000                     return 3;
2001                 }
2002                 return 2;
2003             }
2004         }
2005     } else if (WritingMode == 1) {
2006         if(this_rect.Width() > pObj->GetFontSize() * 0.1f && prev_rect.Width() > m_pPreTextObj->GetFontSize() * 0.1f) {
2007             FX_FLOAT left = this_rect.left > m_CurlineRect.left ? this_rect.left : m_CurlineRect.left;
2008             FX_FLOAT right = this_rect.right < m_CurlineRect.right ? this_rect.right : m_CurlineRect.right;
2009             if(right <= left) {
2010                 if(IsHyphen(curChar)) {
2011                     return 3;
2012                 }
2013                 return 2;
2014             }
2015         }
2016     }
2017     FX_FLOAT last_pos = PrevItem.m_OriginX;
2018     int nLastWidth = GetCharWidth(PrevItem.m_CharCode, m_pPreTextObj->GetFont());
2019     FX_FLOAT last_width = nLastWidth * m_pPreTextObj->GetFontSize() / 1000;
2020     last_width = FXSYS_fabs(last_width);
2021     int nThisWidth = GetCharWidth(item.m_CharCode, pObj->GetFont());
2022     FX_FLOAT this_width = nThisWidth * pObj->GetFontSize() / 1000;
2023     this_width = FXSYS_fabs(this_width);
2024     FX_FLOAT threshold = last_width > this_width ? last_width / 4 : this_width / 4;
2025     CFX_AffineMatrix prev_matrix, prev_reverse;
2026     m_pPreTextObj->GetTextMatrix(&prev_matrix);
2027     prev_matrix.Concat(m_perMatrix);
2028     prev_reverse.SetReverse(prev_matrix);
2029     FX_FLOAT x = pObj->GetPosX();
2030     FX_FLOAT y = pObj->GetPosY();
2031     formMatrix.Transform(x, y);
2032     prev_reverse.Transform(x, y);
2033     if(last_width < this_width) {
2034         threshold = prev_reverse.TransformDistance(threshold);
2035     }
2036     CFX_FloatRect rect1(m_pPreTextObj->m_Left, pObj->m_Bottom, m_pPreTextObj->m_Right, pObj->m_Top);
2037     CFX_FloatRect rect2(m_pPreTextObj->m_Left, m_pPreTextObj->m_Bottom, m_pPreTextObj->m_Right, m_pPreTextObj->m_Top);
2038     CFX_FloatRect rect3 = rect1;
2039     rect1.Intersect(rect2);
2040     if (WritingMode == 0) {
2041         if ((rect1.IsEmpty() && rect2.Height() > 5 && rect3.Height() > 5)
2042                 || ((y > threshold * 2 || y < threshold * -3) && (FXSYS_fabs(y) < 1 ? FXSYS_fabs(x) < FXSYS_fabs(y) : TRUE))) {
2043             bNewline = TRUE;
2044             if(nItem > 1 ) {
2045                 CPDF_TextObjectItem tempItem;
2046                 m_pPreTextObj->GetItemInfo(0, &tempItem);
2047                 CFX_AffineMatrix m;
2048                 m_pPreTextObj->GetTextMatrix(&m);
2049                 if(PrevItem.m_OriginX > tempItem.m_OriginX &&
2050                         m_DisplayMatrix.a > 0.9 && m_DisplayMatrix.b < 0.1 &&
2051                         m_DisplayMatrix.c < 0.1 && m_DisplayMatrix.d < -0.9
2052                         && m.b < 0.1 && m.c < 0.1 ) {
2053                     CFX_FloatRect re(0, m_pPreTextObj->m_Bottom, 1000, m_pPreTextObj->m_Top);
2054                     if(re.Contains(pObj->GetPosX(), pObj->GetPosY())) {
2055                         bNewline = FALSE;
2056                     } else {
2057                         CFX_FloatRect re(0, pObj->m_Bottom, 1000, pObj->m_Top);
2058                         if(re.Contains(m_pPreTextObj->GetPosX(), m_pPreTextObj->GetPosY())) {
2059                             bNewline = FALSE;
2060                         }
2061                     }
2062                 }
2063             }
2064         }
2065     }
2066     if(bNewline) {
2067         if(IsHyphen(curChar)) {
2068             return 3;
2069         }
2070         return 2;
2071     }
2072     FX_INT32 nChars = pObj->CountChars();
2073     if (nChars == 1 && ( 0x2D == curChar || 0xAD == curChar))
2074         if (IsHyphen(curChar)) {
2075             return 3;
2076         }
2077     CFX_WideString PrevStr = m_pPreTextObj->GetFont()->UnicodeFromCharCode(PrevItem.m_CharCode);
2078     FX_WCHAR preChar = PrevStr.GetAt(PrevStr.GetLength() - 1);
2079     CFX_AffineMatrix matrix;
2080     pObj->GetTextMatrix(&matrix);
2081     matrix.Concat(formMatrix);
2082     threshold = (FX_FLOAT)(nLastWidth > nThisWidth ? nLastWidth : nThisWidth);
2083     threshold = threshold > 400 ? (threshold < 700 ? threshold / 4 :  (threshold > 800 ? threshold / 6 : threshold / 5)) : (threshold / 2);
2084     if(nLastWidth >= nThisWidth) {
2085         threshold *= FXSYS_fabs(m_pPreTextObj->GetFontSize());
2086     } else {
2087         threshold *= FXSYS_fabs(pObj->GetFontSize());
2088         threshold = matrix.TransformDistance(threshold);
2089         threshold = prev_reverse.TransformDistance(threshold);
2090     }
2091     threshold /= 1000;
2092     if((threshold < 1.4881 && threshold > 1.4879)
2093             || (threshold < 1.39001 && threshold > 1.38999)) {
2094         threshold *= 1.5;
2095     }
2096     if (FXSYS_fabs(last_pos + last_width - x) > threshold && curChar != L' ' && preChar != L' ')
2097         if (curChar != L' ' && preChar != L' ') {
2098             if((x - last_pos - last_width) > threshold || (last_pos - x - last_width) > threshold) {
2099                 return 1;
2100             }
2101             if(x < 0 && (last_pos - x - last_width) > threshold) {
2102                 return 1;
2103             }
2104             if((x - last_pos - last_width) > this_width || (x - last_pos - this_width) > last_width ) {
2105                 return 1;
2106             }
2107         }
2108     return 0;
2109 }
2110 FX_BOOL CPDF_TextPage::IsSameTextObject(CPDF_TextObject* pTextObj1, CPDF_TextObject* pTextObj2)
2111 {
2112     if (!pTextObj1 || !pTextObj2) {
2113         return FALSE;
2114     }
2115     CFX_FloatRect rcPreObj(pTextObj2->m_Left, pTextObj2->m_Bottom, pTextObj2->m_Right, pTextObj2->m_Top);
2116     CFX_FloatRect rcCurObj(pTextObj1->m_Left, pTextObj1->m_Bottom, pTextObj1->m_Right, pTextObj1->m_Top);
2117     if (rcPreObj.IsEmpty() && rcCurObj.IsEmpty() && !m_ParseOptions.m_bGetCharCodeOnly) {
2118         FX_FLOAT dbXdif = FXSYS_fabs(rcPreObj.left - rcCurObj.left);
2119         int nCount = m_charList.GetSize();
2120         if (nCount >= 2) {
2121             PAGECHAR_INFO perCharTemp = (PAGECHAR_INFO)m_charList[nCount - 2];
2122             FX_FLOAT dbSpace = perCharTemp.m_CharBox.Width();
2123             if (dbXdif > dbSpace) {
2124                 return FALSE;
2125             }
2126         }
2127     }
2128     if (!rcPreObj.IsEmpty() || !rcCurObj.IsEmpty()) {
2129         rcPreObj.Intersect(rcCurObj);
2130         if (rcPreObj.IsEmpty()) {
2131             return FALSE;
2132         }
2133         if (FXSYS_fabs(rcPreObj.Width() - rcCurObj.Width()) > rcCurObj.Width() / 2) {
2134             return FALSE;
2135         }
2136         if (pTextObj2->GetFontSize() != pTextObj1->GetFontSize()) {
2137             return FALSE;
2138         }
2139     }
2140     int nPreCount = pTextObj2->CountItems();
2141     int nCurCount = pTextObj1->CountItems();
2142     if (nPreCount != nCurCount) {
2143         return FALSE;
2144     }
2145     CPDF_TextObjectItem itemPer, itemCur;
2146     for (int i = 0; i < nPreCount; i++) {
2147         pTextObj2->GetItemInfo(i, &itemPer);
2148         pTextObj1->GetItemInfo(i, &itemCur);
2149         if (itemCur.m_CharCode != itemPer.m_CharCode) {
2150             return FALSE;
2151         }
2152     }
2153     if(FXSYS_fabs(pTextObj1->GetPosX() - pTextObj2->GetPosX()) > GetCharWidth(itemPer.m_CharCode, pTextObj2->GetFont())*pTextObj2->GetFontSize() / 1000 * 0.9 ||
2154             FXSYS_fabs(pTextObj1->GetPosY() - pTextObj2->GetPosY()) >
2155             FX_MAX(FX_MAX(rcPreObj.Height() , rcPreObj.Width()), pTextObj2->GetFontSize()) / 8) {
2156         return FALSE;
2157     }
2158     return TRUE;
2159 }
2160 FX_BOOL CPDF_TextPage::IsSameAsPreTextObject(CPDF_TextObject* pTextObj, FX_POSITION ObjPos)
2161 {
2162     if (!pTextObj) {
2163         return FALSE;
2164     }
2165     int i = 0;
2166     if (!ObjPos) {
2167         ObjPos = m_pPage->GetLastObjectPosition();
2168     }
2169     CPDF_PageObject* pObj = m_pPage->GetPrevObject(ObjPos);
2170     while (i < 5 && ObjPos) {
2171         pObj = m_pPage->GetPrevObject(ObjPos);
2172         if(pObj == pTextObj) {
2173             continue;
2174         }
2175         if(pObj->m_Type != PDFPAGE_TEXT) {
2176             continue;
2177         }
2178         if(IsSameTextObject((CPDF_TextObject*)pObj, pTextObj)) {
2179             return TRUE;
2180         }
2181         i++;
2182     }
2183     return FALSE;
2184 }
2185 FX_BOOL CPDF_TextPage::GenerateCharInfo(FX_WCHAR unicode, PAGECHAR_INFO& info)
2186 {
2187     int size = m_TempCharList.GetSize();
2188     PAGECHAR_INFO preChar;
2189     if (size) {
2190         preChar = (PAGECHAR_INFO)m_TempCharList[size - 1];
2191     } else {
2192         size = m_charList.GetSize();
2193         if(size == 0) {
2194             return FALSE;
2195         }
2196         preChar = (PAGECHAR_INFO)m_charList[size - 1];
2197     }
2198     info.m_Index = m_TextBuf.GetLength();
2199     info.m_Unicode = unicode;
2200     info.m_pTextObj = NULL;
2201     info.m_CharCode = -1;
2202     info.m_Flag = FPDFTEXT_CHAR_GENERATED;
2203     int preWidth = 0;
2204     if (preChar.m_pTextObj && preChar.m_CharCode != (FX_DWORD) - 1) {
2205         preWidth = GetCharWidth(preChar.m_CharCode, preChar.m_pTextObj->GetFont());
2206     }
2207     FX_FLOAT fs = 0;
2208     if(preChar.m_pTextObj) {
2209         fs = preChar.m_pTextObj->GetFontSize();
2210     } else {
2211         fs = preChar.m_CharBox.Height();
2212     }
2213     if(!fs) {
2214         fs = 1;
2215     }
2216     info.m_OriginX = preChar.m_OriginX + preWidth * (fs) / 1000;
2217     info.m_OriginY = preChar.m_OriginY;
2218     info.m_CharBox = CFX_FloatRect(info.m_OriginX, info.m_OriginY, info.m_OriginX, info.m_OriginY);
2219     return TRUE;
2220 }
2221 FX_BOOL CPDF_TextPage::IsRectIntersect(const CFX_FloatRect& rect1, const CFX_FloatRect& rect2)
2222 {
2223     CFX_FloatRect rect = rect1;
2224     rect.Intersect(rect2);
2225     return !rect.IsEmpty();
2226 }
2227 FX_BOOL CPDF_TextPage::IsLetter(FX_WCHAR unicode)
2228 {
2229     if (unicode < L'A') {
2230         return FALSE;
2231     }
2232     if (unicode > L'Z' && unicode < L'a') {
2233         return FALSE;
2234     }
2235     if (unicode > L'z') {
2236         return FALSE;
2237     }
2238     return TRUE;
2239 }
2240 CPDF_TextPageFind::CPDF_TextPageFind(const IPDF_TextPage* pTextPage)
2241     : m_pTextPage(NULL),
2242       m_IsFind(FALSE)
2243 {
2244     if (!pTextPage) {
2245         return;
2246     }
2247     m_pTextPage = pTextPage;
2248     m_strText = m_pTextPage->GetPageText();
2249     int nCount = pTextPage->CountChars();
2250     if(nCount) {
2251         m_CharIndex.Add(0);
2252     }
2253     for(int i = 0; i < nCount; i++) {
2254         FPDF_CHAR_INFO info;
2255         pTextPage->GetCharInfo(i, info);
2256         int indexSize = m_CharIndex.GetSize();
2257         if(info.m_Flag == CHAR_NORMAL || info.m_Flag == CHAR_GENERATED) {
2258             if(indexSize % 2) {
2259                 m_CharIndex.Add(1);
2260             } else {
2261                 if(indexSize <= 0) {
2262                     continue;
2263                 }
2264                 m_CharIndex.SetAt(indexSize - 1, m_CharIndex.GetAt(indexSize - 1) + 1);
2265             }
2266         } else {
2267             if(indexSize % 2) {
2268                 if(indexSize <= 0) {
2269                     continue;
2270                 }
2271                 m_CharIndex.SetAt(indexSize - 1, i + 1);
2272             } else {
2273                 m_CharIndex.Add(i + 1);
2274             }
2275         }
2276     }
2277     int indexSize = m_CharIndex.GetSize();
2278     if(indexSize % 2) {
2279         m_CharIndex.RemoveAt(indexSize - 1);
2280     }
2281     m_resStart = 0;
2282     m_resEnd = -1;
2283 }
2284 int CPDF_TextPageFind::GetCharIndex(int index) const
2285 {
2286     return m_pTextPage->CharIndexFromTextIndex(index);
2287     int indexSize = m_CharIndex.GetSize();
2288     int count = 0;
2289     for(int i = 0; i < indexSize; i += 2) {
2290         count += m_CharIndex.GetAt(i + 1);
2291         if(count > index) {
2292             return      index - count + m_CharIndex.GetAt(i + 1) + m_CharIndex.GetAt(i);
2293         }
2294     }
2295     return -1;
2296 }
2297 FX_BOOL CPDF_TextPageFind::FindFirst(const CFX_WideString& findwhat, int flags, int startPos)
2298 {
2299     if (!m_pTextPage) {
2300         return FALSE;
2301     }
2302     if (m_strText.IsEmpty() || m_bMatchCase != (flags & FPDFTEXT_MATCHCASE)) {
2303         m_strText = m_pTextPage->GetPageText();
2304     }
2305     CFX_WideString findwhatStr = findwhat;
2306     m_findWhat = findwhatStr;
2307     m_flags = flags;
2308     m_bMatchCase = flags & FPDFTEXT_MATCHCASE;
2309     if (m_strText.IsEmpty()) {
2310         m_IsFind = FALSE;
2311         return TRUE;
2312     }
2313     FX_STRSIZE len = findwhatStr.GetLength();
2314     if (!m_bMatchCase) {
2315         findwhatStr.MakeLower();
2316         m_strText.MakeLower();
2317     }
2318     m_bMatchWholeWord = flags & FPDFTEXT_MATCHWHOLEWORD;
2319     m_findNextStart = startPos;
2320     if (startPos == -1) {
2321         m_findPreStart = m_strText.GetLength() - 1;
2322     } else {
2323         m_findPreStart = startPos;
2324     }
2325     m_csFindWhatArray.RemoveAll();
2326     int i = 0;
2327     while(i < len) {
2328         if(findwhatStr.GetAt(i) != ' ') {
2329             break;
2330         }
2331         i++;
2332     }
2333     if(i < len) {
2334         ExtractFindWhat(findwhatStr);
2335     } else {
2336         m_csFindWhatArray.Add(findwhatStr);
2337     }
2338     if(m_csFindWhatArray.GetSize() <= 0) {
2339         return FALSE;
2340     }
2341     m_IsFind = TRUE;
2342     m_resStart = 0;
2343     m_resEnd = -1;
2344     return TRUE;
2345 }
2346 FX_BOOL CPDF_TextPageFind::FindNext()
2347 {
2348     if (!m_pTextPage) {
2349         return FALSE;
2350     }
2351     m_resArray.RemoveAll();
2352     if(m_findNextStart == -1) {
2353         return FALSE;
2354     }
2355     if(m_strText.IsEmpty()) {
2356         m_IsFind = FALSE;
2357         return m_IsFind;
2358     }
2359     int strLen = m_strText.GetLength();
2360     if (m_findNextStart > strLen - 1) {
2361         m_IsFind = FALSE;
2362         return m_IsFind;
2363     }
2364     int nCount = m_csFindWhatArray.GetSize();
2365     int nResultPos = 0;
2366     int nStartPos = 0;
2367     nStartPos = m_findNextStart;
2368     FX_BOOL bSpaceStart = FALSE;
2369     for(int iWord = 0; iWord < nCount; iWord++) {
2370         CFX_WideString csWord = m_csFindWhatArray[iWord];
2371         if(csWord.IsEmpty()) {
2372             if(iWord == nCount - 1) {
2373                 FX_WCHAR strInsert = m_strText.GetAt(nStartPos);
2374                 if(strInsert == TEXT_LINEFEED_CHAR || strInsert == TEXT_BLANK_CHAR || strInsert == TEXT_RETURN_CHAR || strInsert == 160) {
2375                     nResultPos = nStartPos + 1;
2376                     break;
2377                 }
2378                 iWord = -1;
2379             } else if(iWord == 0) {
2380                 bSpaceStart = TRUE;
2381             }
2382             continue;
2383         }
2384         int endIndex;
2385         nResultPos = m_strText.Find(csWord, nStartPos);
2386         if (nResultPos == -1) {
2387             m_IsFind = FALSE;
2388             return m_IsFind;
2389         }
2390         endIndex = nResultPos + csWord.GetLength() - 1;
2391         if(iWord == 0) {
2392             m_resStart = nResultPos;
2393         }
2394         FX_BOOL bMatch = TRUE;
2395         if(iWord != 0 && !bSpaceStart) {
2396             int PreResEndPos = nStartPos;
2397             int curChar = csWord.GetAt(0);
2398             CFX_WideString lastWord = m_csFindWhatArray[iWord - 1];
2399             int lastChar = lastWord.GetAt(lastWord.GetLength() - 1);
2400             if(nStartPos == nResultPos && !(_IsIgnoreSpaceCharacter(lastChar) || _IsIgnoreSpaceCharacter(curChar))) {
2401                 bMatch = FALSE;
2402             }
2403             for(int d = PreResEndPos; d < nResultPos; d++) {
2404                 FX_WCHAR strInsert = m_strText.GetAt(d);
2405                 if(strInsert != TEXT_LINEFEED_CHAR && strInsert != TEXT_BLANK_CHAR && strInsert != TEXT_RETURN_CHAR && strInsert != 160) {
2406                     bMatch = FALSE;
2407                     break;
2408                 }
2409             }
2410         } else if(bSpaceStart) {
2411             if(nResultPos > 0) {
2412                 FX_WCHAR strInsert = m_strText.GetAt(nResultPos - 1);
2413                 if(strInsert != TEXT_LINEFEED_CHAR && strInsert != TEXT_BLANK_CHAR && strInsert != TEXT_RETURN_CHAR && strInsert != 160) {
2414                     bMatch = FALSE;
2415                     m_resStart = nResultPos;
2416                 } else {
2417                     m_resStart = nResultPos - 1;
2418                 }
2419             }
2420         }
2421         if(m_bMatchWholeWord && bMatch) {
2422             bMatch = IsMatchWholeWord(m_strText, nResultPos, endIndex);
2423         }
2424         nStartPos = endIndex + 1;
2425         if(!bMatch) {
2426             iWord = -1;
2427             if(bSpaceStart) {
2428                 nStartPos = m_resStart + m_csFindWhatArray[1].GetLength();
2429             } else {
2430                 nStartPos = m_resStart + m_csFindWhatArray[0].GetLength();
2431             }
2432         }
2433     }
2434     m_resEnd = nResultPos + m_csFindWhatArray[m_csFindWhatArray.GetSize() - 1].GetLength() - 1;
2435     m_IsFind = TRUE;
2436     int resStart = GetCharIndex(m_resStart);
2437     int resEnd = GetCharIndex(m_resEnd);
2438     m_pTextPage->GetRectArray(resStart, resEnd - resStart + 1, m_resArray);
2439     if(m_flags & FPDFTEXT_CONSECUTIVE) {
2440         m_findNextStart = m_resStart + 1;
2441         m_findPreStart = m_resEnd - 1;
2442     } else {
2443         m_findNextStart = m_resEnd + 1;
2444         m_findPreStart = m_resStart - 1;
2445     }
2446     return m_IsFind;
2447 }
2448 FX_BOOL CPDF_TextPageFind::FindPrev()
2449 {
2450     if (!m_pTextPage) {
2451         return FALSE;
2452     }
2453     m_resArray.RemoveAll();
2454     if(m_strText.IsEmpty() || m_findPreStart < 0) {
2455         m_IsFind = FALSE;
2456         return m_IsFind;
2457     }
2458     CPDF_TextPageFind findEngine(m_pTextPage);
2459     FX_BOOL ret = findEngine.FindFirst(m_findWhat, m_flags);
2460     if(!ret) {
2461         m_IsFind = FALSE;
2462         return m_IsFind;
2463     }
2464     int order = -1, MatchedCount = 0;
2465     while(ret) {
2466         ret = findEngine.FindNext();
2467         if(ret) {
2468             int order1 = findEngine.GetCurOrder() ;
2469             int MatchedCount1 = findEngine.GetMatchedCount();
2470             if(((order1 + MatchedCount1) - 1) > m_findPreStart) {
2471                 break;
2472             }
2473             order = order1;
2474             MatchedCount = MatchedCount1;
2475         }
2476     }
2477     if(order == -1) {
2478         m_IsFind = FALSE;
2479         return m_IsFind;
2480     }
2481     m_resStart = m_pTextPage->TextIndexFromCharIndex(order);
2482     m_resEnd = m_pTextPage->TextIndexFromCharIndex(order + MatchedCount - 1);
2483     m_IsFind = TRUE;
2484     m_pTextPage->GetRectArray(order, MatchedCount, m_resArray);
2485     if(m_flags & FPDFTEXT_CONSECUTIVE) {
2486         m_findNextStart = m_resStart + 1;
2487         m_findPreStart = m_resEnd - 1;
2488     } else {
2489         m_findNextStart = m_resEnd + 1;
2490         m_findPreStart = m_resStart - 1;
2491     }
2492     return m_IsFind;
2493 }
2494 void CPDF_TextPageFind::ExtractFindWhat(const CFX_WideString& findwhat)
2495 {
2496     if(findwhat.IsEmpty()) {
2497         return ;
2498     }
2499     int index = 0;
2500     while(1) {
2501         CFX_WideString csWord = TEXT_EMPTY;
2502         int ret = ExtractSubString(csWord, findwhat, index, TEXT_BLANK_CHAR);
2503         if(csWord.IsEmpty()) {
2504             if(ret) {
2505                 m_csFindWhatArray.Add(CFX_WideString(L""));
2506                 index++;
2507                 continue;
2508             } else {
2509                 break;
2510             }
2511         }
2512         int pos = 0;
2513         FX_BOOL bLastIgnore = FALSE;
2514         while(pos < csWord.GetLength()) {
2515             CFX_WideString curStr = csWord.Mid(pos, 1);
2516             FX_WCHAR curChar = csWord.GetAt(pos);
2517             if (_IsIgnoreSpaceCharacter(curChar)) {
2518                 if (pos > 0 && curChar == 0x2019) {
2519                     pos++;
2520                     continue;
2521                 }
2522                 if (pos > 0 ) {
2523                     CFX_WideString preStr = csWord.Mid(0, pos);
2524                     m_csFindWhatArray.Add(preStr);
2525                 }
2526                 m_csFindWhatArray.Add(curStr);
2527                 if (pos == csWord.GetLength() - 1) {
2528                     csWord.Empty();
2529                     break;
2530                 }
2531                 csWord = csWord.Right(csWord.GetLength() - pos - 1);
2532                 pos = 0;
2533                 bLastIgnore = TRUE;
2534                 continue;
2535             } else {
2536                 bLastIgnore = FALSE;
2537             }
2538             pos++;
2539         }
2540         if (!csWord.IsEmpty()) {
2541             m_csFindWhatArray.Add(csWord);
2542         }
2543         index++;
2544     }
2545     return;
2546 }
2547 FX_BOOL CPDF_TextPageFind::IsMatchWholeWord(const CFX_WideString& csPageText, int startPos, int endPos)
2548 {
2549     int char_left = 0;
2550     int char_right = 0;
2551     int char_count = endPos - startPos + 1;
2552     if(char_count < 1) {
2553         return FALSE;
2554     }
2555     if (char_count == 1 && csPageText.GetAt(startPos) > 255) {
2556         return TRUE;
2557     }
2558     if(startPos - 1 >= 0 ) {
2559         char_left = csPageText.GetAt(startPos - 1);
2560     }
2561     if(startPos + char_count < csPageText.GetLength()) {
2562         char_right = csPageText.GetAt(startPos + char_count);
2563     }
2564     if ((char_left > 'A' && char_left < 'a') || (char_left > 'a' && char_left < 'z') || (char_left > 0xfb00 && char_left < 0xfb06) || (char_left >= '0' && char_left <= '9') ||
2565             (char_right > 'A' && char_right < 'a') || (char_right > 'a' && char_right < 'z') || (char_right > 0xfb00 && char_right < 0xfb06) || (char_right >= '0' && char_right <= '9')) {
2566         return FALSE;
2567     }
2568     if(!(('A' > char_left || char_left > 'Z')  && ('a' > char_left || char_left > 'z')
2569             && ('A' > char_right || char_right > 'Z')  && ('a' > char_right || char_right > 'z'))) {
2570         return FALSE;
2571     }
2572     if (char_count > 0) {
2573         if (csPageText.GetAt(startPos) >= L'0' && csPageText.GetAt(startPos) <= L'9' && char_left >= L'0' && char_left <= L'9') {
2574             return FALSE;
2575         }
2576         if (csPageText.GetAt(endPos) >= L'0' && csPageText.GetAt(endPos) <= L'9' && char_right >= L'0' && char_right <= L'9') {
2577             return FALSE;
2578         }
2579     }
2580     return TRUE;
2581 }
2582 FX_BOOL CPDF_TextPageFind::ExtractSubString(CFX_WideString& rString, FX_LPCWSTR lpszFullString,
2583         int iSubString, FX_WCHAR chSep)
2584 {
2585     if (lpszFullString == NULL) {
2586         return FALSE;
2587     }
2588     while (iSubString--) {
2589         lpszFullString = FXSYS_wcschr(lpszFullString, chSep);
2590         if (lpszFullString == NULL) {
2591             rString.Empty();
2592             return FALSE;
2593         }
2594         lpszFullString++;
2595         while(*lpszFullString == chSep) {
2596             lpszFullString++;
2597         }
2598     }
2599     FX_LPCWSTR lpchEnd = FXSYS_wcschr(lpszFullString, chSep);
2600     int nLen = (lpchEnd == NULL) ?
2601                (int)FXSYS_wcslen(lpszFullString) : (int)(lpchEnd - lpszFullString);
2602     ASSERT(nLen >= 0);
2603     FXSYS_memcpy32(rString.GetBuffer(nLen), lpszFullString, nLen * sizeof(FX_WCHAR));
2604     rString.ReleaseBuffer();
2605     return TRUE;
2606 }
2607 CFX_WideString CPDF_TextPageFind::MakeReverse(const CFX_WideString& str)
2608 {
2609     CFX_WideString str2;
2610     str2.Empty();
2611     int nlen = str.GetLength();
2612     for(int i = nlen - 1; i >= 0; i--) {
2613         str2 += str.GetAt(i);
2614     }
2615     return str2;
2616 }
2617 void CPDF_TextPageFind::GetRectArray(CFX_RectArray& rects) const
2618 {
2619     rects.Copy(m_resArray);
2620 }
2621 int     CPDF_TextPageFind::GetCurOrder() const
2622 {
2623     return GetCharIndex(m_resStart);
2624 }
2625 int     CPDF_TextPageFind::GetMatchedCount()const
2626 {
2627     int resStart = GetCharIndex(m_resStart);
2628     int resEnd = GetCharIndex(m_resEnd);
2629     return resEnd - resStart + 1;
2630 }
2631 CPDF_LinkExtract::CPDF_LinkExtract()
2632     : m_pTextPage(NULL),
2633       m_IsParserd(FALSE)
2634 {
2635 }
2636 CPDF_LinkExtract::~CPDF_LinkExtract()
2637 {
2638     DeleteLinkList();
2639 }
2640 FX_BOOL CPDF_LinkExtract::ExtractLinks(const IPDF_TextPage* pTextPage)
2641 {
2642     if (!pTextPage || !pTextPage->IsParsered()) {
2643         return FALSE;
2644     }
2645     m_pTextPage = (const CPDF_TextPage*)pTextPage;
2646     m_strPageText = m_pTextPage->GetPageText(0, -1);
2647     DeleteLinkList();
2648     if (m_strPageText.IsEmpty()) {
2649         return FALSE;
2650     }
2651     parserLink();
2652     m_IsParserd = TRUE;
2653     return TRUE;
2654 }
2655 void CPDF_LinkExtract::DeleteLinkList()
2656 {
2657     while (m_LinkList.GetSize()) {
2658         CPDF_LinkExt* linkinfo = NULL;
2659         linkinfo = m_LinkList.GetAt(0);
2660         m_LinkList.RemoveAt(0);
2661         delete linkinfo;
2662     }
2663     m_LinkList.RemoveAll();
2664 }
2665 int CPDF_LinkExtract::CountLinks() const
2666 {
2667     if (!m_IsParserd)   {
2668         return -1;
2669     }
2670     return m_LinkList.GetSize();
2671 }
2672 void CPDF_LinkExtract::parserLink()
2673 {
2674     int start = 0, pos = 0;
2675     int TotalChar = m_pTextPage->CountChars();
2676     while (pos < TotalChar) {
2677         FPDF_CHAR_INFO pageChar;
2678         m_pTextPage->GetCharInfo(pos, pageChar);
2679         if (pageChar.m_Flag == CHAR_GENERATED || pageChar.m_Unicode == 0x20 || pos == TotalChar - 1) {
2680             int nCount = pos - start;
2681             if(pos == TotalChar - 1) {
2682                 nCount++;
2683             }
2684             CFX_WideString strBeCheck;
2685             strBeCheck = m_pTextPage->GetPageText(start, nCount);
2686             if (strBeCheck.GetLength() > 5) {
2687                 while(strBeCheck.GetLength() > 0) {
2688                     FX_WCHAR ch = strBeCheck.GetAt(strBeCheck.GetLength() - 1);
2689                     if (ch == L')' || ch == L',' || ch == L'>' || ch == L'.') {
2690                         strBeCheck = strBeCheck.Mid(0, strBeCheck.GetLength() - 1);
2691                         nCount--;
2692                     } else {
2693                         break;
2694                     }
2695                 }
2696                 if (nCount > 5 && (CheckWebLink(strBeCheck) || CheckMailLink(strBeCheck))) {
2697                     if (!AppendToLinkList(start, nCount, strBeCheck)) {
2698                         break;
2699                     }
2700                 }
2701             }
2702             start = ++pos;
2703         } else {
2704             pos++;
2705         }
2706     }
2707 }
2708 FX_BOOL CPDF_LinkExtract::CheckWebLink(CFX_WideString& strBeCheck)
2709 {
2710     CFX_WideString str = strBeCheck;
2711     str.MakeLower();
2712     if (str.Find(L"http://www.") != -1) {
2713         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"http://www."));
2714         return TRUE;
2715     } else if (str.Find(L"http://") != -1) {
2716         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"http://"));
2717         return TRUE;
2718     } else if (str.Find(L"https://www.") != -1) {
2719         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"https://www."));
2720         return TRUE;
2721     } else if (str.Find(L"https://") != -1) {
2722         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"https://"));
2723         return TRUE;
2724     } else if (str.Find(L"www.") != -1) {
2725         strBeCheck = strBeCheck.Right(str.GetLength() - str.Find(L"www."));
2726         strBeCheck = L"http://" + strBeCheck;
2727         return TRUE;
2728     } else {
2729         return FALSE;
2730     }
2731 }
2732 FX_BOOL CPDF_LinkExtract::CheckMailLink(CFX_WideString& str)
2733 {
2734     str.MakeLower();
2735     int aPos = str.Find(L'@');
2736     if (aPos < 1) {
2737         return FALSE;
2738     }
2739     if (str.GetAt(aPos - 1) == L'.' || str.GetAt(aPos - 1) == L'_') {
2740         return FALSE;
2741     }
2742     int i;
2743     for (i = aPos - 1; i >= 0; i--) {
2744         FX_WCHAR ch = str.GetAt(i);
2745         if (ch == L'_' || ch == L'.' || (ch >= L'a' && ch <= L'z') || (ch >= L'0' && ch <= L'9')) {
2746             continue;
2747         } else {
2748             if (i == aPos - 1) {
2749                 return FALSE;
2750             }
2751             str = str.Right(str.GetLength() - i - 1);
2752             break;
2753         }
2754     }
2755     aPos = str.Find(L'@');
2756     if (aPos < 1) {
2757         return FALSE;
2758     }
2759     CFX_WideString strtemp = L"";
2760     for (i = 0; i < aPos; i++) {
2761         FX_WCHAR wch = str.GetAt(i);
2762         if (wch >= L'a' && wch <= L'z') {
2763             break;
2764         } else {
2765             strtemp = str.Right(str.GetLength() - i + 1);
2766         }
2767     }
2768     if (strtemp != L"") {
2769         str = strtemp;
2770     }
2771     aPos = str.Find(L'@');
2772     if (aPos < 1) {
2773         return FALSE;
2774     }
2775     str.TrimRight(L'.');
2776     strtemp = str;
2777     int ePos = str.Find(L'.');
2778     if (ePos == -1) {
2779         return FALSE;
2780     }
2781     while (ePos != -1) {
2782         strtemp = strtemp.Right(strtemp.GetLength() - ePos - 1);
2783         ePos = strtemp.Find('.');
2784     }
2785     ePos = strtemp.GetLength();
2786     for (i = 0; i < ePos; i++) {
2787         FX_WCHAR wch = str.GetAt(i);
2788         if ((wch >= L'a' && wch <= L'z') || (wch >= L'0' && wch <= L'9')) {
2789             continue;
2790         } else {
2791             str = str.Left(str.GetLength() - ePos + i + 1);
2792             ePos = ePos - i - 1;
2793             break;
2794         }
2795     }
2796     int nLen = str.GetLength();
2797     for (i = aPos + 1; i < nLen - ePos; i++) {
2798         FX_WCHAR wch = str.GetAt(i);
2799         if (wch == L'-' || wch == L'.' || (wch >= L'a' && wch <= L'z') || (wch >= L'0' && wch <= L'9')) {
2800             continue;
2801         } else {
2802             return FALSE;
2803         }
2804     }
2805     if (str.Find(L"mailto:") == -1) {
2806         str = L"mailto:" + str;
2807     }
2808     return TRUE;
2809 }
2810 FX_BOOL CPDF_LinkExtract::AppendToLinkList(int start, int count, const CFX_WideString& strUrl)
2811 {
2812     CPDF_LinkExt* linkInfo = NULL;
2813     linkInfo = FX_NEW CPDF_LinkExt;
2814     if (!linkInfo) {
2815         return FALSE;
2816     }
2817     linkInfo->m_strUrl = strUrl;
2818     linkInfo->m_Start = start;
2819     linkInfo->m_Count = count;
2820     m_LinkList.Add(linkInfo);
2821     return TRUE;
2822 }
2823 CFX_WideString CPDF_LinkExtract::GetURL(int index) const
2824 {
2825     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2826         return L"";
2827     }
2828     CPDF_LinkExt* link = NULL;
2829     link = m_LinkList.GetAt(index);
2830     if (!link) {
2831         return L"";
2832     }
2833     return link->m_strUrl;
2834 }
2835 void CPDF_LinkExtract::GetBoundedSegment(int index, int& start, int& count) const
2836 {
2837     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2838         return ;
2839     }
2840     CPDF_LinkExt* link = NULL;
2841     link = m_LinkList.GetAt(index);
2842     if (!link) {
2843         return ;
2844     }
2845     start = link->m_Start;
2846     count = link->m_Count;
2847 }
2848 void CPDF_LinkExtract::GetRects(int index, CFX_RectArray& rects) const
2849 {
2850     if (!m_IsParserd || index < 0 || index >= m_LinkList.GetSize()) {
2851         return;
2852     }
2853     CPDF_LinkExt* link = NULL;
2854     link = m_LinkList.GetAt(index);
2855     if (!link) {
2856         return ;
2857     }
2858     m_pTextPage->GetRectArray(link->m_Start, link->m_Count, rects);
2859 }