C#에서 iTextSharp PDF 텍스트 추출 문제 해결
C#에서 iTextSharp를 사용하여 PDF에서 텍스트를 추출하면 특히 영어가 아닌 문자를 처리할 때 문제가 발생할 수 있습니다. 페르시아어나 아랍어와 같은 언어에서는 문제가 자주 발생하여 출력이 손상되거나 읽을 수 없게 됩니다.
인코딩 오류 수정
이러한 문제의 주요 원인은 종종 불필요한 인코딩 변환에 있습니다. 다음과 같은 일반적인 함정을 피하세요.
<code class="language-csharp">currentText = Encoding.UTF8.GetString(Encoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.UTF8.GetBytes(currentText)));</code>
이 코드는 여러 인코딩 변환을 시도하는데, 이로 인해 오류가 자주 발생합니다. 대신 텍스트 추출을 단순화하세요.
<code class="language-csharp">currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);</code>
이 간소화된 접근 방식은 텍스트를 직접 검색하여 인코딩 관련 문제의 위험을 최소화합니다.
추가 고려사항
인코딩 외에도 텍스트 표시 메커니즘이 유니코드 문자를 완벽하게 지원하는지 확인하세요. 최신 iTextSharp 라이브러리를 사용하는 것도 권장됩니다.
이러한 수정에도 불구하고 특히 아랍어와 같이 오른쪽에서 왼쪽으로 쓰는 언어에서는 텍스트가 여전히 순서 없이 나타날 수 있습니다. 이는 일부 PDF가 텍스트 렌더링을 처리하는 방식에서 발생하는 알려진 제한 사항입니다(PDF 2008 사양, 14.8.2.3.3에 자세히 설명되어 있음). 이 문제를 해결하려면 추출된 텍스트를 올바르게 재정렬하기 위해 PDF 구조를 더욱 심층적으로 분석해야 합니다.
위 내용은 C#에서 iTextSharp를 사용하여 PDF에서 텍스트를 추출할 때 인코딩 문제를 어떻게 해결할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!