Development Tip

Python을 사용한 고급 PDF 구문 분석 (표없이 텍스트 추출 등) : 최고의 라이브러리는 무엇입니까?

yourdevel 2020. 10. 10. 12:06
반응형

Python을 사용한 고급 PDF 구문 분석 (표없이 텍스트 추출 등) : 최고의 라이브러리는 무엇입니까?


PDF 문서에서 텍스트를 추출 할 수있는 PDF 라이브러리를 찾고 있습니다. 필자는 PyPDF를 살펴 봤는데 이것은 PDF 문서에서 텍스트를 아주 멋지게 추출 할 수 있습니다. 이 문제는 문서에 표가있는 경우 표의 텍스트가 나머지 문서 텍스트와 함께 인라인으로 추출된다는 것입니다. 유용하지 않고 왜곡 된 텍스트 섹션을 생성하기 때문에 문제가 될 수 있습니다 (예 : 많은 숫자가 함께 뭉쳐진 경우).

좀 더 진보 된 것을 찾고 있습니다. 표 및 특수 서식을 제외하고 PDF 문서에서 텍스트를 추출하고 싶습니다 . 이 작업을 수행하는 도서관이 있습니까? 아니면 이러한 섹션을 제거하기 위해 출력 텍스트에 대해 약간의 후 처리를해야합니까?


Python의 다른 PDF 파서 인 PDFMiner를 살펴볼 수도 있습니다 .

PDFMiner의 특별한 기능은 추출 할 때 텍스트 부분을 다시 그룹화하는 방법을 제어 할 수 있다는 것입니다. 줄, 단어, 문자 등 사이의 공백을 지정하여이를 수행합니다. 따라서이를 조정하여 원하는 것을 얻을 수 있습니다 (문서의 가변성에 따라 다름). PDFMiner는 또한 페이지에서 텍스트의 위치를 ​​제공 할 수 있으며 개체 ID 및 기타 항목으로 데이터를 추출 할 수 있습니다. PDFMiner를 파헤 치고 창의력을 발휘하십시오!

그러나 PDF에서 텍스트는 연속적이지 않고 페이지에 절대적으로 위치한 많은 작은 문자 그룹으로 만들어지기 때문에 문제를 해결하기가 쉽지 않습니다. PDF의 초점은 레이아웃을 그대로 유지하는 것입니다. 콘텐츠 지향이 아니라 프레젠테이션 지향입니다.


시각적으로 유사한 PDF는 제작 방법에 따라 구조가 크게 다를 수 있으므로 해결하기 어려운 문제입니다. 최악의 경우 라이브러리는 기본적으로 OCR처럼 작동해야합니다. 반면에 PDF에는 테이블과 그림을 쉽게 제거 할 수있는 충분한 구조와 메타 데이터가 포함될 수 있으며,이를 활용하도록 라이브러리를 조정할 수 있습니다.

다양한 PDF에 대한 문제를 해결하는 오픈 소스 도구가 없다고 확신하지만, 사용자가 요청한 것을 정확히 수행한다고 주장하는 상용 소프트웨어에 대해 들어 본 적이 있습니다. 인터넷 검색 중에 그들과 마주 칠 것이라고 확신합니다.

참고 URL : https://stackoverflow.com/questions/1848464/advanced-pdf-parsing-using-python-extracting-text-without-tables-etc-whats

반응형