PDFMiner funciona através da tomando o conteúdo de um arquivo PDF e convertê-lo para um formato mais maleável como HTML.
A partir daí, o texto e os dados são extraídos e analisados, e com base nas regras predefinidas separados e apresentados ao utilizador ou enviados para outros instrumentos de análise de dados mais poderosos.
Se a análise de texto não é o que você pretende fazer, você pode facilmente configurar PDFMiner simplesmente extrair ou apenas converter dados de PDF também.
Suas funções podem trabalhar separadamente um do outro e permitir um espectro mais amplo uso graças a ele
Recursos :.
- 100% Python código, não C ou C ++
- analisar PDFs
- Analisar PDFs
- Converter PDFs para outros formatos
- extractor TOC
- Tenha somente com etiquetas de conteúdo
- Suporte para um grande número de recursos de texto PDF
- Suporte para um grande número de tipos de letra dentro PDFs
- criptografia básica (RC4) apoio
O que é novo nesta versão:
- método PDFDocument.initialize () é removida e não é mais necessário . Uma senha é dada como um argumento de um construtor PDFDocument.
O que é novo na versão 20110515:.
- mudanças na API
- classe LTPolygon foi rebatizado como LTCurve.
O que é novo na versão 20110227:.
- Correções de bugs e melhorias de análise do layout
O que é novo na versão 20101226:.
- Um par de correções de bugs e pequenas melhorias
O que é novo na versão 20101017:.
- Um par de correções de bugs e uma pequena melhoria
O que é novo na versão 20100424:.
- correções de bugs e pequenas melhorias na extração de TOC
Requisitos :
- Python 2.4 até 3
Limitações :.
- PDFMiner pode ser 20 vezes mais lento do que C ++ C / - software baseado
Comentários não encontrado