Detalhes de Software:
Versão: 2.6.0
Data de upload: 20 Feb 15
Licença: Shareware
Preço: 1900.00 $
Popularidade: 63
projeto PDFTextStream é uma biblioteca de extração de texto PDF e metadados disponíveis para Java, Python, e .NET.
Ele suporta todas as versões da especificação do documento PDF, (incluindo v1.6, usados por Acrobat 7), a extração do texto codificado usando conjuntos de caracteres de dois bytes (incluindo o chinês, japonês e coreano), decodificação de 40-bit e 128 bit documentos criptografados e extração de todos os metadados de documentos fornecidos por documentos PDF (incluindo os dados do formulário, marcadores e anotações).
Fácil integração com Jakarta Lucene está incluído
O que é novo nesta versão:.
- Esta versão inclui uma variedade de correções feitas para garantir PDFTextStream é capaz de extrair o texto de documentos PDF que são não-conformes com a especificação PDF.
- Ele também inclui uma variedade de aprimoramentos de desempenho.
O que é novo na versão 2.3.0:
- Adicionado um método .isStruckThrough () para com. snowtide.pdf.TextUnit, indicando se um personagem tem um tachado desenhada por ele.
- Melhor suporte de PDFTextStream para mapeamentos de caracteres incorporados.
- O cálculo do espaço em branco entre as palavras foi corrigido para justificar adequadamente o espaço em branco que é explicitamente codificado em documentos PDF de origem.
- Melhoria da manipulação de PDFTextStream de codificações conteúdo compostos, que anteriormente poderiam falhar, resultando em algumas gamas de conteúdo em PDF sendo 'ignorado' durante a extração.
- Corrigido um erro na VisualOutputTarget que o texto a partir de uma única linha seria dividido em várias linhas
- alinhamento vertical melhorada do texto extraído usando VisualOutputTarget
- Improved VisualOutputTarget-produziu extratos para eliminar espaços adicionais espúria entre as palavras de perto adjacentes
O que é novo na versão 2.2.5:
- Esta versão adiciona suporte para a extração de dados de formulários XFA como XML.
- Além disso, melhora significativamente o desempenho da extração de texto usando VisualOutputTarget. Suporte para documentos PDF maiores que 2GB.
- A correção para um bug onde as codificações de fontes Type1 embarcados foram anteriormente não sendo aplicado corretamente em algumas circunstâncias.
- A correção para um problema em que o conteúdo mais recente em documentos PDF foi atualizado às vezes sendo ignorados.
- A correção para um problema onde bookmarks e metadados codificado-PDFDocEncoding não estavam sendo decodificado corretamente.
- Um método em com.snowtide.pdf.Bookmark .getDestinationName ().
Requisitos :
- Apache Lucene
Comentários não encontrado