PDFTextStream

Tela Software:
PDFTextStream
Detalhes de Software:
Versão: 2.6.0
Data de upload: 20 Feb 15
Licença: Shareware
Preço: 1900.00 $
Popularidade: 2

Rating: nan/5 (Total Votes: 0)

projeto PDFTextStream é uma biblioteca de extração de texto PDF e metadados disponíveis para Java, Python, e .NET.
Ele suporta todas as versões da especificação do documento PDF, (incluindo v1.6, usados ​​por Acrobat 7), a extração do texto codificado usando conjuntos de caracteres de dois bytes (incluindo o chinês, japonês e coreano), decodificação de 40-bit e 128 bit documentos criptografados e extração de todos os metadados de documentos fornecidos por documentos PDF (incluindo os dados do formulário, marcadores e anotações).
Fácil integração com Jakarta Lucene está incluído

O que é novo nesta versão:.

  • Esta versão inclui uma variedade de correções feitas para garantir PDFTextStream é capaz de extrair o texto de documentos PDF que são não-conformes com a especificação PDF.
  • Ele também inclui uma variedade de aprimoramentos de desempenho.

O que é novo na versão 2.3.0:

  • Adicionado um método .isStruckThrough () para com. snowtide.pdf.TextUnit, indicando se um personagem tem um tachado desenhada por ele.
  • Melhor suporte de PDFTextStream para mapeamentos de caracteres incorporados.
  • O cálculo do espaço em branco entre as palavras foi corrigido para justificar adequadamente o espaço em branco que é explicitamente codificado em documentos PDF de origem.
  • Melhoria da manipulação de PDFTextStream de codificações conteúdo compostos, que anteriormente poderiam falhar, resultando em algumas gamas de conteúdo em PDF sendo 'ignorado' durante a extração.
  • Corrigido um erro na VisualOutputTarget que o texto a partir de uma única linha seria dividido em várias linhas
  • alinhamento vertical melhorada do texto extraído usando VisualOutputTarget
  • Improved VisualOutputTarget-produziu extratos para eliminar espaços adicionais espúria entre as palavras de perto adjacentes

O que é novo na versão 2.2.5:

  • Esta versão adiciona suporte para a extração de dados de formulários XFA como XML.
  • Além disso, melhora significativamente o desempenho da extração de texto usando VisualOutputTarget. Suporte para documentos PDF maiores que 2GB.
  • A correção para um bug onde as codificações de fontes Type1 embarcados foram anteriormente não sendo aplicado corretamente em algumas circunstâncias.
  • A correção para um problema em que o conteúdo mais recente em documentos PDF foi atualizado às vezes sendo ignorados.
  • A correção para um problema onde bookmarks e metadados codificado-PDFDocEncoding não estavam sendo decodificado corretamente.
  • Um método em com.snowtide.pdf.Bookmark .getDestinationName ().

Requisitos :

  • Apache Lucene

Comentário para PDFTextStream

Comentários não encontrado
Adicionar comentário
Ligue imagens!