PDF Extractor SDK para desenvolvedores de software Windows: PDF para texto, PDF para XML, imagens de PDF, leitura de informações em PDF, PDF para CSV para Excel.
O Bytescout PDF Extractor SDK permite converter PDF para texto, PDF para XML, PDF para CSV, extrair imagens de PDF, extrair informações sobre arquivos PDF em interfaces .NET e ActiveX sem qualquer software adicional necessário.
Benefícios:
converte PDF para texto simples (e pode seguir colunas se você converter um jornal em formato PDF) - incluindo extração de texto invisível;
converte tabelas em PDF para Excel (CSV) lendo células de um determinado retângulo;
converte tabelas em arquivos PDF para XML;
extrai metadados do arquivo PDF (título, autor, descrição) e obtém outras informações sobre o arquivo (número de páginas, criptografadas ou não);
extrai imagens incorporadas do documento PDF (em ASP.NET, VB.NET, C #, VB6 e VBScript);
DocumentMerger e DocumentSplitter interfaces e classes para mesclar e dividir documentos PDF;
não requer que o Adobe Reader ou qualquer outro software de leitura de PDF seja instalado;
fornece interfaces .NET e ActiveX;
feito com código C # 100% gerenciado.
O que há de novo nesta versão:
Versão 9.0.0.3079: Adicionada a filtragem do conteúdo extraído por nome da fonte, tamanho da fonte e cor.
Mecanismo OCR atualizado para a versão mais recente. Atualize os arquivos de idioma da pasta 'tessdata'.
Extração de texto aprimorada, agrupamento de linhas em dados tabulares, desempenho, extração de formulários XFA, TableDetector, problemas de análise de PDF fixos.
O que há de novo na versão 8.7.0.2980:
Adicionada filtragem do conteúdo extraído por nome da fonte, tamanho da fonte e cor.
Mecanismo OCR atualizado para a versão mais recente. Atualize os arquivos de idioma da pasta 'tessdata'.
Extração de texto aprimorada, agrupamento de linhas em dados tabulares, desempenho, extração de formulários XFA, TableDetector, problemas de análise de PDF fixos.
O que há de novo na versão 8.6.0.2911:
Adicionada filtragem do conteúdo extraído por nome da fonte, tamanho da fonte e cor.
Mecanismo OCR atualizado para a versão mais recente. Atualize os arquivos de idioma da pasta 'tessdata'.
Extração de texto aprimorada, agrupamento de linhas em dados tabulares, desempenho, extração de formulários XFA, TableDetector, problemas de análise de PDF fixos.
O que há de novo na versão 8.2.0.2699:
A versão 8.2.0.2699 pode incluir atualizações não especificadas, melhorias ou correções de bugs.
O que há de novo na versão 8.0.0.2528:
O que há de novo na versão 7.0.0.2474:
Versão 7.0.0.2474:
- adicionada nova classe de utilitário DocumentPrinter permitindo imprimir documentos PDF silenciosamente (sem qualquer diálogo de usuário)
- adicionou nova classe JSONExtractor
- adicionada substituição para o método DocumentSplitter.Split () permitindo especificar a pasta de saída para arquivos gerados
- bug multi-threading fixo no DocumentSplitter
- tableDetector agora respeita a área de extração definida pelo método SetExtractionArea ()
- novas propriedades em classes de extração: ExtractionColumns - contém coordenadas de colunas detectadas; CustomExtractionColumns - permite substituir a detecção de coluna
Os métodos - GetPageRect * não levaram em conta a rotação da página.
Corrigido o erro no instalador, fazendo com que alguns arquivos da instalação anterior estivessem interferindo nas atualizações - reformulou a verificação de registro. Agora a biblioteca não lançará uma exceção, mas funcionará no modo de demonstração se você errou ou inseriu errado RegistrationName e RegistrationKey
- Multitool de PDF: adicionada lista de documentos recentes ao botão "Abrir documento PDF"
- Multitool em PDF: a seleção pode ser redimensionada agora
- Multitool de PDF: Adicionado o recurso JSON de extração
- Multitool PDF: interface do usuário do detector de tabelas aprimorada
- PDF Multitool: Qualidade de renderização de fonte aprimorada
- PDF Multitool: Adicionada a opção de depuração "Mostrar colunas de extração detectadas" ao menu de contexto para exibir as colunas detectadas na página atual. Torna-se visível somente após executar qualquer extração contra a página atual exibida
- PDF Multitool: Corrigido o problema de renderização de fonte no Windows de 32 bits
- outras pequenas melhorias e correções de bugs
O que há de novo na versão 6.30.0.2421:
Versão 6.30.0.2421:
- Adicionada classe de utilitário TextComparer (disponível apenas em assemblies .NET 4.0) permitindo comparar texto em dois documentos PDF e gerar relatório.
- Melhor suporte para perfis de cores ICC.
- Manipulação Imporved de fontes incorporadas.
- Improved AttachmentExtractor.
- Método XMLExtractor.SaveXMLToStream () corrigido.
- Duplicação de texto extraída fixa ao usar a opção OCRCacheMode.WholePage.
- Outras correções de erros e melhorias.
O que há de novo na versão 6.20.2354:
Versão 6.20.2354:
- PDF para texto, PDF para CSV, PDF para funções XML aprimoradas
- Novo extrair vídeo, extrair exemplos de áudio
- Extratores CSV e XML melhoraram o suporte para tabelas com colunas vazias dentro
- novo MultimediaExtractor para extrair vídeo e áudio do PDF
- nova propriedade PageDataCaching
- novo exemplo "MemoryCareProcessingOfHugeFiles"
- exceção nula fixa ao tentar descartar páginas já descartadas
- XLSExtractor: melhora o suporte a fontes
- SkipInvisibleText agora ignora o texto recortado (que não é visível)
- renderização de saída de texto melhorada
- XFDF Extractor: suporte adicionado a caixas de seleção
- Imagens melhoradas para suportar mais sub-formatos
- aprimorada
Manipulação de texto Unicode
O que há de novo na versão 6.11.2149:
Versão 6.11.2149:
- Amostras de processamento em lote atualizadas para mostrar o uso do método Reset ()
- Amostra de código-fonte C ++ adicionada para extração de páginas
- DocumentMerger adiciona o método Merge2 (inputfile1, inputfile2, outputfile) para mesclar 2 arquivos
- Correções de bugs menores do extrator XLS
- O PDF Multitool agora permite ativar / desativar texto, imagem, camadas vetoriais, adiciona configurações avançadas para extração de texto
- XML, CSV, extração de tabelas melhora o suporte para tabelas com células emtpry dentro de colunas
- .ExtractShadowLikeText propriedade aprimorada: melhor filtragem para texto semelhante a sombra
O que há de novo na versão 6.10.2136:
Versão 6.10.2136:
- PDF para XML, PDF para CSV, funcionalidade PDF To Text aprimorada
- Exemplo de linha de comando do PDF To XLS adicionado (com base no vbscript)
- O PDF To HTML SDK adiciona a nova propriedade .DetectHyperLinks (TRUE por padrão) para ativar / desativar a detecção de links automatizados no texto
- novo SearchablePDFMaker (disponível para licenças PRO) para converter PDF em arquivos PDF pesquisáveis
- novas propriedades no extrator: ConsideraçõesFontNames, ConsideraçõesFontSizes, ConsideraçõesFontesConsultas, ConsideráveisVertical em arquivos CFG
- detecção de colunas de cabeçalho (quando AutoAlighHeaderToColumns = true) melhorou
- .DetectLinesInsteadOfParagraphs substituído pelo novo .LineGroupingMode para controlar como as linhas são mescladas nos parágrafos
- IMPORTANTE! PDF To XML corrige um problema de longo tempo com uma coordenada Y incorreta para objetos de texto (foi apontada para a parte inferior esquerda em vez de a parte superior esquerda)
- .TableXMinIntersectionRequiredInPercents e .TableYMinIntersectionRequiredInPercents propriedades adicionadas
- Exemplo de código-fonte C ++ adicionado
- O XML Extractor corrige colunas vazias ausentes no PreserveFormatting = true mode
- pequenas correções nas cores em alguns arquivos PDF
- suporte para vários idiomas OCR adicionados
- GUI Multitool em PDF: adiciona o botão Copiar para a área de transferência para caixas de diálogo TXT, CSV, XML e renderizador raster
- XLSExtractor: adiciona a propriedade PageToWorksheet para ativar / desativar a geração de planilhas separadas por página
- nova propriedade .TextEncodingCodePage
- PDFViewerControl: adiciona ValidateContextMenu permitindo que o usuário adicione itens personalizados ao menu de contexto
- Controle do PDF Viewer: adiciona propriedades ShowTextObjects, ShowImageObjects, ShowVectorObjects
- O XMLExtractor agora adiciona o atributo "OCRConfidence" para texto reconhecido
- PDF / Uma funcionalidade de verificação (em beta)
- aprimorando controles e verificação de texto e alinhamento de acordo com o layout original. O problema foi causado pela mudança de coordenadas Y nos controles durante a análise: isso estava incorreto. A maneira correta é mudar ...
- Extrator de XML atualizado: agora produz a tag CONTROL para caixas de seleção e campos de texto
- alterou o uso do diretório atual para o diretório temporário
- caixas de seleção, caixas de rádio, caixas de edição e caixas de combinação são melhor suportadas
- agora permite chamadores de confiança parcial
O que há de novo na versão 5.80.1781:
Versão 5.80.1781:
- PDF para XML, PDF para CSV, PDF para funcionalidade de texto atualizada
- OCRMode agora oferece 9 modos
- .DetectLineInsteadOfParagraph agora funciona muito melhor. Defina como Falso para capturar texto de múltiplas linhas nas células da tabela!
- Controles de PDF suportam melhor
- Extração de dados FDF e XFDF
O que há de novo na versão 5.10.1747:
Versão 5.10.1747:
- Funções de PDF para XML, PDF para CSV, PDF para Texto melhoradas
- agora suporta extração de texto a partir de controles de texto
- O extrator XML agora adiciona o estilo, tamanho, nome e coordenadas de texto às tags
- Amostra do ASP.NET para uso de OCR adicionada
- nova propriedade OCRLanguageDataFolder para especificar a localização da pasta "tessdata"
- suporte aprimorado de arquivos PDF
- melhora o suporte para texto rotacionado
- amostras de código-fonte atualizadas
- documentação atualizada
- pequenas melhorias e correções
O que há de novo na versão 5.00.1626:
Versão 5.00.1626:
- Funcionalidade de OCR (texto de imagens) adicionada: agora você pode extrair texto de imagens incorporadas e reparar texto danificado
- problema corrigido com o extrator CSV e XML ausentes das últimas colunas com algumas configurações
- suporte aprimorado para arquivos PDF danificados
- pesquisa de texto de pesquisa de várias linhas com modos de correspondência de palavras agora é suportada
- agora pode pesquisar texto com hifens e em linhas diferentes: veja o novo exemplo de código-fonte Localizar texto com hífens
- nova propriedade .RTLTextAutoDetectionEnabled (false por padrão) para detectar automaticamente idiomas RTL
- Demonstração da GUI do Visualizador de PDF aprimorada
- pequenas melhorias e correções
Requisitos :
.NET Framework 2.0 ou superior
Limitações :
Tela de inatividade, marca d'água na saída
Comentários não encontrado