Apache Tika

Tela Software:
Apache Tika
Detalhes de Software:
Versão: 1.9 Atualizado
Data de upload: 20 Jul 15
Licença: Livre
Popularidade: 320

Rating: 4.0/5 (Total Votes: 2)

Apache Tika foi desenvolvido como uma ferramenta de baixo nível para pesquisa de conteúdo dentro de outros arquivos.
Não Tika não fazer muito em ser o seu próprio uma biblioteca simples, mas ele pode ser integrado em instrumentos mais poderosos, como os motores de busca, sistemas de gerenciamento de ativos digitais ou CMSs para fornecer um sistema totalmente funcional no arquivo de busca.
A biblioteca pode acessar apenas cabeçalho do arquivo para obter informações de arquivo global rápido, ou ele pode ir muito fundo e procurar até mesmo no corpo do arquivo para vários tipos de dados, no formato texto ou binário.
Uma vasta gama de tipos de arquivo são suportados e Tika também pode ser usado com outras linguagens de programação graças a uma série de ligações de terceiros e embalagens.

O que é novo nesta versão :

  • Esta versão inclui correções de bugs e novos recursos, incluindo uma nova Tesseract OCR Analisador; um novo Analisador GDAL; formatos, e melhorias gerais mais apoiado na estabilidade Tika.

O que é novo na versão 1.8:

  • Esta versão inclui correções de bugs e novos recursos, incluindo uma nova Tesseract OCR Analisador; um novo Analisador GDAL; formatos, e melhorias gerais mais apoiado na estabilidade Tika.

O que é novo na versão 1.7:

  • Esta versão inclui correções de bugs e novos recursos, incluindo uma nova Tesseract OCR Analisador; um novo Analisador GDAL; formatos, e melhorias gerais mais apoiado na estabilidade Tika.

O que é novo na versão 1.6:

  • Esta versão inclui correções de bugs e novos recursos, incluindo uma nova tradução API, os formatos mais suportados, e melhorias gerais na estabilidade Tika.

O que é novo na versão 1.5:.

  • Corrigido o erro na manipulação de processamento de arquivo incorporado a PDFs
  • Adicionado SourceCodeParser para apoiar java, Groovy, C ++ arquivos.
  • Atualização Tika Server para suportar cargas multipart / form-data.
  • Atualização Tika Server para CXF 2.7.8.
  • Atualização Tika Server para aceitar pedidos de mais de endereços curinga.
  • Adicionado opção para usar NonSequentialPDFParser alternativa.
  • Conteúdo de acroforms PDF agora são extraídos.
  • asteriscos inválidos fixos de slide mestre em PPT.
  • Adicionado casos de teste para confirmar a manipulação de auto-date em PPT e PPTX.

O que é novo na versão 1.4:

  • Removido um arquivo HTML de teste com um texto GPL mal escolhido em -lo.
  • Melhorias para tika-servidor para permitir que ele para produzir text / html e texto / xml conteúdo.
  • As melhorias foram feitas para o Compressor Analisador de lidar com arquivos g'zipped que exigem a opção decompressConcatenated definido como verdadeiro.
  • Endereçado um erro tipográfico que estava impedindo de detecção de arquivos awk.

O que é novo na versão 1.2:

  • Apache Tika 1.2 contém uma série de melhorias e correções de bugs.

O que é novo na versão 1.0:

  • Apache Tika 1.0 contém uma série de melhorias e correções de bugs.

O que é novo na versão 0.9:.

  • Esta versão inclui várias correções de bugs importantes e novos recursos

O que é novo na versão 0.8:

  • identificação Língua agora é dinamicamente configurável, gerido através de um arquivo de configuração carregado a partir do classpath.
  • Tika agora suporta a análise Feeds envolvendo a biblioteca subjacente Roma.
  • A guia de início rápido para Tika análise foi contribuído.
  • Uma abordagem para o encanamento através de atributos XHTML foi adicionado.
  • tipo de mídia informações hierarquia é agora tida em conta ao selecionar o melhor analisador para um determinado documento de entrada.
  • Suporte para analisar formatos de dados científicos comuns, incluindo netCDF e HDF4 / 5 foi adicionada.
  • Os testes de unidade para o Windows foram corrigidos, permitindo TestParsers para ser concluído.

O que é novo na versão 0.7:

  • arquivo MP3 análise foi melhorada, incluindo o Canal da Mancha e SampleRate extração e apoio ID3v2. Além disso, a detecção de mime de análise de áudio também foi melhorado para o formato MIDI.
  • Tika não depende mais de X11 para a sua funcionalidade RTF análise.
  • Um erro de thread-safe no AutoDetectParser foi descoberta e tratada.
  • Atualização para PDFBox 1.0.0. A nova versão melhora o desempenho PDFBox análise PDF e corrige uma série de problemas de extração de texto.

Requisitos :

  • Java 6 ou superior

Programas semelhantes

Simple winner
Simple winner

6 Jun 15

simplejson
simplejson

4 Jun 15

UnlimitJS
UnlimitJS

6 Jun 15

GNU Guile
GNU Guile

1 Mar 15

Outro software de desenvolvedor Apache Software Foundation

Apache Forrest
Apache Forrest

5 Jun 15

Apache Geronimo
Apache Geronimo

13 Apr 15

Apache Sirona
Apache Sirona

13 May 15

Comentário para Apache Tika

Comentários não encontrado
Adicionar comentário
Ligue imagens!
Busca por categoria