Apache Tika

Tela Software:
Apache Tika
Detalhes de Software:
Versão: 1.4
Data de upload: 20 Feb 15
Licença: Livre
Popularidade: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika é um conjunto de ferramentas de código aberto projetado para detectar e extrair metadados, bem como conteúdo de texto estruturado a partir de vários documentos, usando nada além de bibliotecas existentes analisador.
Apache Tika suporta os seguintes formatos de documento: HyperText Markup Language (HTTP), XML e derivados formatos, formatos de documentos do Microsoft Office, o formato OpenDocument (ODF), Portable Document Format (PDF), formato de publicação eletrônica (EPF), Rich Text Format (RTF ), de compressão e de embalagem formatos, formatos de texto / áudio / imagem / vídeo, o formato mbox e arquivos de classe Java e arquivos.
Anteriormente, Apache Tika foi um sub-projeto da biblioteca de software Apache Lucene. Agora ele é distribuído como um pacote independente pela Apache Software Foundation

O que é novo nesta versão:.

  • Removido um arquivo HTML de teste com um texto GPL mal escolhido nele (TIKA-1129).
  • Melhorias para tika-servidor para permitir que ela produza text / html e texto / conteúdo xml (TIKA-1126, TIKA-1127).
  • As melhorias foram feitas para o Compressor Analisador de lidar com arquivos g'zipped que exigem a opção decompressConcatenated definido como verdadeiro (TIKA-1096).
  • Destinado a erro tipográfico que estava impedindo de detecção de arquivos awk (TIKA-1081).
  • Adicionado um novo ponto-end para o servidor JAX-RS descanso de Tika que só detecta o tipo de mídia com base em uma pequena parte do documento apresentado (TIKA-1047).
  • RTF:. Pedi e listas não ordenadas agora são extraídos (TIKA-1062)
  • MP3: duração de áudio agora é extraído (TIKA-991)
  • arquivos .class Java:. Atualizado do ASM 3.1 a ASM 4.1 para analisar os bytecodes Java (TIKA-1053)
  • tipos Mime: Definições estendido para opcionalmente incluir link (URL) e UTI, juntamente com os detalhes para vários formatos comuns (TIKA-1012 / TIKA-1083)
  • Exceções ao analisar documentos OLE10 incorporado, ao analisar informações de resumo de documentos do Office, e ao salvar documennts embutidos em TikaCLI agora são registrados em vez de abortar de extração (TIKA-1074)
  • MS Word: caráter linha tabular é agora substituído por uma nova linha (TIKA-1128)
  • XML: ElementMetadataHandlers agora pode opcionalmente aceitar valores duplicados e vazias (TIKA-1133)
  • .

Requisitos :

  • Java 2 Standard Edition Runtime Environment

Outro software de desenvolvedor The Apache Software Foundation

Apache Chukwa
Apache Chukwa

19 Feb 15

Apache Hadoop
Apache Hadoop

18 Jul 15

Apache Ambari
Apache Ambari

18 Jul 15

Apache OpenOffice
Apache OpenOffice

20 Jan 18

Comentário para Apache Tika

Comentários não encontrado
Adicionar comentário
Ligue imagens!