Apache Tika

Tela Software:
Apache Tika
Detalhes de Software:
Versão: 1.4
Data de upload: 20 Feb 15
Licença: Livre
Popularidade: 102

Rating: nan/5 (Total Votes: 0)

Apache Tika é um conjunto de ferramentas de código aberto projetado para detectar e extrair metadados, bem como conteúdo de texto estruturado a partir de vários documentos, usando nada além de bibliotecas existentes analisador.
Apache Tika suporta os seguintes formatos de documento: HyperText Markup Language (HTTP), XML e derivados formatos, formatos de documentos do Microsoft Office, o formato OpenDocument (ODF), Portable Document Format (PDF), formato de publicação eletrônica (EPF), Rich Text Format (RTF ), de compressão e de embalagem formatos, formatos de texto / áudio / imagem / vídeo, o formato mbox e arquivos de classe Java e arquivos.
Anteriormente, Apache Tika foi um sub-projeto da biblioteca de software Apache Lucene. Agora ele é distribuído como um pacote independente pela Apache Software Foundation

O que é novo nesta versão:.

  • Removido um arquivo HTML de teste com um texto GPL mal escolhido nele (TIKA-1129).
  • Melhorias para tika-servidor para permitir que ela produza text / html e texto / conteúdo xml (TIKA-1126, TIKA-1127).
  • As melhorias foram feitas para o Compressor Analisador de lidar com arquivos g'zipped que exigem a opção decompressConcatenated definido como verdadeiro (TIKA-1096).
  • Destinado a erro tipográfico que estava impedindo de detecção de arquivos awk (TIKA-1081).
  • Adicionado um novo ponto-end para o servidor JAX-RS descanso de Tika que só detecta o tipo de mídia com base em uma pequena parte do documento apresentado (TIKA-1047).
  • RTF:. Pedi e listas não ordenadas agora são extraídos (TIKA-1062)
  • MP3: duração de áudio agora é extraído (TIKA-991)
  • arquivos .class Java:. Atualizado do ASM 3.1 a ASM 4.1 para analisar os bytecodes Java (TIKA-1053)
  • tipos Mime: Definições estendido para opcionalmente incluir link (URL) e UTI, juntamente com os detalhes para vários formatos comuns (TIKA-1012 / TIKA-1083)
  • Exceções ao analisar documentos OLE10 incorporado, ao analisar informações de resumo de documentos do Office, e ao salvar documennts embutidos em TikaCLI agora são registrados em vez de abortar de extração (TIKA-1074)
  • MS Word: caráter linha tabular é agora substituído por uma nova linha (TIKA-1128)
  • XML: ElementMetadataHandlers agora pode opcionalmente aceitar valores duplicados e vazias (TIKA-1133)
  • .

Requisitos :

  • Java 2 Standard Edition Runtime Environment

Outro software de desenvolvedor The Apache Software Foundation

Apache OFBiz
Apache OFBiz

2 Jun 15

Apache Mahout
Apache Mahout

19 Feb 15

Comentário para Apache Tika

Comentários não encontrado
Adicionar comentário
Ligue imagens!