Apache Tika é um conjunto de ferramentas de código aberto projetado para detectar e extrair metadados, bem como conteúdo de texto estruturado a partir de vários documentos, usando nada além de bibliotecas existentes analisador.
Apache Tika suporta os seguintes formatos de documento: HyperText Markup Language (HTTP), XML e derivados formatos, formatos de documentos do Microsoft Office, o formato OpenDocument (ODF), Portable Document Format (PDF), formato de publicação eletrônica (EPF), Rich Text Format (RTF ), de compressão e de embalagem formatos, formatos de texto / áudio / imagem / vídeo, o formato mbox e arquivos de classe Java e arquivos.
Anteriormente, Apache Tika foi um sub-projeto da biblioteca de software Apache Lucene. Agora ele é distribuído como um pacote independente pela Apache Software Foundation
O que é novo nesta versão:.
- Removido um arquivo HTML de teste com um texto GPL mal escolhido nele (TIKA-1129).
- Melhorias para tika-servidor para permitir que ela produza text / html e texto / conteúdo xml (TIKA-1126, TIKA-1127).
- As melhorias foram feitas para o Compressor Analisador de lidar com arquivos g'zipped que exigem a opção decompressConcatenated definido como verdadeiro (TIKA-1096).
- Destinado a erro tipográfico que estava impedindo de detecção de arquivos awk (TIKA-1081).
- Adicionado um novo ponto-end para o servidor JAX-RS descanso de Tika que só detecta o tipo de mídia com base em uma pequena parte do documento apresentado (TIKA-1047).
- RTF:. Pedi e listas não ordenadas agora são extraídos (TIKA-1062)
- MP3: duração de áudio agora é extraído (TIKA-991)
- arquivos .class Java:. Atualizado do ASM 3.1 a ASM 4.1 para analisar os bytecodes Java (TIKA-1053)
- tipos Mime: Definições estendido para opcionalmente incluir link (URL) e UTI, juntamente com os detalhes para vários formatos comuns (TIKA-1012 / TIKA-1083)
- Exceções ao analisar documentos OLE10 incorporado, ao analisar informações de resumo de documentos do Office, e ao salvar documennts embutidos em TikaCLI agora são registrados em vez de abortar de extração (TIKA-1074)
- MS Word: caráter linha tabular é agora substituído por uma nova linha (TIKA-1128)
- XML: ElementMetadataHandlers agora pode opcionalmente aceitar valores duplicados e vazias (TIKA-1133) .
Requisitos :
- Java 2 Standard Edition Runtime Environment
Comentários não encontrado