Muitas aplicações que lidam com dados não estruturados requerem acesso ao conteúdo de texto de documentos formatados ou marcadas-up. Organizações que arquivam documentos muitas vezes exigem acesso ao conteúdo textual para fazer os documentos pesquisáveis e permitir agregação de conteúdo, comunicação e mineração dos arquivos de documentos. Pesquise e aplicativo de recuperação também precisa extrair e tokenizar texto a partir de vários formatos de arquivo.
Um mecanismo padrão para acessar e extrair o texto de documentos é fornecido pela interface plug-in IFilter usado em motores de busca da Microsoft. Existem algumas implementações IFilter desenvolvidos pela Microsoft e outros fornecedores que cobrem uma variedade de formatos de arquivo. O padrão de qualidade ou confiabilidade e texto extração varia entre vários desenvolvedores IFilter.
Filtros de Texto Opait é um programa pequeno utilitário com uma interface simples para IFilters que já estão instalados no computador host, bem como alguns filtros de extração de texto personalizado que trabalham diretamente com os formatos de arquivos e melhorar as implementações IFilter padrão.
. A interface para extrair o texto é fornecido por uma biblioteca pequena classe chamados Opait.Filters que está incluído e pode ser usado para integrar os filtros de texto em aplicativos .NET
Requisitos :
.NET Framework 4.5
Comentários não encontrado