Apache Nutch foi construída em cima de Apache Lucene , um poderoso motor de busca Java.
Desenvolvedores nutch modificou a base de código Lucene, transformando a data-base de código agnóstico Lucene em um projeto dedicado para a busca de dados na Web, especificamente.
Esta tecnologia pode ser usada para pesquisar em suas próprias páginas da Web como um servidor de pesquisa integrado, ou rastrear a Web à procura de dados para analisar e raspar em seu banco de dados.
Nutch pode ser executado em uma única máquina, mas funciona melhor em Hadoop clusters.
Vários plugins estão disponíveis para a expansão do seu espectro de utilização
O que é novo nesta versão:.
- assegurar que os códigos duplicados não existem no microformato-reltag set tag.
- A melhor cair de volta valor para o campo de data.
- Se livrar da temida.
- Upgrade para Hadoop 1.2.0.
- Upgrade para Tika 1.3.
O que é novo na versão 2.0:.
- Renomeado HTMLParseFilter em ParseFilter
- Remover restante robots / código de bloqueio IP em lib-http.
- logging Porto para slf4j.
- parser externa suporta atributo de codificação.
- configurações Ivy não incluem Gora.
- Injector deve adicionar os metadados antes de chamar injectedScore.
- Port Nutch referência para Nutchbase.
- Adicionar parse-html volta.
- MoreIndexingFilter formato de data em falta.
- Limite de tempo para Analisador.
- Repetir intervalo em data crawl é definido como 0.
- Gerar log de saída para indexador solr e dedup.
- Melhoria NutchConfiguration.
- SolrDeleteDuplicates precisa clonar os objetos SolrRecord.
- libs Hadoop nativos não disponíveis através maven.
- separar os ambientes de compilação e tempo de execução.
O que é novo na versão 1.5:
- Esta versão inclui várias melhorias, incluindo atualizações de vários componentes principais, incluindo Tika 1.1 e 1.0.0 Hadoop, melhorias para LinkRank e elementos WebGraph, bem como uma série de novos plugins que cobrem a lista negra, de filtragem e de análise para citar alguns.
O que é novo na versão 1.4:.
- Adicionado Solr 4x (tronco) exemplo de esquema
- Adicionado '/ runtime "para svn ignorar.
- Aplicação / xhtml + xml deve estar habilitado plugin.xml de parse-html; permitir que vários mimetypes para plugin.xml.
- parse-tika Fixo e analisá-html para usar a resolução URL relativo por RFC-3986.
- atualizado para Tika 0,10. NOTA:. RTF novo analisador de Tika pode ignorar mais texto em documentos malformados do que anteriormente - veja TIKA-748 para obter detalhes
- alvos Adicionado sonar para build.xml Ant.
- atualizado para a versão 3.4.0 SolrJ.
- alvo Ant pmd é quebrado.
- atualizado esquema Solr para a versão 1.4.
O que é novo na versão 1.3:
- Esta versão inclui diversas melhorias (suporte melhorado RSS analisar, mais apertado integração com Apache Tika, suporte de análise externa, uma melhor identificação linguagem e uma ordem de magnitude tarball liberação fonte menor -. apenas cerca de 2 MB)
O que é novo na versão 1.2:.
- Faça índice de mais plug-in configurável
- configurável protocolo arquivo diretório pai crawling.
- Limite de tempo para Analisador.
- O site ainda Lucene marca.
- Repetir intervalo em data crawl é definido como 0.
O que é novo na versão 1.0:.
- Permitir analisadores para retornar vários objetos Parse
- Removido redundante jar commons-logging da ontologia plugin.
- Bug em SegmentReader causa loop infinito.
- filtro Scoring deve distribuir pontuação para todos os outlinks de uma vez.
- Reduza o número de advertências no núcleo nutch.
Comentários não encontrado