projeto Apache Nutch é uma fonte aberta, escalável software rastreador web baseado na Web altamente extensível e gratuito que se baseia no Apache Lucene (versão Java) biblioteca.
Acrescenta específicos da Web, como um rastreador, um banco de dados link-graph, analisadores para outros formatos de documentos HTML e, etc. Ele é desenvolvido e distribuído pela Fundação Apache, ele dois ramos separados.
Ser modular e plugável, Apache Nutch tem seus benefícios, fornecendo as interfaces extensíveis como Parse, Índice e ScoringFilter para implementações personalizadas, tais como Apache Tika para análise.
Além disso, o Apache Nutch é projetado para rodar em uma única máquina, mas é mais poderoso quando executado em um cluster Hadoop. Existe indexação plugável para Elastic Pesquisa, Apache Solr, etc
O que é novo nesta versão:.
- nutch-1779 Aplicar formatação para o código (lewismc)
- nutch-1907 Saída incorreta de outlinks para Hosts dentro HostDbUpdateReducer (lewismc)
- nutch-1856 webpage.avsc documento e host.avsc (lewismc)
- nutch-1834 comportamento GeneratorMapper depende do nível de log (Gerhard Gossen via snagel)
- nutch-1899 lib atualização Restlet para evitar falhas de construção (talat)
- nutch-1797 remove pacote não utilizado oanhtml (Saurabh Chhajed via snagel)
- nutch-1888 Especifique HTMLMapper para usar em TikaParser (Halil Simsek via jnioche)
- nutch-1897 mais fácil de depuração de erros de plug-in XML (markus)
- nutch-1823 actualização para ElasticSearch 1.4.1 (Phu Kieu, markus, lewismc)
- nutch-1829 Gerador: incapaz de distinguir erros reais (Mathieu Bouchard, jnioche, snagel)
- Gerador nutch-1778 não registrando número de URLs em lote corretamente (jnioche via snagel)
- nutch-1877 Filtro URL Sufixo ignorar string de consulta por padrão (Markus via snagel)
- nutch-1825 protocolo de http pode travar para certas páginas da web (Phu Kieu via snagel)
- nutch-1483 não pode rastrear arquivos com o plugin protocolo de arquivo (Rogerio Pereira Araujo, Mengying Wang, snagel)
- nutch-1885 Protocolo de-arquivo deve tratar links simbólicos como redirecionamentos (Mengying Wang, snagel)
- nutch-1880 URLUtil não deve adicionar barras adicionais para URLs de arquivo (snagel)
- nutch-1879 Regex URL normalizador deve remover várias barras após arquivo: protocolo (snagel)
- nutch-1820 remove campo & quot; orig & quot; que duplica & quot; id & quot; (lewismc, snagel)
- Atualização nutch-1843 a Gora 0,5 (talat, lewismc, Kiril Menshikov, drazzib)
- nutch-1883 bin / rastreamento: use a função para executar bin / nutch e verifique o valor de saída (snagel)
- nutch-1882-alvo eclipse ant para adicionar o caminho de saída para src / test (snagel)
- nutch-1827 Porto nutch-1467 e nutch-1561 para 2.x (snagel)
- Atualização nutch-1876 a lagartas Commons 0.5 (jnioche)
- nutch-1866-alvo eclipse formiga não deve excluir runtime (nimafl via lewismc)
- nutch-1859 Faça Nutch porta webapp configurável (Nima Falaki via lewismc)
- Bug nutch-1848 na DashboardPage.html instâncias contador (Nima Falaki via lewismc)
- nutch-841 Criar uma aplicação Web baseada em Wicket para Nutch (Fjodor Vershinin via lewismc)
- nutch-1832 Tornar o trabalho Nutch sem um indexador (Mattmann via lewismc)
- nutch-1840 a função de descrever em SolrIndexWriter não está correto (minooie kaveh via jnioche)
- Atualização nutch-1837 a Tika 1,6 (lewismc)
- nutch-1829 Gerador: incapaz de distinguir erros reais (Mathieu Bouchard via jnioche)
- nutch-1828 bin / rastreamento: manipulação incorreta de erros nutch (Mathieu Bouchard via jnioche)
- nutch-1693 TextMD5Signature calculado sobre o conteúdo textual (Tien Nguyen Manh, Markus via snagel)
- nutch-1409 remove obsoleto Propriedades db. {default, max} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle via snagel)
- nutch-1819 BatchID em GeneratorJob (Fjodor Vershinin via lewismc)
- uso nutch-1708 mesmo id quando indexação e exclusão de redirecionamentos (snagel)
- nutch-1817 Retirar pom.xml partir do código fonte (jnioche)
- nutch-1811 bin / junit nutch usar JUnit 4 corredor de teste (snagel)
- nutch-1776 caminho Log arquivo plugin.folder incorreto (Diaa via snagel)
- nutch-1566 bin / nutch para permitir espaços em branco em caminhos (tejasp, snagel)
- nutch-1605 Tipo de MIME detector reconhece xlsx como arquivo zip (snagel)
- nutch-385 Melhorar a descrição da configuração de discussão relacionados para Fetcher (jnioche, Lufeng)
- nutch-1798 Crawl roteiro não chamar comando índice corretamente (Aaron Bedward via jnioche)
- nutch-1769 RESTO refatoração API (Fjodor Vershinin via lewismc)
- nutch-1633 slf4j é fornecido pelo Hadoop e não devem ser incluídas no arquivo de trabalho (kaveh minooie via jnioche)
- nutch-1787 atualização e página de visão geral doc API completo (snagel)
- nutch-1767 retirar o tratamento especial de & quot; params & quot; em links relativos (snagel)
- nutch-1718 redefinir http.robots.agent como & quot; & quot nomes adicionais do agente; (snagel, Tejas Patil, Daniel Kugel)
- nutch-1796 Assegurar Gora construtores de objetos são usados como se opor a construtores vazias (snagel via lewismc)
- nutch-1590 [SEGURANÇA] Quadro vulnerabilidade de injeção em Javadoc publicado (jnioche)
- nutch-1736 Não é possível buscar página se cabeçalho de resposta HTTP contém Transfer-Encoding: blocos (ysc via jnioche)
- nutch-1782 NodeWalker para retornar nó atual (markus)
- nutch-1781 Atualizar gora - * - mapping.xml e gora.proeprties para refletir Gora 0,4 (lewismc)
- Atualização nutch-1768 para ElasticSearch 1.1.0 (jnioche)
- -stats ReadDb nutch-1634 mostra o resultado duas vezes (kaveh minooie via jnioche)
- nutch-1780 TTL e gc_grace_seconds atributos estão ausentes do arquivo gora-cassandra-mapping.xml (kaveh minooie via lewismc)
- nutch-1676 Adicionar suporte SSL rudimentar para protocolo de http (jnioche, markus)
- nutch-1674 Use filtro BatchID para permitir varredura (GORA-119) para o Fetch, Parse, Update, Index (Tien Nguyen Manh e Alparslan Avci via jnioche)
- Atualização nutch-1714 para Gora 0,4 (Alparslan Avci via jnioche)
- nutch-1752 regras robots.txt Cache por protocolo: host: port (snagel)
- nutch-1613 Timeouts em protocolo de httpclient ao rastrear mesmo host com & gt; 2 threads (brian44 via jnioche)
- fetcher nutch-1182 para iniciar sessão threads parados (snagel)
- nutch-1618 Vire execução especulativa fora para buscar (talat)
- nutch-1657 ORIGINAL_CHAR_ENCODING e CHAR_ENCODING_FOR_CONVERSION nunca foi colocado HTMLParser (talat)
- redutor nutch-1725 de CleaningJob não comete docs apagados. (ilhamikalkan via talat)
- nutch-1728 indexador-solr plugin não é excluir docs de Solr (ilhamikalkan via talat)
- nutch-1753 Eclipse problema ser dependente para 2.x (talat)
- nutch-1720 linhas duplicadas em HttpBase.java (Walter Tietze via jnioche)
- nutch-797 URL não devidamente construído quando destino do link começa com uma & quot;? & quot; (Doug Cook, Robert Hohman, Stondet, ab via snagel)
- Atualização nutch-1759 de lagartas Commons 0.4 (jnioche)
- nutch-1700 Remove código depreciado em src / plugin / creativecommons / build.xml (lewismc)
- nutch-1761 Crawl roteiro não consegue encontrar o arquivo de trabalho, se não começou de dentro bin dir (David Hosking, jnioche)
- parser ZIP nutch-1603 reclama arquivo PDF sobre truncado (snagel via lewismc)
- nutch-1743 parsechecker para mostrar outlinks (snagel)
- nutch-1732 melhor linha cmd análise para NutchServer (Fjodor Vershinin via lewismc)
- nutch-1751 âncoras vazias não devem índice (Sertac Turkel via lewismc)
- nutch-1733 parse-html para suportar HTML5 definições charset (snagel)
- nutch-1727 comprimento configurável para TLDs (Sertac Turkel via lewismc)
- nutch-1738 Expor número de URLs geradas por lote em GeneratorJob (Talat UYARER via ewismc)
- indexchecker nutch-1671 para adicionar campo (snagel, Lufeng) digerir
- nutch-1645 Caso de Teste Junit para Adaptive Fetch classe Horário (Yasin Kilinc, Lufeng, Sertac urkel via snagel)
- nutch-1478 Parse-metatags e plug-in de índice de metadados para a série 2.x Nutch (Kiran, Nguyen Anh Tien, Talat UYARER, Vangelis Karvounis via lewismc)
- Atualização nutch-1729 para Tika 1,5 (jnioche)
- nutch-1721 Atualize para rastreador comum 0,3 (tejasp)
- nutch-1719 DomainStatistics falha em 2.x porque URL não é unreversed (Gerhard Gossen via lewismc)
- nutch-1253, incompatíveis neko e Xerces versões (snagel, lewismc, Talat UYARER)
- nutch-1715 RobotRulesParser acrescenta adicional '*' para o nome robôs (tejasp)
- cache de repositório nutch-356 Plugin pode levar a vazamento de memória (Enrico Triolo, Dogacan Guney via markus)
- nutch-1164 testes Write JUnit para protocolo de http (Sertac Turkel via tejasp)
- nutch-1710 Add gora pacote de registro para log4j.properties (lewismc)
- nutch-1655 Indexador Plugin para Elastic Search (Talat UYARER via lewismc)
- nutch-1699 Analisador Tika - Parse Imagem Bug (Mehmet Zahid Yuzuguldu, snagel via lewismc)
- porta nutch-pluggable 1568 arquitetura de indexação para 2.x (Talat UYARER via lewismc)
- inlinks nutch-1672 são adicionadas duas vezes em DbUpdateReducer (Tien Nguyen Manh via lewismc)
- nutch-1667 updatedb sempre ignorar BatchID (Tien Nguyen Manh via lewismc)
- nutch-1695 NutchDocument.toString () (Markus via lewismc)
- nutch-1696 Ativar uso de (Gora) dependências INSTANTÂNEO (lewismc)
- nutch-1681 Em URLUtil.java, método ToUnicode não funciona corretamente (A
Comentários não encontrado