O software Methabot é uma otimizada para velocidade, web programável e altamente configurável, ftp e crawler do sistema de arquivos local. Ele suporta a análise filetype guião, uma ampla variedade de opções de personalização e é facilmente configurado para atender anyones necessidades particulares.
Com o uso do sistema de módulos e linguagem de script, os usuários são capazes de assumir o controle total ou parcial do processo de rastreamento e decidir no entanto Methabot deve armazenar dados de web, estatísticas e muito mais.
Ao executar Methabot de linha de comando que você é capaz tipos de arquivos de configuração personalizados, filtrando expressões, comportamento, e muito mais, para que você não tem que ser um scripter
Recursos :
- É rápido, projetado desde o início e com velocidade de otimização em mente.
- Scriptable através de Javascript com E4X
- filtragem filetype definido pelo usuário (segundo o tipo MIME, extensão de arquivo ou expressão UMEX)
- Multi-threaded
- Altamente configurável de linha de comando
- sistema de módulos Extensible, apoiando analisadores de dados personalizados e filtros.
- , mas poderosa filtragem simples de URLs através UMEX.
- descarga Automated
- Suporte para manipulação automática de cookies quando executado através de HTTP
- Confiável, rede tolerante a falhas
- portátil, testado com sucesso em 32-bit / 64-bit Linux 2.6, 32-bit / 64-bit FreeBSD 6.x / 7.0, Windows XP e Mac OS X. Deve funcionar em quase qualquer sistema operacional Unix-like.
O que é novo nesta versão:
- Bugfix, quando external-espiada foi utilizado o limite de profundidade foi desarrumada.
- Memória
- dynamic-url não está definido para procurar por padrão, uma vez que diminui a rastejar significativamente
- Criar sistema agora cria e instala alguns arquivos de cabeçalho que os módulos podem ser usados quando a vinculação
- ferramenta metha-config adicionado
- lmm_mysql transferidas para fora deste pacote
Correções de limpeza de uso
Opção
O que é novo na versão 1.5.0:
- As alterações e novos recursos:
- Suporte para leitura de tampão intial de stdin
- - tipo e --base-url opções de linha de comando adicionado, juntamente com a opção initial_filetype em arquivos de configuração
- Cookies e Informação DNS está agora devidamente partilhados entre os trabalhadores durante a execução de vários segmentos
- Adicionado algum exemplo de uso de comandos para --examples
- Big melhorias para a comunicação inter-thread, agora mais rápido e mais organizado
- Adicionado suporte para funções 'init' para scripts. Leia mais sobre funções de inicialização no http://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha não congela ao fazer várias solicitações HTTP HEAD concorrentes mais. A razão para as congela era um bug no libcurl que agora é fixo. Algumas soluções foram adicionadas ao libmetha para evitar o congelamento do que ocorrem quando se utilizam as versões libcurl defeito cabeceira.
- Suporte para versões mais antigas libcurl 7.17.x e 7.16.x
- As novas informações está disponível no & quot; este & quot; objeto de javascript analisadores, tipo de conteúdo e status de transferência de código. Leia mais em http://bithack.se/projects/methabot/docs/e4x/this.html
- - opção verbose substituído por --silent, uma vez que o modo detalhado é agora o padrão
- O suporte inicial para rastreamento e FTP a opção rastreador ftp_dir_url
- Profundidade limitante é agora específico do rastreador
- Adicionado as opções de linha de comando --crawler e --filetype
- Suporte para estender e imperiosa crawlers e tipos de arquivos já definidos
- Suporte para a palavra-chave cópia nos arquivos de configuração
- Suporte para interrupção dinamicamente o rastreador ativo, isso permite que você indexar sites diferentes de maneiras completamente diferentes em uma sessão de rastreamento. Leia mais sobre rastreador de comutação em http://bithack.se/projects/methabot/docs/crawler_switching.html
- versão libev upgrade para 3.51
- A diretiva include em arquivos de configuração agora torna-se o arquivo de configuração incluído já não foi carregado, para evitar incluem-loops e múltiplas definições filetype / lagartas.
- Várias correções de coleta de lixo SpiderMonkey, libmetha não falha mais quando a limpeza após uma sessão de vários segmentos
- Adicionado algumas informações extra para a opção --info
- A opção "externa" foi reparado e ativado novamente
- Nova opção --spread de trabalho
- Nova API libmetha função lmetha_global_setopt () permite alterar o erro / mensagem / repórter aquecimento global
- Adicionado implementação inicial de um conjunto de testes para desenvolvedores
- Melhor relatório de erros ao carregar arquivos de configuração
- Bugfix quando um servidor HTTP não retornou um cabeçalho Content-Type após uma solicitação HEAD
- Correcção ao classificar URLs após solicitações HTTP HEAD múltiplos
- Bugfix no html ao conversor xml quando a página HTML não têm uma & lt; html & gt; tag
- Bugfix, a opção extless-url não funcionou
- Bugfix, html ao conversor xml não engasga com marcas de ordem de byte ou outro texto antes de o HTML real
- Bugfix, impediu libmetha de tentar acessar URLs de protocolos que não são suportadas
- Correcção ao desligar após um erro.
- Bugfix, URLs insolúveis não sair do loop de repetição depois de três tentativas
- Muito experimental e apoio instável para Win32, destina-se principalmente para os desenvolvedores
- Novos arquivos de configuração:
- google.conf, para realizar pesquisas do Google
- youtube.conf, youtube procura
- meta.conf, gravuras informação meta, tais como palavras-chave e descrição sobre páginas HTML
- title.conf, imprime o título de páginas HTML
- ftp.conf, para rastreamento de servidores FTP
O que é novo na versão 1.4.1:
- Configure poderia não encontrar jsapi.h em alguns sistemas , isso deve ser corrigido agora.
- Os arquivos de configuração são agora capazes de modificar lagartas e filetype bandeiras, acrescentou 'externo' e 'external_peek' as opções
- Bugfix, Methabot, às vezes, falhar ao limpar URLs vazias depois de múltipla HTTP HEAD
- Corrigido uma falha que ocorreu quando execução síncrona.
- sistema de compilação incluem correção quando jsconfig.h não pôde ser encontrado.
Requisitos :
- cabeçalhos SpiderMonkey
- cURL
Comentários não encontrado