Detalhes de Software:
Pode ser usado por escrito pesquisa indexadores (aranhas) que as páginas Web da mina de várias informações.
PHPCrawl adquire informação foi configurado para buscar e passa para aplicativos mais poderosos para processamento adicional
Características :.
- Filtros para dados de URL e Content-Type
- Definir formas de lidar com os cookies
- Definir formas de lidar com arquivos robots.txt
- Limite sua atividade de várias maneiras
- Multi-processamento
Modos
O que é novo nesta versão:
- Correções de bugs:
- Links que são parcialmente URLencoded e parcialmente não se reconstruir / codificado corretamente agora.
- Removido um var_dump debug desnecessário () a partir de PHPCrawlerRobotsTxtParser.class.php
- Servidor-name-indicação em TLS / SSL funciona corretamente agora.
- & quot; base-href & quot;. -tags Em websites se interpretados corretamente agora novamente
O que é novo na versão 0.80 beta:
- Código foi completamente reformulado, portado para PHP5-oo- código e um monte de código foi reescrito.
- Adicionado a capacidade de uso de uso de vários processos para rastrear um site. Method & quot; goMultiProcessed () & quot; acrescentou.
- Novo método substituível & quot; initChildProcess () & quot; adicionada para iniciar os processos de-crianças ao usar o rastreador em multi-processo-mode.
- Implementet alternativa, SQlite interno cache do mecanismo de URLs tornando possível à aranha muito grandes websites.
- Method & quot; setUrlCacheType () & quot; acrescentou.
- Novo método setWorkingDirectory () adicionado para definir a localização dos rastreadores-diretório de trabalho temporário manualmente. Therefor método & quot; setTmpFile () & quot; é marcado como obsoleta (não tem nenhuma função mais).
- Novo método & quot; addContentTypeReceiveRule () & quot; substitui o método antigo & quot; addReceiveContentType () & quot;.
- A função & quot; addReceiveContentType () & quot; ainda está presente, mas foi marcado como obsoleto.
Requisitos :
- PHP 5 ou superior
- PHP com suporte a OpenSSL
Comentários não encontrado