ASPseek

Tela Software:
ASPseek
Detalhes de Software:
Versão: 1.2.10
Data de upload: 3 Jun 15
Revelador: SWsoft
Licença: Livre
Popularidade: 4

Rating: nan/5 (Total Votes: 0)

ASPseek é um software do motor de busca na Internet desenvolvido pela SWsoft e licenciados como software livre sob a licença GNU GPL.
ASPseek consiste de um robô de indexação, um daemon de pesquisa e um frontend de busca CGI. Ele pode indexar como muitos como alguns milhões de URLs e busca de palavras e frases, use curingas, e fazer uma busca booleana. Resultados da pesquisa pode ser limitada a período de tempo determinado, site ou espaço na web (conjunto de locais) e classificado por relevância (PageRank é usado) ou data.
ASPseek é otimizado para vários sites (índice de rosca, pesquisas de DNS assíncronos, agrupando os resultados por local, espaços Web), mas pode ser usado para pesquisar um site também. ASPseek pode trabalhar com idiomas múltiplos / codificações de uma vez (incluindo a codificação multibyte como o chinês), devido ao modo de armazenamento em Unicode. Outras características incluem stopwords e apoio ispell, um charset e linguagem adivinhador, templates HTML para resultados de pesquisa, trechos e palavras de consulta destacando.
ASPseek é escrito em C ++ usando a biblioteca STL, e usa combinação de banco de dados SQL e arquivos binários para o armazenamento.
Aqui estão algumas características-chave de "ASPseek":
Capacidade de índice e pesquisa através de vários milhões de documentos
 
· Usando ASPseek, você pode construir um banco de dados e busca através de muitos sites e resultados de cada consulta serão devolvidos rápido, mesmo se você tiver alguns milhões de documentos indexados. Claro, isso depende de hardware, portanto, não esperar "bom e velho" máquina i486 para lidar com cada site no domínio .com. Tudo depende da CPU (s), memória, velocidade de disco etc. Portanto, seus próprios testes antes de comprar hardware dedicado.
 
· O fato de que ASPseek é otimizado para grandes volumes não deve parar de usá-lo para procurar seu próprio site que contém algumas centenas de documentos - trabalha lá também.
 
Muito bom relevância dos resultados
 
· O objetivo do motor de busca é encontrar o que o usuário quer. Não pode haver milhares de URLs encontrados como resultado da consulta de pesquisa, mas tudo pode ser irrelevante, assim o usuário será insatisfeito.
 
· Os resultados de saída em ASPseek são classificados por relevância (ou classificação), mas o cálculo de classificação não é uma tarefa fácil. Desenvolvedores tentaram o seu melhor para incorporar maiores e mais recentes técnicas no motor ASPseek mantendo uma boa velocidade de pesquisa.
 
Apoio Ispell
 
· Quando ASPseek é usado com o ispell apoio, searchd (1) pode, opcionalmente, encontrar todas as formas para que todas as palavras especificadas (exemplo: criar -> Criar ou criados ou cria). Assim, ele permite que você encontrar a palavra em todas as diferentes formas.
 
Modo de armazenamento em Unicode
 
· ASPseek podem armazenar informações sobre documentos em Unicode, tornando assim possível a implementação de um mecanismo de pesquisa multi-idioma. Assim, você pode indexar e pesquisar os documentos em Inglês, russo e até mesmo chinês, tudo em um único banco de dados.
 
HTTP, HTTPS, HTTP proxy, FTP (via proxy) protocolos
 
· Como ASPseek é um motor de busca da Web, ele usa o protocolo HTTP para indexar sites. ASPseek também suporta HTTPS segura: // protocolo. O protocolo FTP não é suportado diretamente, mas você pode usar o proxy (como lula) e sites de FTP índice via proxy.
 
· ASPseek suporta o recurso "autorização básica" de HTTP para que você possa áreas protegidas por senha de índice (por exemplo, informação confidencial em sua intranet).
 
Text / html e texto / plain apoio tipos de documentos
 
· ASPseek pode entender documentos escritos em HTML e documentos de texto simples. Estes são os formatos mais populares na Internet.
 
· Outros formatos, como PDF, RTF, etc, podem ser suportados com a ajuda de qualquer programa / script externo que é capaz de converter esse formatos para HTML ou texto simples.
 
Projeto com vários segmentos, async resolvedor DNS etc
 
· ASPseek usa threads POSIX, que significa que um processo tem muitas threads em execução em paralelo. Então de downloads índice documentos de muitos sites e processos de pesquisa daemon muitas consultas de pesquisa simultaneamente. Isso não só ajuda ASPseek para dimensionar bem em sistemas com múltiplos processadores (SMP), mas também melhora a velocidade de indexação, porque em caso de um segmento maior parte do tempo será gasto na espera de dados de rede.
 
· Uma coisa que processo de indexação desaceleração muito é a pesquisa de DNS (um processo de determinar o endereço IP usando o nome do servidor). Para evitar atrasos, pesquisas assíncronas (pesquisa é feita por processos dedicadas separadas) e cache de endereços IP são implementadas.
 
Stopwords
 
· Stopwords são algumas palavras que não têm significado por si só. Exemplos: é, são, no, este. Procura na é inútil, então essas palavras são excluídos da consulta de pesquisa. Stopwords também são excluídos do banco de dados durante a indexação, então banco de dados torna-se menor e mais rápido.
 
· Não há palavras irrelevantes "built-in" em ASPseek, eles são carregados durante a inicialização a partir de arquivos. Muitos arquivos de palavras de parada para diferentes idiomas vem com ASPseek.
 
Charset guesse
 
· Alguns servidores quebrados ou mal configurados não dizer aos clientes o conjunto de caracteres em que eles fornecem conteúdo. Se está a indexar tais servidores, ou usando ASPseek para servidores índice ftp (protocolo FTP não sabe nada sobre charsets), charset guesser pode ser usado para lidar com isso. Charset guesser utiliza tabelas de frequência de palavras (chamados langmaps) para determinar charset correta.
 
Padrão exclusão Robot (robots.txt) apoio
 
· ASPseek apoia plenamente esta norma. Ele é destinado aos autores Web site para dizer o robô (por exemplo, o índice de ASPseek (1)) para ignorar a indexação de alguns diretórios de seus sites.
 
· Para mais informações consulte http://www.robotstxt.org/wc/robots.html
 
Configurações para controlar o uso de largura de banda de rede e servidores Web de carga
 
· Você pode controlar com precisão a largura de banda que o índice (1) usa. Exatamente, você pode limitar a largura de banda (expressa em bytes por segundo) usado pelo índice (1) para a determinado momento do dia. Por exemplo, você pode limitar a largura de banda durante o horário comercial para que as pessoas em seu escritório não vai sentir Internet lenta.
 
· Você também pode definir o tempo mínimo entre duas consultas para o mesmo servidor Web, por isso não vai ser sobrecarregado e ficou de joelhos enquanto você corre índice (1).
 
Real-time indexação assíncrona
 
· Alguns motores de busca requer que a pesquisa deve ser interrompido durante o tempo de atualização de banco de dados. Não ASPseek não precisa dele, então você pode procurar non-stop.
 
· Mais de dizer, não é um modo especial de indexação chamada indexação "em tempo real". Você pode usá-lo para pequeno número de documentos, e, tanto quanto tal documento é baixado e processado, as mudanças são imediatamente visíveis na interface de pesquisa. Este recurso é uma grande ajuda se você está construindo buscador de páginas com conteúdo em rápida mutação, como notícias on-line etc.
 
· Observe que o número de documentos em "tempo real" do banco de dados é limitado. É cerca de 1000 em nosso hardware (sua milhagem pode variar), e os mais documentos que você tem na base de dados "em tempo real", mais lenta será a velocidade de indexação em que (e apenas isso) de banco de dados. Isso não vai afetar a velocidade de busca embora.
 
· Documentos de banco de dados "em tempo real" são movidos à base de dados normal, após a execução de índice (1) de uma forma normal.
 
Classificando os resultados por relevância ou por data
 
· Os motores de busca geralmente retorna resultados mais relevantes primeiro. Mas se você está olhando para as últimas páginas, você pode dizer ASPseek para ordenar os resultados por data da última modificação, tão recentemente modificado (ou criados) páginas serão exibidos primeiro.
 
Excertos musicais, palavras de consulta que destacam
· Trecho é um pedaço de documento encontrado com palavras procurou destaque, apenas para dar uma idéia do que o documento é sobre. Você pode personalizar o número de trechos que indicam e seu comprimento. Se você vai desativar trechos, o início de documento será exibida.
 
· Cada documento encontrado é acompanhado com o link "Em cache". ASPseek mantém uma cópia local comprimido de cada documento processado, assim o usuário pode ver o documento inteiro com (opcional) destacou palavras que foram procurou, mesmo que tenha sido removido do site original (que às vezes acontece).
 
Agrupando os resultados por local
 
· Os resultados de um site pode ser agrupados. Se o agrupamento por sites está ligado, apenas dois resultados são exibidos a partir do mesmo local por padrão, eo usuário pode ver outras páginas do mesmo site, seguindo um "Mais resultados de ..." link.
 
Clones
 
· Clones são documentos idênticos em diferentes locais. Eles são detectados e agrupados, assim o usuário não será apresentado com uma página cheia de URLs para os documentos idênticos.
 
· Detecção Clone é geralmente limitada por um local (para que os documentos idênticos de diferentes sites não são contados como clones), mas você pode alterar esse recompilando ASPseek com a opção --disable-clones por site.
 
Espaços e subconjuntos
 
· O espaço é o conjunto de sites. Então, se você quiser fornecer a procura diminuiu para alguma área, você pode criar um espaço e procure dentro desse espaço. Apenas os locais de inteiros (por exemplo http://www.mysite.com/) são permitidos para serem incluídos no espaço.
 
· Subconjuntos também podem ser usadas para restringir a procura. Você pode criar subconjunto e colocar máscara URL (como http://www.mysite.com/mydir/%) em que, em seguida, limitar escopo da pesquisa somente dado subconjunto.
 
· Você pode restringir o escopo da pesquisa, não só um, mas vários sub-grupos ou espaços.
 
Templates HTML para resultados de pesquisa de fácil personalização
 
· Você pode personalizar suas páginas de pesquisa, então eles vão olhar como e ser perfeitamente integrado com o resto do seu site. Isso é feito por edição simples de arquivo de modelo de pesquisa.
Instalação
gzip -dc aspseek-1.2.10.tar.gz | tar xf -
cd aspseek-1.2.10. / configure
faço
su
make install

Outro software de desenvolvedor SWsoft

Plesk for Windows
Plesk for Windows

22 Sep 15

OpenVZ kernel
OpenVZ kernel

2 Jun 15

OpenVZ Live CD
OpenVZ Live CD

2 Jun 15

Comentário para ASPseek

Comentários não encontrado
Adicionar comentário
Ligue imagens!