projeto Beautiful Soup é um parser HTML Python / XML projetado para projetos de resposta rápida como screen-scraping. Três características tornam poderosa:
Beautiful Soup não vai engasgar se dar-lhe má marcação. Ela produz uma árvore de análise que faz aproximadamente tanto sentido quanto o documento original. Isso geralmente é bom o suficiente para coletar os dados necessários e fugir.
Beautiful Soup fornece alguns métodos simples e expressões idiomáticas Pythonic para navegar, pesquisar e modificar uma árvore de análise: um kit de ferramentas para dissecar um documento e extrair o que você precisa. Você não tem que criar um analisador personalizado para cada aplicação.
Beautiful Soup converte automaticamente os documentos recebidos para Unicode e documentos de saída para UTF-8. Você não tem que pensar sobre as codificações, a menos que o documento não especificar uma codificação e Beautiful Soup não pode detectar automaticamente um. Então você só tem que especificar a codificação original.
Beautiful Soup analisa qualquer coisa que você dá-lo, e não faz as coisas passagem de árvore para você. Você pode dizer que "Encontre todos os links", ou "Encontre todos os elos da classe externalLink", ou "Encontre todos os links cuja urls corresponder" foo.com ", ou" Encontre o título de tabela que o texto em negrito tem, em seguida, dar me que o texto. "
Dados valiosos que uma vez que foi trancado em sites mal-concebidas agora está ao seu alcance. . Projetos que teria levado horas levar apenas alguns minutos com Beautiful Soup
Requisitos :
- Python
Comentários não encontrado