projeto cpdetector é uma estrutura pequena mas inteligente para detecção de página de códigos.
cpdetector é uma estrutura pequena mas inteligente para detecção de página de código que integra diferentes estratégias. Ele pode ser usado como uma biblioteca de software de terceiros que acessa os dados textuais sobre a rede.
Ele também inclui uma implementação das melhores práticas na forma de uma ferramenta de linha de comando que permite a triagem e transformação de grandes coleções de documentos com base em sua página de códigos.
Estratégias disponíveis incluem: jchardet (exclusão, análise de frequência, e supondo), a detecção da propriedade charset HTML, e detecção da declaração de codificação XML.
O que é uma página de código?
Na primeira, um documento textual não é nada mais do que seqüências de bits. Um computador tem de decidir, como ele pode exibir esses dados em forma de personagens (que são identificados pelo computador como números).
A página de código - o que também é conhecido como codificação charset - mapeia os dados brutos de um documento textual para caracteres. A página de código ASCII originais por exemplo utiliza apenas 7 bits de um octeto (byte) para decidir o personagem que é representado, assim, permitindo que apenas para mapear 128 caracteres diferentes. Na memória do passado era caro e computadores na maioria das vezes só tinha registros e ônibus para 8 bits.
Quando um mainframe foi concebido teve que ser decidido, que os personagens que devem apoiar. Os médicos e matemáticos, por exemplo, precisava caracteres especiais para equações. Como resultado, um computador, muitas vezes fornecido com uma página de código especial
O que é novo nesta versão:.
- Este importante bugfix versão corrige duas questões no modo de lote de linha de comando.
- A mudança para pular movimento documentos não detectados trabalha agora novamente.
- Não será feita nenhuma tentativa de transcodificar documentos não detectados (este último causou o fluxo do programa excepcional).
O que é novo na versão 1.0.8:
- Esta versão é uma versão de estabilidade e corrige o byte ordenar detecção de marca e incompatibilidade com o OpenJDK. Também requer Java 1.5 agora.
Comentários não encontrado