Jericho HTML Parser

Tela Software:
Jericho HTML Parser
Detalhes de Software:
Versão: 3.4
Data de upload: 10 Dec 15
Revelador: Martin Jericho
Licença: Livre
Popularidade: 105

Rating: 5.0/5 (Total Votes: 1)

É possível editar do lado do servidor e do lado do cliente Tag, enquanto a reproduzir textualmente qualquer HTML não reconhecido ou inválido.

Ele também fornece funções de manipulação de formulário HTML de alto nível

Recursos :.

  • A presença de HTML mal formatado não interfere com a análise do restante do documento, o que faz com que a biblioteca ideal para utilização com & quot;-mundo real & quot; HTML que sufoca outros analisadores.

  • tags do servidor
  • ASP, JSP, PSP, PHP e pedreiro são explicitamente reconhecido pelo analisador. Isto significa que o HTML normal, ainda é analisado corretamente, mesmo se há marcas de servidor dentro deles, que é comum, por exemplo, ao definir dinamicamente atributos elemento.
  • Uma nova opção de análise de fluxo com base usando a classe StreamedSource, que permite que a memória de processamento eficiente de grandes arquivos usando um iterador evento. Esta é essencialmente uma alternativa StAX com a capacidade de processar HTML e XML não-validação, bem como vários outros recursos não disponíveis em outros analisadores de streaming.
  • Na sua forma padrão não é nem um evento nem árvore analisador com base, mas sim usa uma combinação de pesquisa de texto simples, o reconhecimento tag eficiente e um cache posição tag. O texto de todo o documento de origem é primeiro carregado na memória e, em seguida, apenas os segmentos relevantes procurou os personagens relevantes de cada operação de busca.
  • Em comparação com um parser baseado em árvore como DOM, os requisitos de memória e de recursos pode ser muito melhor se apenas pequenas seções do documento precisa ser analisado ou modificado. HTML incorreto ou mal formatado pode ser facilmente ignorado, ao contrário de analisadores baseados árvore que deve identificar cada nó no documento de cima para baixo.
  • Em comparação com um analisador baseado em eventos como o SAX, a interface está em um nível muito mais elevado e mais intuitivo, e uma representação em árvore da hierarquia elemento do documento é facilmente criado, se necessário.
  • A começar e posições finais no documento de origem de todos os segmentos analisados ​​são acessíveis, permitindo a modificação de apenas segmentos selecionados do documento sem ter que reconstruir todo o documento de uma árvore.
  • O número de linha e coluna de cada posição no documento de origem são facilmente acessíveis.
  • Fornece uma interface simples, mas abrangente para a análise e manipulação de controles de formulário HTML, incluindo a extracção ea população de valores iniciais, e conversão de dados ou exibir modos somente leitura. Análise dos controlos de formulário também permite que os dados recebidos do formulário para ser armazenados e apresentados de forma adequada.
  • Built-in funcionalidade para extrair todo o texto da marcação HTML, adequado para a alimentação em um motor de busca de texto, como o Apache Lucene.
  • Built-in funcionalidade para processar marcação HTML com formatação de texto simples.
  • Built-in funcionalidade para formatar o código-fonte HTML que recua elementos de acordo com a sua profundidade na hierarquia elemento do documento. (Clique aqui para uma demonstração on-line)
  • Built-in funcionalidade para compacta código-fonte HTML, removendo todo o espaço em branco desnecessário.
  • tipos de etiquetas personalizadas podem ser facilmente definidos e registados para reconhecimento pelo analisador.

O que é novo nesta versão:.

  • Adicionado Fonte construtor (File)
  • método Adicionado OutputDocument.getSegment ().
  • Adicionado OutputDocument.remove (int início, fim int) método.
  • método Adicionado Renderer.setHRLineLength ().
  • Adicionado RenderToText.jsp amostra webapp.
  • método Adicionado Segment.getRowColumnVector ().
  • detecção Encoding agora ignora codificações comuns especificados na meta tags que têm um tamanho de unidade de código incompatível com a codificação preliminar.

O que é novo na versão 3.1:

  • Correções de bugs:
  • Infinita laço em Segment.getAllStartTags ()
  • Infinita laço em Segment.getAllElements ()
  • Segment.getFirst * métodos voltou segmentos fora do segmento delimitadora.

  • métodos
  • Segment.getAllElements não retornar todos os elementos incluídos em algumas circunstâncias.
  • erros de documentação fixos em métodos Segment.getAllElements.
  • Adicionado StreamedSource classe.
  • As mudanças que poderiam afetar o comportamento dos programas existentes:
  • Mudou ParseText de classe para fazer a interface.
  • Segment.getNodeIterator () agora retorna referências de caráter como nós separados.
  • tag Adicionado métodos de pesquisa com base no valor atributo expressões regulares.
  • tag Adicionado métodos de pesquisa com base no atributo de classe HTML.
  • Source.LegacyNodeIteratorCompatabilityMode propriedade estática Adicionado temporariamente para restaurar Segment.getNodeIterator () funcionalidade ao de versões anteriores.
  • Removido de char [] métodos de pesquisa com base em ParseText.
  • Adicionado CharacterReference.appendCharTo (appendable) método.
  • Adicionado OutputDocument (Segmento) construtor.
  • programa de amostra Adicionado StreamedSourceCopy.

Programas semelhantes

FluentDOM
FluentDOM

22 Jul 15

Voyeur.js
Voyeur.js

13 May 15

Radium
Radium

18 Jul 16

Outro software de desenvolvedor Martin Jericho

Comentário para Jericho HTML Parser

Comentários não encontrado
Adicionar comentário
Ligue imagens!
Busca por categoria