Los analizadores HTML son programas que permiten el análisis automatizado del lenguaje de marcado de hipertexto (HTML) . Tienen dos propósitos principales:
- Recorrido HTML: ofrece una interfaz para que los programadores puedan acceder y modificar fácilmente el "código de cadena HTML". Ejemplo canónico: analizadores DOM .
- HTML limpio: para corregir código HTML no válido y mejorar el diseño y el estilo de sangría del marcado resultante. Ejemplo canónico: HTML Tidy .
- * Fecha del último lanzamiento (de cambios significativos).
- ** sanitizar (generar páginas web compatibles con estándares, reducir spam, etc.) y limpiar (eliminar etiquetas de presentación sobrantes, eliminar código XSS, etc.) el código HTML.
- *** Actualiza HTML4.X a XHTML o HTML5, convirtiendo etiquetas obsoletas (por ejemplo, CENTER) en etiquetas válidas (por ejemplo, DIV con
style="text-align:center;"
).
Referencias
- ^ 12.2 Análisis de documentos HTML — Estándar HTML Archivado el 16 de enero de 2013 en Wayback Machine
- ^ Versión 5.8.0 de HTML Tidy
- ^ ab ¿ Qué es Tidy?
- ^ Unidad HTML 3.7.0
- ^ Lanzamiento de Beautiful Soup 4.10
- ^ jsoup Versión 1.18.1 del analizador HTML de Java