站内搜索: 请输入搜索关键词

当前页面: 开发资料首页业界新闻开源Html Parser HtmlCleaner 发布

开源Html Parser HtmlCleaner 发布

摘要: 虽然目前已经有了类似这样的工具, 但是HtmlCleaner 能够完成几乎所有的HTML转换, 而且不到30k, 这是他们值得称道的地方.
通常互联网上的HTML页面都是不规则的, 非结构化的页面.

通常如果我们需要访问或者抽取里面的内容的话, 我们需要分析HTML页面, 去除垃圾.

而最近新发布的 HtmlCleaner 就是这样一个工具. 能够帮助我们将HTML 文档 转化为结构化的XML文档.

虽然目前已经有了类似这样的工具, 但是HtmlCleaner 能够完成几乎所有的HTML转换, 而且不到30k, 这是他们值得称道的地方.


官方站点:
http://htmlcleaner.sourceforge.net/


↑返回目录
前一篇: QALab 1.0 发布. 整合入JBuilder 2007
后一篇: Rails 1.2 rc1 发布, REST成核心