站内搜索: 请输入搜索关键词

当前页面: 开发资料首页Java 专题如何用Java获取某网站下所有URL?

如何用Java获取某网站下所有URL?

摘要: 如何用Java获取某网站下所有URL?


我试过先获取该网站首页的HTML文件,然后用正则表达式提取其中的URL,但只是很少的一部分.
如果可以获取所有的URL.
请高手指点一下!谢谢!


使用递归啊,先取得首页的内容,根据正则表达式匹配,取得所有的二级页面url,再根据二级页面取得子页面,一直递归下去,不过如果碰到不是本网站的连接就不要去递归了,否则如果哪个页面把sina或者哪个门户网站做了一个连接,那你就把硬盘存满都存不完了。


那么多数据,还是按级别循环吧,估计两层就能搞死了


嗯,明白了,谢谢两位的提示~~~


↑返回目录
前一篇: 返回DOS命令
后一篇: 怎么在指定文件目录下获得指定文件???