站内搜索: 请输入搜索关键词

当前页面: 开发资料首页Java 专题从网页中提取URL一例

从网页中提取URL一例

摘要: 从网页中提取URL一例

</td> </tr> <tr> <td height="35" valign="top" class="ArticleTeitle"> <table width="100%" border="0" cellspacing="0" cellpadding="0"> <tr> <td width="512" height="86" align="center" valign="top">
import java.io.*;

import java.net.*;

import java.util.regex.*;

/**

   This program displays all URLs in a web page

   by jgyang

*/

public class HerfMatch

{

   public static void main(String[] args)

   {

      try

      {

         String urlString = "http://www.tom.com";

         InputStreamReader in = new InputStreamReader(

            new URL(urlString).openStream());

         StringBuffer input = new StringBuffer();

         int ch;

         while ((ch = in.read()) != -1) 
input.append((char)ch);
String patternString = "<[a|A]\\s+href=([^>]*\\s*>)"; Pattern pattern = Pattern.compile(patternString, Pattern.CASE_INSENSITIVE); Matcher matcher = pattern.matcher(input); int i = 0; while (matcher.find()) { int start = matcher.start(); int end = matcher.end(); String match = input.substring(start, end); System.out.println(++i + " : " + match); } } catch (IOException exception) { exception.printStackTrace(); } catch (PatternSyntaxException exception) { exception.printStackTrace(); } } }
</td> <td width="172" valign="top"> </td> </tr> <tr> <td height="20" colspan="2">
运行结果:


222 :
223 :
224 :
225 :
226 :
227 :
228 :
229 : show=ignore&url=http://tom.love21cn.com/ target=_blank>
230 : gnore&url=http://www.e26.cn/tom/200608/08081701.htm target=_blank>
231 :
232 :
233 :
234 :
235 :
236 :
237 :
238 :
239 :
240 :
241 :
242 :
243 :
244 :
245 :
246 :
247 :
248 :
249 :
250 :
251 :
252 :
253 :
254 :
255 :
256 :
257 :
258 :
259 :
260 :
261 :
262 :
263 :
264 :
265 :
266 :
267 :
268 :
269 :
270 :
271 :
272 :
273 :
274 :
275 :
276 :
277 :
278 :
279 :
280 :
281 :
282 :
283 :
284 :
285 :
286 :
287 :
288 :
289 :
290 :
291 :
292 :
293 :
294 :
295 :
296 :
297 :
298 :
299 :
300 :
301 :
302 :
303 :
304 :
305 :
306 :
307 :
308 :
309 :
310 :
311 :
312 :
313 :
314 :
315 :
316 :
317 :
318 :
319 :
320 :
321 :
322 :
323 :
324 :
325 :
326 :
327 :
328 :
329 :
330 :
331 :
332 :
333 :
334 : " class="list" target="_blank">
335 : " class="list" target="_blank">
336 :
337 :
338 :
339 :
340 :
341 :
342 :
343 :
344 :
345 :
346 :
347 :
348 :
349 :
350 :
351 :
352 :
353 :
354 :
355 :
356 :
357 :
358 :
359 :
360 :
361 :
362 :
363 :
364 :
365 :
366 :
367 :
368 :
369 :
370 :
371 :
372 :
373 :
374 :
375 :
376 :
377 :
378 :
379 :
380 :
381 :
382 :
383 :
384 :
385 :
386 :
387 :
388 :
389 :
390 :
391 :
392 :
393 :
394 :
395 :
396 :
397 :
398 :
399 :
400 :
401 :
402 :
403 :
404 :
405 :
406 :
407 : href="http://html.hjsm.tom.com/html/book/24/95/index.htm" target="_blank" class=list>
408 : target="_blank" class=list>
409 : href="http://html.hjsm.tom.com/html/book/25/514/index.htm" target="_blank" class=list>
410 : target="_blank" class=list>
411 : class=list>
412 : href="http://html.hjsm.tom.com/html/book/23/451/index.htm" target="_blank" class=list>
413 : class=list>
414 : class=list>
415 :
416 : class=list>
417 : href="http://html.hjsm.tom.com/html/book/24/892/index.htm"
target="_blank" class=list>
418 :
419 : class=list>
420 : class=list>
421 : class=list>
422 : class=list>
423 : class=list>
424 : class=list>
425 :
426 :
427 :
428 :
429 :
430 :
431 :
432 :
433 :
434 :
435 :
436 :
437 :
438 :
439 :
440 :
441 :
442 :
443 :
444 :
445 :
446 :
447 :
448 :
449 :
450 :
451 :
452 :
453 :
454 :
455 :
456 :
457 :
458 :
459 :
460 :
461 :
462 :
463 :
464 :
465 :
466 :
467 :
468 :
469 :
470 :
471 :
472 :
473 :
474 :
475 :
476 :
477 :
478 :
479 :
480 :
481 :
482 :
483 :
484 :
485 :
486 :
487 :
488 :
489 :
490 :
491 :
492 :
493 :
494 :
495 :
496 :
497 :

C:\java>


                        
</td> </tr> </table> </td> </tr> <tr>


↑返回目录
前一篇: java实现的LZW 压缩算法源码
后一篇: 简单的加密解密实现