当前位置:网站首页 > 技术博客 > 正文

java爬虫技术从零入门

是列表新闻特有的。最好不要直接正则匹配 a标签,因为 a标签在其他地方也有,这样我们就还需要做其他的处理,增加我们的难度。现在我们了解了正则结构体的选择,我们一起来看看 httpclient + 正则表达式方式提取的代码:

 
  

从代码的行数可以看出,比 Jsoup 方式要多不少,代码虽然多,但是整体来说比较简单,在上面方法中我做了一段特殊处理,我先替换了 httpclient 获取的字符串 body 中的换行符、制表符、回车符,因为这样处理,在编写正则表达式的时候能够减少一些额外的干扰。接下来我们修改 main 方法,运行 httpClientList 方法。

 
  

运行结果如下图所示:

Java 网络爬虫,就是这么的简单

使用 httpclient + 正则表达式的方式同样正确的获取到了列表新闻的标题和详情页链接。到此 Java 爬虫系列博文第一篇就写完了,这一篇主要是 Java 网络爬虫的入门,我们使用了 jsoup 和 httpclient + 正则的方式提取了虎扑列表新闻的新闻标题和详情页链接。当然这里还有很多没有完成,比如采集详情页信息存入数据库等。

版权声明


相关文章:

  • 网络调试助手怎么用 udp2025-08-28 10:30:02
  • vscode下载安装2025-08-28 10:30:02
  • 虚拟化 kvm xen2025-08-28 10:30:02
  • 如何防止csrf跨站请求伪造2025-08-28 10:30:02
  • mysql索引作用的简单理解2025-08-28 10:30:02
  • py2exe打包成单个程序2025-08-28 10:30:02
  • js数组删除某个值2025-08-28 10:30:02
  • socks5代理什么意思2025-08-28 10:30:02
  • c语言基础知识指针2025-08-28 10:30:02
  • bios设置自动开机不起作用2025-08-28 10:30:02