当前位置:网站首页 > 技术博客 > 正文

java爬虫入门教程



故事的开头
在这里插入图片描述
虽然我们程序员不干爬虫的活,但是工作中确实偶尔有需要网络上的数据的时候,手动复制粘贴的话数据量少还好说,万一数据量大,浪费时间不说,真的很枯燥。
所以现学现卖研究了一个多小时写出了个爬虫程序


新建个Maven项目,导入爬虫工具包Jsoup

 
  

在这里插入图片描述

首先要拿到我们请求的网页的地址
用Jsoup的parse()方法解析网页,传入连个参数第一个参数是new URL(url),第二个参数设置解析时间如果超过30秒就放弃
然后获取到一个Document对象
之后就像我们操作JS代码一样,Document对象可以实现JS的所有操作
在这里插入图片描述
这时候我们用浏览器打开网页,F12审查元素,找到数据所在的div的id名,如果没有id名就用calss名,这里是没有id名的。
在这里插入图片描述
然后我们通过class名获取到元素,这时候可以System.out.println(chinajobs);的输出一下看看日否拿到了我们想要的数据
在这里插入图片描述
可以看到确实拿到了我们想要的数据
在这里插入图片描述









 
  

将chinajobs中的第一个元素转换成Element对象(首先要确认我们需要的数据在将chinajobs中的第一个元素中)
通过分析发现我们需要的数据可以在title这个属性中提取出来
在这里插入图片描述

 
  

输出一下试试

 
  

确实过滤到了所有我们想要的数据
在这里插入图片描述

最后一步导出到excel,这里我是用的是poi工具包

 
  

通过el.getElementsByAttribute(“title”).size()确定元素的数量
采用循环遍历输出
el.getElementsByAttribute(“title”).eq(i)通过eq(i)传入索引值确定元素值
在D盘新建一个上海招聘公司一览表.xls文件


 
  

大功告成
在这里插入图片描述

  • 上一篇: spring-security-oauth2
  • 下一篇: jstorm官网
  • 版权声明


    相关文章:

  • spring-security-oauth22025-09-02 07:30:06
  • xdisplay(‎App Store 上的“Splashtop Wired XDisplay HD– 显示器扩展与镜像”)2025-09-02 07:30:06
  • 给成员变量赋值有几种方法2025-09-02 07:30:06
  • 字典树算法原理和优缺点2025-09-02 07:30:06
  • ev3编程与python区别2025-09-02 07:30:06
  • jstorm官网2025-09-02 07:30:06
  • 如何修改12306提交时间2025-09-02 07:30:06
  • 位运算之左移右移运算之详解2025-09-02 07:30:06
  • 图像滤波器的基本概念2025-09-02 07:30:06
  • varchar与char区别2025-09-02 07:30:06