当前位置：网站首页 > 技术博客 > 正文

java爬虫入门教程

技术博客来源：网络编辑：小编发布时间：2025-09-02 07:30:06 浏览量：127

故事的开头
在这里插入图片描述
虽然我们程序员不干爬虫的活，但是工作中确实偶尔有需要网络上的数据的时候，手动复制粘贴的话数据量少还好说，万一数据量大，浪费时间不说，真的很枯燥。
所以现学现卖研究了一个多小时写出了个爬虫程序

新建个Maven项目，导入爬虫工具包Jsoup

在这里插入图片描述

首先要拿到我们请求的网页的地址
用Jsoup的parse()方法解析网页，传入连个参数第一个参数是new URL(url)，第二个参数设置解析时间如果超过30秒就放弃
然后获取到一个Document对象
之后就像我们操作JS代码一样，Document对象可以实现JS的所有操作
在这里插入图片描述
这时候我们用浏览器打开网页，F12审查元素，找到数据所在的div的id名，如果没有id名就用calss名，这里是没有id名的。

然后我们通过class名获取到元素，这时候可以System.out.println(chinajobs);的输出一下看看日否拿到了我们想要的数据
在这里插入图片描述
可以看到确实拿到了我们想要的数据

将chinajobs中的第一个元素转换成Element对象（首先要确认我们需要的数据在将chinajobs中的第一个元素中）
通过分析发现我们需要的数据可以在title这个属性中提取出来
在这里插入图片描述

输出一下试试

确实过滤到了所有我们想要的数据
在这里插入图片描述

最后一步导出到excel,这里我是用的是poi工具包

通过el.getElementsByAttribute(“title”).size()确定元素的数量
采用循环遍历输出
el.getElementsByAttribute(“title”).eq(i)通过eq(i)传入索引值确定元素值
在D盘新建一个上海招聘公司一览表.xls文件

大功告成
在这里插入图片描述

上一篇： spring-security-oauth2

下一篇： jstorm官网

版权声明：
本文来源网络，所有图片文章版权属于原作者，如有侵权，联系删除。

本文网址：https://www.mushiming.com/mjsbk/1456.html

相关文章：

spring-security-oauth22025-09-02 07:30:06

xdisplay(‎App Store 上的“Splashtop Wired XDisplay HD– 显示器扩展与镜像”)2025-09-02 07:30:06

给成员变量赋值有几种方法2025-09-02 07:30:06

字典树算法原理和优缺点2025-09-02 07:30:06

ev3编程与python区别2025-09-02 07:30:06

jstorm官网2025-09-02 07:30:06

如何修改12306提交时间2025-09-02 07:30:06

位运算之左移右移运算之详解2025-09-02 07:30:06

图像滤波器的基本概念2025-09-02 07:30:06

varchar与char区别2025-09-02 07:30:06