当前位置:网站首页 > 技术博客 > 正文

java写爬虫程序



正则表达式
Java网络通信:URL
IO流
Map—HashMap
字符串操作
异常处理

如果这篇博客对你有一点点小帮助,希望您能给我来波一键三连;

python优点:

1.各种爬虫框架,方便高效的下载网页;
2.多线程、进程模型成熟稳定,爬虫是一个典型的多任务处理场景,请求页面时会有较长的延迟,总体来说更多的是等待。多线程或进程会更优化程序效率,提升整个系统下载和分析能力。
3.gae 的支持,当初写爬虫的时候刚刚有 gae,而且只支持 python ,利用 gae 创建的爬虫几乎免费,最多的时候我有近千个应用实例在工作。

通用型的爬虫: 宽度遍历

 

垂直型的爬虫

 
 

1.在Module建立一个maven工程

(因为我提前建立了一个大的maven工程项目,本次为了节省时间,就不重新创建一个maven工程,直接利用现有的)
建立一个简单的maven,不选用现成的骨架
点击module在这里插入图片描述
选择好你需要的jdk版本,点击next
在这里插入图片描述
设置好工程名称,和域名倒写。点击finish
在这里插入图片描述
点击file,点击Project structure,再点击module
在这里插入图片描述
将 java设为Source 将resources 设为Resource
在这里插入图片描述
引入你需要的maven依赖

org.jsoup jsoup 1.10.3

org.apache.httpcomponents httpcore 4.4.10

org.apache.httpcomponents httpclient 4.5.6

commons-io commons-io 2.6

 

建立好包
在这里插入图片描述
本次爬取网站:昵图网传送门 以一个图片网站作为本次爬取对象
在这里插入图片描述
在网站中审查元素:确定图片的html代码结构
crtl+(a标签里面的http://www.nipic.com/topic/show_27400_1.html)
分析html代码,观察里面的结点结构特点。建立一个URL的值,把里面所有的html的保存起来。
然后来处理里面的每一个html,再来根据里面的每一个html,来取这个界面中间的图片。
需要分开处理,img图片和上面的a标签,来爬取上面的图片,将图片保存起来。
在这里插入图片描述
创建一个UrlPool类,用来存放html。
代码全在我的gitee:传送门
对你有用的话,可以点个收藏关注;给我的gitee点一个star;谢谢;

 

运行上面的UrlPool类,得到下面的控制台输出:
为了拿到被爬取的内容图片,对内容解析并持久化,创建ImageCrawl类
这一部分:因为考虑到待会教程太长了,放到下一篇博客中说明;

正则表达式
Java网络通信:URL
IO流
Map—HashMap
字符串操作
异常处理

点赞+加一键三连

版权声明


相关文章:

  • 双向链表的数据结构2025-01-09 16:01:05
  • 系统封装步骤2025-01-09 16:01:05
  • linux查看ls命令的帮助信息2025-01-09 16:01:05
  • 异步fifo使用2025-01-09 16:01:05
  • string分割函数2025-01-09 16:01:05
  • ogg文件怎么转换为mp3格式2025-01-09 16:01:05
  • 交叉验证是干嘛的2025-01-09 16:01:05
  • cpu测试工具有哪些2025-01-09 16:01:05
  • left join和right join和inner join的区别2025-01-09 16:01:05
  • 程序员怎么学2025-01-09 16:01:05