当前位置:网站首页 > 技术博客 > 正文

网页爬虫教程



目录

1.爬虫简介

2.版本及库的要求

3.爬虫的框架

4.HTML简介

5.爬虫库及演示

  (1)requests库(网页下载器)

  (2)BeautifulSoup库(网页解析器)

6.爬虫框架补充

  (1)URL管理模块

7.对目标网站进行解析

8.举个栗子

  (1)所需库

  (2)爬取目标

  (3)网页分析

  (4)编写爬虫前的准备

  (5)编写代码

9.参考资料


网络爬虫,也称为网页蜘蛛或网络机器人,是一种自动抓取万维网信息的程序或脚本。

爬虫的基本原理是通过模拟人的网络行为,如点击按钮、查看数据等,来获取服务器上的数据。这些数据可以是文本、图片、视频等多种格式。爬虫分为通用爬虫和聚焦爬虫两大类,其中通用爬虫的目标是在保持一定内容质量的情况下爬取尽可能多的站点,如搜索引擎;而聚焦爬虫则主要针对特定对象或网站,有一台指定的爬取路径、数据抽取规则。

此外,爬虫还被广泛应用于多个领域,如数据聚合、舆情分析、网络安全、税务稽查等。

2.1python使用版本:3.7.9

2.2爬虫所需库

        [1]resquests

        [2]Beautifulsoup4

        [3]selenium

ps:上述库可通过

pip install requests

直接安装,安装完在pycharm新建test.py文件,输入一下代码进行验证,查看库是否安装成功

 

若安装成功则输出如下图所示:

(1)   URL管理器:相当于一个数据容器,其中包含待爬取及爬取过的url。

        模块作用:防止爬虫重复爬取页面,或循环爬取陷入死循环中。

(2)网页下载器:用python获取网页的信息。

        模块作用:爬取页面信息。复杂页面的爬取,动态页面,需要登录验证码的页面,或者有一些防御手段禁止爬取的页面,都需要在此模块中解决。(一般网页使用动态加载数据,需要使用到selenium框架解决。)

(3)网页解析器:获取网页下载器下载下来的HTML,提取其中有价值的信息和待爬取的新URL,传输给URL管理器,循环爬取数据。

(4)并发爬取,在爬虫调度端实现。

(5)数据存储,像将数据保存在数据库中,统一在价值数据模块中实现。

这部分内容简单看一下

想深入了解看可以看看HTML 教程

(1)requests库(网页下载器)

一个优雅的、简单的Python、HTTP库,常常用于爬虫对网页内容的下载。

requests库用法:

以下代码可以直接在pycharm中运行,看看返回结果

代码段1:

 

 代码段2:

 

当编码不规范时,爬取的中文信息中可能会出现乱码,此时需要我们手动更改编码信息

 

更改前:

更改后:

(2)BeautifulSoup库(网页解析器)

BeautifulSoup库官网:Beautiful Soup: We called him Tortoise because he taught us.

 方便练习,我们先自己写一个简单的网页

 

运行之后长这样:

爬取上述简单网页:

创建一个Python Package,命名为bs4_test

把上述网页放在Package下,命名为test.html

再在Package中创建一个test.py文件

结构如下图:

test.py文件中的代码:

 

运行结果:

(1)URL管理模块

url管理器的实现代码:

 

这点需要听课(作者用的不是Windows系统,有点不一样,不影响)

[2.8]--爬虫前提之对目标网站进行分析_哔哩哔哩_bilibili

(1)所需库

        [1]requests

        [2]BeautifulSoup

(2)爬取目标

        网页的所有标题的文本和链接

(3)网页分析

        打开检查,鼠标点击到标题,定位到它的源码

 可以看到标提包裹在h2标签中,class="entry-title"

往下多看几个,发现都是这样的

我们就可以指定查找模块h2,class为class="entry-title"

(4)编写爬虫前的准备

        [1]新建一个python package,命名为blog_test

        [2]新建一个main.py文件

(5)编写代码
 

B站视频:

python爬虫入门实战案例教程-入门到精通(收藏版)_哔哩哔哩_bilibili

爬虫简介参考:

搜索智能精选

Python部分语法:

Python 中的 if __name=='__main__'作用浅析 - 简书

版权声明


相关文章:

  • 时间图卷积2025-01-10 23:30:04
  • SQLSERVER2008使用2025-01-10 23:30:04
  • 拦截器与过滤器执行顺序2025-01-10 23:30:04
  • 树状数组 线段树2025-01-10 23:30:04
  • 图形验证码是怎么填写的啊2025-01-10 23:30:04
  • html制作一个简单注册页面2025-01-10 23:30:04
  • 怎么让python用pypy执行2025-01-10 23:30:04
  • 开窗函数和窗口函数区别2025-01-10 23:30:04
  • tls的完整过程需要三个算法2025-01-10 23:30:04
  • assert函数 python2025-01-10 23:30:04