参考文章:https://blog.csdn.net/_/article/details/?spm=1001.2014.3001.5506
使用selenium进行爬虫,需要下载相关浏览器的驱动程序,和添加selenium相关的jar包。
浏览器驱动程序地址:
- Firefox浏览器驱动:Firefox
- Chrome浏览器驱动:chrome淘宝镜像
- Edge浏览器驱动:edge
selenium相关依赖:
jar包下载地址:https://mvnrepository.com/
Selenium是一个用于web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。Selenium完全开源,对商业用户也没有任何限制,支持分布式,拥有成熟的社区与学习文档。使用Selenium实现爬虫最大的好处在于能够模拟一个用户正常访问页面,网站后台不容易检测出来,而且使用简单,可以使用java或python等多种编程语言编写用例脚本。
Selenium提供了8种定位方式,这些方式在Java中所对应的方法如下:
- id-------------------------------------------------------------findElement(By.id())
- name--------------------------------------------------------findElement(By.name())
- class name------------------------------------------------findElement(By.className())
- tag name--------------------------------------------------findElement(By.tagName())
- link text----------------------------------------------------findElement(By.linkText())
- partial link text-------------------------------------------findElement(By.partialLinkText())
- xpath-------------------------------------------------------findElement(By.xpath())
- css selector----------------------------------------------findElement(By.cssSelector())
具体使用例子:
提示:鼠标对准元素右键 > 检查 > 对准标签右键 > 点击copy,即可直接复制通过xpath或css等定位方式的路径。
- maximize() 设置浏览器最大化
- setSize() 设置浏览器宽高
例子:讲浏览器窗口的大小设置成(500*800)
在使用浏览器浏览网页时,浏览器提供了后退和前进按钮,可以方便地在浏览过的网页之间切换,WebDriver也提供了对应的back()和forward()方法来模拟后退和前进按钮。下面通过例子来演示这两个方法的使用。
- back() 模拟浏览器后退按钮
- forward() 模拟浏览器前进按钮
有时候需要手动刷新(F5) 页面。
- refresh() 刷新页面(F5)
WebDriver提供了两种类型的等待:显式等待和隐式等待。
WebDriverWait类是由WebDirver提供的等待方法。在设置时间内,默认每隔一段时间检测一次当前页面元素是否存在,如果超过设置时间检测不到则抛出异常。具体格式如下:
WebDriverWait(driver, 10, 1)
driver: 浏览器驱动。 10: 最长超时时间, 默认以秒为单位。 1: 检测的的间隔(步长) 时间, 默认为 0.5s。
- driver.switchTo().frame(xf),xf为另一个表单的元素。
- switchTo().window()
- getWindowHandle(): 获得当前窗口句柄。
- getWindowHandles(): 返回的所有窗口的句柄到当前会话。
- switchTo().window():用于切换到相应的窗口,与上一节的switchTo().frame()类似,前者用于不同窗口的切换, 后者用于不同表单之间的切换。
- getText(): 返回 alert/confirm/prompt 中的文字信息。
- accept(): 接受现有警告框。
- dismiss(): 解散现有警告框。
- sendKeys(keysToSend): 发送文本至警告框。
- keysToSend:将文本发送至警告框。
- getCookies() 获得所有 cookie 信息。
- getCookieNamed(String name) 返回字典的key为“name”的Cookie信息。
- addCookie(cookie dict) 添加Cookie。“cookie_dict”指字典对象,必须有 name和value值。
- deleteCookieNamed(String name) 删除Cookie 信息。 “name”是要删除的 cookie的名称;“optionsString” 是该Cookie的选项,目前支持的选项包括“路径” , “域” 。
- deleteAllCookies() 删除所有 cookie 信息。
虽然WebDriver提供了操作浏览器的前进和后退方法,但对于浏览器滚动条并没有提供相应的操作方法。在这种情况下,就可以借助JavaScript来控制浏览器的滚动条。WebDriver提供了executeScript()方法来执行JavaScript代码。
- 下载浏览器驱动程序时,尽量与自己电脑的浏览器版本一致或相近。
其实我也不知道为什么要这样,理论上来说下载的驱动程序应该不与电脑本身的浏览器有联系,但之前在爬虫时遇到一些问题,上网搜一下,基本上都是说驱动程序版本不一致。为了快速的实现功能,还是下载对应的版本驱动程序吧,避免后面出现问题。
版权声明:
本文来源网络,所有图片文章版权属于原作者,如有侵权,联系删除。
本文网址:https://www.mushiming.com/mjsbk/13113.html