当前位置:网站首页 > 技术博客 > 正文

java爬取数据的界面设计




参考文章:https://blog.csdn.net/_/article/details/?spm=1001.2014.3001.5506

使用selenium进行爬虫,需要下载相关浏览器的驱动程序,和添加selenium相关的jar包。
浏览器驱动程序地址:

  • Firefox浏览器驱动:Firefox
  • Chrome浏览器驱动:chrome淘宝镜像
  • Edge浏览器驱动:edge

selenium相关依赖:

 
   

jar包下载地址:https://mvnrepository.com/

Selenium是一个用于web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。Selenium完全开源,对商业用户也没有任何限制,支持分布式,拥有成熟的社区与学习文档。使用Selenium实现爬虫最大的好处在于能够模拟一个用户正常访问页面,网站后台不容易检测出来,而且使用简单,可以使用java或python等多种编程语言编写用例脚本。

Selenium提供了8种定位方式,这些方式在Java中所对应的方法如下:

  • id-------------------------------------------------------------findElement(By.id())
  • name--------------------------------------------------------findElement(By.name())
  • class name------------------------------------------------findElement(By.className())
  • tag name--------------------------------------------------findElement(By.tagName())
  • link text----------------------------------------------------findElement(By.linkText())
  • partial link text-------------------------------------------findElement(By.partialLinkText())
  • xpath-------------------------------------------------------findElement(By.xpath())
  • css selector----------------------------------------------findElement(By.cssSelector())

具体使用例子:

 
   
 
   

提示:鼠标对准元素右键 > 检查 > 对准标签右键 > 点击copy,即可直接复制通过xpath或css等定位方式的路径。

  • maximize() 设置浏览器最大化
  • setSize() 设置浏览器宽高
    例子:讲浏览器窗口的大小设置成(500*800)
 
   

在使用浏览器浏览网页时,浏览器提供了后退和前进按钮,可以方便地在浏览过的网页之间切换,WebDriver也提供了对应的back()和forward()方法来模拟后退和前进按钮。下面通过例子来演示这两个方法的使用。

  • back() 模拟浏览器后退按钮
  • forward() 模拟浏览器前进按钮
 
   

有时候需要手动刷新(F5) 页面。

  • refresh() 刷新页面(F5)
 
   
方法 含义 clear() 清除文本 sendKeys(*value) 模拟按键输入 click() 单击元素 submit() 提交表单 getSize() 返回元素的尺寸 getText() 获取元素的文本 getAttribute(name) 获得属性值 isDisplayed() 设置该元素是否用户可见
方法 含义 contextClick() 右击 clickAndHold() 鼠标点击并控制 doubleClick() 双击 dragAndDrop() 拖动 release() 释放鼠标 perform() 执行所有Actions中存储的行为
 
   
方法 含义 getTitle() 用于获得当前页面的title getCurrentUrl() 用户获得当前页面的URL getText() 获取页面文本信息

WebDriver提供了两种类型的等待:显式等待和隐式等待。

WebDriverWait类是由WebDirver提供的等待方法。在设置时间内,默认每隔一段时间检测一次当前页面元素是否存在,如果超过设置时间检测不到则抛出异常。具体格式如下:
WebDriverWait(driver, 10, 1)
driver: 浏览器驱动。 10: 最长超时时间, 默认以秒为单位。 1: 检测的的间隔(步长) 时间, 默认为 0.5s。

 
   
方法 含义 implicitlyWait() 识别对象时的超时时间。过了这个时间如果对象还没找到的话就会抛出NoSuchElement异常 setScriptTimeout 异步脚本的超时时间。WebDriver可以异步执行脚本,这个是设置异步执行脚本脚本返回结果的超时时间 pageLoadTimeout 页面加载时的超时时间。因为WebDriver会等页面加载完毕再进行后面的操作,所以如果页面超过设置时间依然没有加载完成,那么WebDriver就会抛出异常。
  • driver.switchTo().frame(xf),xf为另一个表单的元素。
 
   
  • switchTo().window()
  • getWindowHandle(): 获得当前窗口句柄。
  • getWindowHandles(): 返回的所有窗口的句柄到当前会话。
  • switchTo().window():用于切换到相应的窗口,与上一节的switchTo().frame()类似,前者用于不同窗口的切换, 后者用于不同表单之间的切换。
 
   
 
   
 
   
  • getText(): 返回 alert/confirm/prompt 中的文字信息。
  • accept(): 接受现有警告框。
  • dismiss(): 解散现有警告框。
  • sendKeys(keysToSend): 发送文本至警告框。
  • keysToSend:将文本发送至警告框。
 
   
  • getCookies() 获得所有 cookie 信息。
  • getCookieNamed(String name) 返回字典的key为“name”的Cookie信息。
  • addCookie(cookie dict) 添加Cookie。“cookie_dict”指字典对象,必须有 name和value值。
  • deleteCookieNamed(String name) 删除Cookie 信息。 “name”是要删除的 cookie的名称;“optionsString” 是该Cookie的选项,目前支持的选项包括“路径” , “域” 。
  • deleteAllCookies() 删除所有 cookie 信息。
 
   

虽然WebDriver提供了操作浏览器的前进和后退方法,但对于浏览器滚动条并没有提供相应的操作方法。在这种情况下,就可以借助JavaScript来控制浏览器的滚动条。WebDriver提供了executeScript()方法来执行JavaScript代码。

 
   
  • 下载浏览器驱动程序时,尽量与自己电脑的浏览器版本一致或相近。

其实我也不知道为什么要这样,理论上来说下载的驱动程序应该不与电脑本身的浏览器有联系,但之前在爬虫时遇到一些问题,上网搜一下,基本上都是说驱动程序版本不一致。为了快速的实现功能,还是下载对应的版本驱动程序吧,避免后面出现问题。

版权声明


相关文章:

  • http的options2025-09-28 12:29:59
  • 接口自动化测试工具有哪些2025-09-28 12:29:59
  • formdata数据2025-09-28 12:29:59
  • jvm检测工具2025-09-28 12:29:59
  • select语句的执行结果2025-09-28 12:29:59
  • python opencv霍夫变换检测圆2025-09-28 12:29:59
  • pop软件怎么用2025-09-28 12:29:59
  • java多线程示例代码2025-09-28 12:29:59
  • springboot引入swagger2025-09-28 12:29:59
  • xargs命令详解kill2025-09-28 12:29:59