Selenium广泛应用于自动化测试和自动化业务开发,同时在网路爬虫中也有较多的应用,使用Selenium有两个核心的问题:第一个是如何在爬虫领域不被识别出来,另一个是在自动化领域如何解决超时载入的问题。
今天来总结一下处理Selenium在自动化业务中的超时载入,让程序不在奔溃,同时能准确的获取信息。
首先需要区分两种超时情况,一种是页面载入出现的超时,一种是获取页面元素的超时。
对于页面载入出现的超时,Selenium提供了两个设置:
driver.set_page_load_timeout() # 设置页面载入超时 driver.set_script_timeout() # 设置页面非同步js执行超时
set_page_load_timeout是用于设置页面载入超时,如下图在指定时间内未载入出页面则会报错。
set_script_timeout,用于execute_async_script()执行的非同步js超时报错。
注意:使用set_page_load_timeout时候,当页面未载入出任何东西的时候(往往是html源码未载入),因为超时而停止,会导致driver失效,后面的driver都不能操作,所以超时设置应该至少保证页面内容载入出来一部分,设置超时不宜过短,如下图在页面此种状态下停止载入后driver失效。
页面载入超时在打开新页面、页面刷新、跳转等方法执行中会起作用,对于页面非同步载入超时问题可以配合使用js停止,该js语法如下:
window.stop()
该方法类似在浏览器上点击停止载入按钮,如果页面在载入图片或框架(iframe)时间过长,我门可以使用该方法来停止载入。
第二种是获取页面元素的超时,又分为隐式等待(implicit) 和 显示等待(explicit)。
隐式等待(implicit)
隐式等待是设置全局的查找页面元素的等待时间,在这个时间内没找到指定元素则抛出异常,只需设置一次,语法如下:
driver.implicitly_wait(time)
显示等待(explicit)
显式等待是使用频率最高的获取页面元素超时设置,其原理是通过设置一个最大时间和一个周期时间,按照周期时间来检测是否出现等待元素,直到达到了最大等待时间。
显示等待的基本语法如下:
from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.common.by import By from selenium import webdriver
driver = webdriver.Chrome() WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.ID, wrapper))) WebDriverWait(driver, 3).until_not(EC.presence_of_element_located((By.ID, wrapper1)))
其中WebDriverWait用来给指定driver设置超时时间,until、until_not有两个参数method、message,method是EC即expected_conditions类提供的预先判断条件,message是在超时发生时候的提示信息。
until用来检测指定元素是否出现,如果在超时时间内出现则返回选择器信息,否则报出TimeoutException异常。
until_not用于检测指定元素是否消失,如果在超时时间内消失则返回True,否则会报出TimeoutException异常。
method是EC即expected_conditions类提供的预先判断条件如下:
WebDriverWait(driver,10).until(EC.title_is(u"百度一下,你就知道")) # 判断title,返回布尔值
WebDriverWait(driver,10).until(EC.title_contains(u"百度一下")) # 判断title,返回布尔值
WebDriverWait(driver,10).until(EC.presence_of_element_located((By.ID,kw))) # 判断某个元素是否被加到了dom树里,并不代表该元素一定可见,如果定位到就返回WebElement
WebDriverWait(driver,10).until(EC.visibility_of_element_located((By.ID,su))) # 判断某个元素是否被添加到了dom里并且可见,可见代表元素可显示且宽和高都大于0
WebDriverWait(driver,10).until(EC.visibility_of(driver.find_element(by=By.ID,value=kw))) # 判断元素是否可见,如果可见就返回这个元素
WebDriverWait(driver,10).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,.mnav))) # 判断是否至少有1个元素存在于dom树中,如果定位到就返回列表
WebDriverWait(driver,10).until(EC.visibility_of_any_elements_located((By.CSS_SELECTOR,.mnav))) # 判断是否至少有一个元素在页面中可见,如果定位到就返回列表
WebDriverWait(driver,10).until(EC.text_to_be_present_in_element((By.XPATH,"//*[@id=u1]/a[8]"),u设置)) # 判断指定的元素中是否包含了预期的字元串,返回布尔值
WebDriverWait(driver,10).until(EC.text_to_be_present_in_element_value((By.CSS_SELECTOR,#su),u百度一下)) # 判断指定元素的属性值中是否包含了预期的字元串,返回布尔值
#WebDriverWait(driver,10).until(EC.frame_to_be_available_and_switch_to_it(locator)) # 判断该frame是否可以switch进去,如果可以的话,返回True并且switch进去,否则返回False注意这里并没有一个frame可以切换进去
WebDriverWait(driver,10).until(EC.invisibility_of_element_located((By.CSS_SELECTOR,#swfEveryCookieWrap))) # 判断某个元素在是否存在于dom或不可见,如果可见返回False,不可见返回这个元素注意#swfEveryCookieWrap在此页面中是一个隐藏的元素
WebDriverWait(driver,10).until(EC.element_to_be_clickable((By.XPATH,"//*[@id=u1]/a[8]"))).click() # 判断某个元素中是否可见并且是enable的,代表可点击 driver.find_element_by_xpath("//*[@id=wrapper]/div[6]/a[1]").click() WebDriverWait(driver,10).until(EC.element_to_be_clickable((By.XPATH,"//*[@id=wrapper]/div[6]/a[1]"))).click()
WebDriverWait(driver,10).until(EC.staleness_of(driver.find_element(By.ID,su))) # 等待某个元素从dom树中移除
WebDriverWait(driver,10).until(EC.element_to_be_selected(driver.find_element(By.XPATH,"//*[@id=nr]/option[1]"))) # 判断某个元素是否被选中了,一般用在下拉列表
WebDriverWait(driver,10).until(EC.element_selection_state_to_be(driver.find_element(By.XPATH,"//*[@id=nr]/option[1]"),True)) # 判断某个元素的选中状态是否符合预期
WebDriverWait(driver,10).until(EC.element_located_selection_state_to_be((By.XPATH,"//*[@id=nr]/option[1]"),True)) # 判断某个元素的选中状态是否符合预期 driver.find_element_by_xpath(".//*[@id=gxszButton]/a[1]").click()
instance = WebDriverWait(driver,10).until(EC.alert_is_present()) # 判断页面上是否存在alert,如果有就切换到alert并返回alert的内容 instance.accept() # 关闭弹窗
部分配置来源参考:https://www.cnblogs.com/wxcx/p/8948280.html
注意:显示等待和隐式等待都存在的,按照其中超时时间设置最大的方式来执行。