文章目录
- 前言
- 一、 安装
- 1.1 安装 Selenium
- 1.2 安装 WebDriver
- 二、 浏览器操作
- 2.1 启动浏览器
- 2.2 窗口控制
- 三、 元素定位
- 四、 等待机制
- 4.1 显式等待
- 4.2 隐式等待
前言
Selenium 是一个用于 Web 应用程序测试的框架,其测试直接在浏览器中运行,能够模拟真实用户的操作行为。它支持多平台(Windows、Linux、macOS)、多语言(Python、Perl、PHP、C# 等)以及多浏览器(Chrome、Firefox、IE、Safari 等)。
一、 安装
1.1 安装 Selenium
bashpipinstallselenium1.2 安装 WebDriver
各主流浏览器的 WebDriver 下载地址:
Chrome:https://chromedriver.chromium.org/
Firefox:https://github.com/mozilla/geckodriver/releases
IE:https://selenium.dev/downloads/
配置示例(Chrome on Windows):
下载与本地 Chrome 版本对应的 chromedriver
解压后将 chromedriver.exe 放置于 Python 安装目录下(或添加到系统 PATH)
二、 浏览器操作
2.1 启动浏览器
1)基础启动方式
pythonfromseleniumimportwebdriver# Chromebrowser=webdriver.Chrome()browser.get('https://mail.163.com/')# Firefoxbrowser=webdriver.Firefox()browser.get('https://mail.163.com/')# IEbrowser=webdriver.Ie()browser.get('https://mail.163.com/')2)加载用户配置启动
pythonfromseleniumimportwebdriver option=webdriver.ChromeOptions()# 使用指定用户配置目录(注意路径转义)option.add_argument('--user-data-dir=C:\\Users\\admin\\AppData\\Local\\Google\\Chrome\\User Data')browser=webdriver.Chrome(options=option)browser.get('https://mail.163.com/')browser.quit()提示:执行前请确保浏览器已完全关闭
3)无头(Headless)模式
pythonfromseleniumimportwebdriver chrome_options=webdriver.ChromeOptions()chrome_options.add_argument('--headless')# 无界面模式chrome_options.add_argument('--disable-gpu')# 禁用 GPU 加速browser=webdriver.Chrome(options=chrome_options)browser.get('https://mail.163.com/')print(browser.page_source)# 获取页面源码browser.quit()2.2 窗口控制
python# 最大化窗口browser.maximize_window()# 最小化窗口browser.minimize_window()# 自定义窗口尺寸(宽×高)browser.set_window_size(500,800)# 前进/后退browser.forward()browser.back()三、 元素定位
假设目标页面源码如下:
html<html><body><form><inputid="fid"name="fid"type="text"/><inputid="firstName"name="fname"class="fname"type="text"/><inputid="lastName"name="fname"class="fname"type="text"/><ahref="index.html">index</a></form></body></html>常用定位方法:
python# 1. 通过 ID 定位browser.find_element_by_id('fid')# 2. 通过 Name 定位browser.find_element_by_name('fname')# 首个匹配元素browser.find_elements_by_name('fname')# 所有匹配元素(列表)# 3. 通过 Class 定位browser.find_element_by_class_name('fname')browser.find_elements_by_class_name('fname')# 4. 通过标签名定位browser.find_element_by_tag_name('input')browser.find_elements_by_tag_name('input')# 5. CSS 选择器定位browser.find_element_by_css_selector('.fname')browser.find_elements_by_css_selector('.fname')# 6. 链接文本定位browser.find_element_by_link_text('index')# 完整文本匹配browser.find_element_by_partial_link_text('ind')# 部分文本匹配# 7. XPath 定位browser.find_element_by_xpath("//input[@id='fid']")browser.find_elements_by_xpath("//input[@name='fname']")四、 等待机制
为处理动态加载内容,Selenium 提供两种等待方式:
4.1 显式等待
pythonfromseleniumimportwebdriverfromselenium.webdriver.common.byimportByfromselenium.webdriver.support.uiimportWebDriverWaitfromselenium.webdriver.supportimportexpected_conditionsasEC browser=webdriver.Chrome()browser.get('https://mail.163.com/')try:# 最多等待5秒,每0.5秒检查一次条件element=WebDriverWait(browser,5).until(EC.presence_of_element_located((By.ID,'lbNormal')))print(element)finally:browser.quit()4.2 隐式等待
pythonfromseleniumimportwebdriver browser=webdriver.Chrome()browser.implicitly_wait(5)# 设置全局等待时间browser.get('https://mail.163.com/')element=browser.find_element_by_id('lbNormal')print(element)browser.quit()与 time.sleep() 的区别:隐式等待在超时时间内若元素加载完成则立即继续执行,而非强制等待固定时长。