当前位置:首页 > 随笔 > 正文内容

使用Selenium与Requests构建网页爬虫及代理池实践

访客 随笔 2026年6月16日 1

处理含反调试机制的页面抓取

某些网站为防止自动化工具访问,会加入反调试逻辑。例如页面通过debugger语句阻塞开发者工具的使用,或禁用右键菜单。这类防护可通过浏览器开发者工具中的"停用所有断点"功能绕过,也可通过修改关键JavaScript代码实现。

常见做法是在加载页面后,定位包含debugger的脚本位置,并将其替换为空函数。例如在Chrome控制台执行:

// 替换 debugger 语句
(function() {
    var originalDebugger = window.debugger;
    window.debugger = function() {};
})();

随后可结合Selenium操作页面元素,尤其是存在嵌套iframe结构时,必须先切换上下文。

Selenium操作带frame的页面

目标网址使用了iframe嵌套内容,需先定位并切换至对应frame才能操作内部元素。以下示例展示如何获取城市监测数据:

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 启动浏览器
browser = webdriver.Chrome()
browser.get("https://szzdjc.cnemc.cn:8070/GJZ/Business/Publish/Main.html")

# 等待主页面加载完成
time.sleep(5)

# 切入名为 MF 的 iframe
frame_element = browser.find_element(By.ID, "MF")
browser.switch_to.frame(frame_element)

# 触发区域选择按钮
area_trigger = browser.find_element(By.CSS_SELECTOR, "#ddm_Area span")
area_trigger.click()
time.sleep(2)

# 点击第一个地区链接
first_region = browser.find_element(By.XPATH, "//a[contains(@href, 'javascript')]")
first_region.click()

# 等待动态数据渲染(可能需要更智能的等待策略)
time.sleep(45)

# 滚动到底部以触发懒加载
browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(2)

# 提取城市名称和检测时间
city_nodes = browser.find_elements(By.XPATH, '//span[@class="city-name"]')
time_nodes = browser.find_elements(By.XPATH, '//td[4][@class="detect-time"]')

for city, timestamp in zip(city_nodes, time_nodes):
    print(f"城市: {city.text}, 检测时间: {timestamp.text}")

# 返回主文档上下文
browser.switch_to.default_content()
browser.quit()

基于公开代理构建可用IP池

为避免频繁请求导致IP被封禁,常采用代理服务器中转流量。以下介绍从免费代理平台采集并验证有效代理的方法。

利用Selenium抓取89ip代理并测试

通过模拟浏览器行为访问89ip.cn,提取每页列出的IP与端口,并使用requests进行连通性测试。

from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import random
import requests

valid_proxies = []
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--headless")  # 可选:无头模式运行
driver = webdriver.Chrome(options=chrome_options)

for page_num in range(1, 3):
    driver.get(f"https://www.89ip.cn/index_{page_num}.html")
    time.sleep(3)
    
    ip_elements = driver.find_elements(By.XPATH, "//tbody/tr/td[1]")
    port_elements = driver.find_elements(By.XPATH, "//tbody/tr/td[2]")
    
    for ip_elem, port_elem in zip(ip_elements, port_elements):
        ip_address = ip_elem.text.strip()
        port_number = port_elem.text.strip()
        proxy_str = f"{ip_address}:{port_number}"
        proxy_dict = {
            "http": f"http://{proxy_str}",
            "https": f"http://{proxy_str}"
        }
        
        try:
            response = requests.get(
                "http://httpbin.org/ip",
                proxies=proxy_dict,
                timeout=5,
                verify=False
            )
            if response.status_code == 200:
                valid_proxies.append(proxy_str)
        except Exception:
            continue

driver.quit()

selected_proxy = random.choice(valid_proxies) if valid_proxies else None
print(f"共收集到 {len(valid_proxies)} 个有效代理")
if selected_proxy:
    print(f"随机选用代理: {selected_proxy}")
else:
    print("未找到可用代理")

使用Requests直接解析89ip代理列表

相比Selenium,直接使用requests配合lxml可提升效率,尤其适用于静态页面。

import requests
from lxml import html
import random
import time

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
}

valid_pool = []

for page in range(1, 3):
    url = f"https://www.89ip.cn/index_{page}.html"
    res = requests.get(url, headers=headers)
    tree = html.fromstring(res.content)
    
    ips = tree.xpath('//tbody/tr/td[1]/text()')
    ports = tree.xpath('//tbody/tr/td[2]/text()')
    
    for ip, port in zip(ips, ports):
        clean_ip = ip.strip()
        clean_port = port.strip()
        proxy_url = f"{clean_ip}:{clean_port}"
        protocol = "http"
        test_proxies = {
            "http": f"{protocol}://{proxy_url}",
            "https": f"{protocol}://{proxy_url}"
        }
        
        try:
            check = requests.get("http://httpbin.org/ip", proxies=test_proxies, timeout=5)
            if check.status_code == 200:
                valid_pool.append(proxy_url)
        except Exception:
            continue
        
        time.sleep(1)  # 控制请求频率

chosen = random.choice(valid_pool) if valid_pool else "无可用代理"
print(f"有效代理总数: {len(valid_pool)}")
print(f"选定代理: {chosen}")

从快代理平台提取HTTPS代理

快代理提供HTTP和HTTPS两种类型代理,需根据协议类型配置请求参数。

from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import random
import requests

working_proxies = []
options = webdriver.ChromeOptions()
options.add_argument('--headless')
browser = webdriver.Chrome(options=options)

for p in range(1, 3):
    browser.get(f"https://www.kuaidaili.com/free/inha/{p}/")
    time.sleep(3)
    
    protocols = browser.find_elements(By.XPATH, '//*[@id="table__free-proxy"]/div/table/tbody/tr/td[4]')
    ips = browser.find_elements(By.XPATH, '//*[@id="table__free-proxy"]/div/table/tbody/tr/td[1]')
    ports = browser.find_elements(By.XPATH, '//*[@id="table__free-proxy"]/div/table/tbody/tr/td[2]')
    
    for proto, ip_elem, port_elem in zip(protocols, ips, ports):
        scheme = proto.text.lower()
        host = ip_elem.text
        port = port_elem.text
        full_proxy = f"{scheme}://{host}:{port}"
        
        test_proxy = {scheme: full_proxy}
        try:
            resp = requests.get("http://httpbin.org/ip", proxies=test_proxy, timeout=5, verify=False)
            if resp.status_code == 200:
                working_proxies.append(full_proxy)
        except Exception:
            continue

browser.quit()

final_proxy = random.choice(working_proxies) if working_proxies else "无有效代理"
print(f"成功验证代理数: {len(working_proxies)}")
print(f"最终使用的代理: {final_proxy}")

搜狗微信搜索多页内容抓取

针对分页内容,可通过循环点击"下一页"按钮持续采集信息。

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

browser = webdriver.Chrome()
browser.get("https://weixin.sogou.com/pcindex/")

search_input = browser.find_element(By.ID, "query")
search_input.send_keys("爬虫")
time.sleep(1)

submit_btn = browser.find_element(By.XPATH, '//input[@type="submit"]')
submit_btn.click()
time.sleep(5)

for page_index in range(10):
    print(f"正在抓取第 {page_index + 1} 页数据...")
    
    for item_idx in range(10):
        try:
            title_el = browser.find_element(By.ID, f"sogou_vr_11002601_title_{item_idx}")
            author_el = browser.find_element(By.XPATH, f'//li[@id="sogou_vr_11002601_box_{item_idx}"]//span[@node-type="media-name"]')
            print(f"标题: {title_el.text}, 公众号: {author_el.text}")
        except Exception as e:
            print(f"读取第{item_idx+1}条失败: {e}")
            continue
    
    try:
        next_page = browser.find_element(By.ID, "sogou_next")
        next_page.click()
        time.sleep(5)
    except Exception as error:
        print("无法继续翻页:", error)
        break

browser.quit()

相关文章

可以按小时收费的VPS

很多 VPS 提供商都支持 按小时计费(hourly billing),想短期试用 / 临时搭建节点、测试网络、短期项目等场景非常合适。下面是当前最主流且靠谱的按小时 VPS 选项,分别按不同需求场景整理: 1. Vultr(全球节点,包括日本) 按小时计费 可选机房:东京 / 大阪 / 洛杉矶 / 法兰克福 / 伦敦 … 支持 PayPal(部分情况),但更常用信用卡/PayPal+卡价格参考$...

在 iPhone 上下载国外App

地区/国家限制App Store 会根据 Apple ID 的国家或地区限制应用下载。如果你的 Apple ID 绑定的是中国大陆,就可能无法下载 OpenAI 官方的 ChatGPT 应用,因为它在大陆 App Store 不上架。解决办法:换成美国、加拿大、香港等地区的 Apple ID。或者在现有 Apple ID 上更改地区。注册一个国外 Apple ID(推荐)比如注册 美国区 Appl...

Node.js 中的异步编程:回调与 Promise

Node.js 是一个基于 JavaScript 构建的单线程、非阻塞运行环境,它通过异步编程机制来高效处理多个操作。在执行如文件读取、API 请求或数据库查询等任务时,Node.js 不会等待这些操作完成,而是使用回调函数和 Promise 来避免阻塞主线程。 回调方式实现异步 那么当异步操作完成后,Node.js 如何知道接下来要做什么呢?这就要用到 回调函数(callback)。 回调本质上...

Selenium自动化测试入门指南

Selenium自动化测试入门指南

什么是自动化测试? 自动化测试是指利用软件工具自动执行测试用例,模拟用户操作,如打开网页、点击链接、输入文本等,并验证结果是否符合预期。 其主要优点包括: 大幅减少人工成本 测试速度快 可以在非工作时间运行 支持持续集成和交付 然而,它也存在一些局限性,例如开发成本较高、不适合快速变化的项目、依赖稳定的UI界面等。 自动化测试的应用条件 适合引入自动化测试的情况包括: 手动测试耗时且需要大量...

MariaDB Galera集群故障快速恢复指南

OpenStack控制节点采用三节点MariaDB Galera集群架构。当数据库集群因故障重启时,有时会出现Galera集群无法正常启动的问题。虽然有多种方法可以恢复数据库服务,但如何实现快速启动同时确保数据完整性呢? 通过分析日志发现,MariaDB Galera集群节点宕机时会在日志中输出以下信息: [Note] WSREP: 新集群视图:全局状态: 874d8e7e-5980-11e8-8...

Android 中 EventBus 的通信机制与实现原理深度解析

EventBus 核心设计思想 EventBus 是一个基于观察者模式的事件总线框架,广泛应用于 Android 平台以实现组件解耦。它通过中心化的消息分发机制,使不同层级、不同线程的对象能够以"发布-订阅"方式通信,避免了传统接口回调或广播带来的强依赖问题。 核心角色说明 事件(Event):任意 Java 对象,作为数据载体,如网络状态变更通知、用户登录信息等。 发布者(Publi...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。