爬取某网站的小说名(pyquery)-平芜编程栈

这个代码短且简单，主要就是展示一下pyquery的用法

代码就这么长，连三十行都不到，虽然简单，但我还是巨详细的说说

一、发送请求

第一步依然是发送请求，但在发送请求之前，我们爬取的这个小说网站有好多页小说，所以限制一下，就爬取前5页的，于是就需要for循环，就是下面这句

for i inrange(1, 6): url = f"https://b.faloo.com/y_0_0_0_0_6_1_{i}.html"

接着那句时伪装头，这句伪装头也可以放在for循环外边，主要是把python解释器伪装成浏览器，然后发送请求，不然服务器那边识别到你是python解释器发送的请求，就不给你响应，下面这句就是发送请求

response= requests.get(url,headers=headers)

，然后获得响应(response)，话是这样说的，但你发送请求后，人家服务器那边到底有没有给你响应，你是不是需要验证一下，就是下面这句

if response.status_code==200:

二、解析网页

如果服务器那边给你回应了，那状态码就是200，接着就可以拿这pyquer对响应的HTML进行解析

html =pq(response.text)

三、定位

解析后就可以，对小说名称的位置进行定位，就是下面这句

items= html("div > div > div> h1").items()

依旧用的是CSS选择器，后面的items()方法时让items,变成一个可迭代对象，方便后面获取文档

四、获取内容并输出

foritem in items: # 小说名print(item.text())

既然上面已经说到items已经变成可迭代对象，那就进行遍历，遍历后的内容还不是需要的文档，还是HTML，需要用到text()方法，获取文档，然后输出，就行了

五、结果展示

当然五页的内容不止这些，这只是截了一部分

人类文明可通过技术手段（如加强航天器防护、改进电网设计）缓解地球两极反转带来的影响

地球两极反转（通常指地磁反转，即地球磁场的南北极互换）是一个发生在地球内部的自然过程，而非字面意义上的“地球物理结构翻转”。这一现象在地质历史中曾多次发生，最近一次约在78万年前。以下是关于地磁反转可能发生的…

李华

当“雷同”不再只是文字问题：2025年企业标书查重的真实困境与破局之道

随着2025年《电子招标投标系统多维度溯源规范》全面落地，标书审查已从“文本比对”升级为“全维穿透”。一份看似合规的文件，可能因以下任一原因被判定风险：文件元数据雷同（如创建设备、保存路径一致）AI生成内容高度同…

李华

如何快速掌握ISO20000标准：信息技术服务管理体系终极指南

如何快速掌握ISO20000标准：信息技术服务管理体系终极指南【免费下载链接】ISO20000信息技术服务管理体系标准新版标准解读PDF下载探索信息技术服务管理的最新标准，本仓库精心整理了《ISO20000新版标准解读》PDF，深入剖析标准条款&#xff0…

李华

企业级 AI 智能体规模化落地：MCP+GraphRAG+Agent

文章解析了企业级AI Agent落地的四大核心趋势：MCP构建统一连接层、GraphRAG实现精准知识响应、AgentDevOps保障系统可靠性、RaaS让价值可衡量。介绍了AI Agent在营销运营、招聘HR等场景的应用实践，以及企业落地自检清单。指出当前AI Agent正从"工具…

李华

苹果生态AI新纪元：本地化大模型如何重塑您的智能体验

苹果生态AI新纪元：本地化大模型如何重塑您的智能体验【免费下载链接】Qwen3-32B-MLX-6bit 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-32B-MLX-6bit 您是否曾遇到过这样的情况：在处理敏感文档时，因担心隐私泄露而不得…

李华