news 2026/2/7 20:34:39

爬取某网站的小说名(pyquery)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
爬取某网站的小说名(pyquery)

这个代码短且简单,主要就是展示一下pyquery的用法

代码就这么长,连三十行都不到,虽然简单,但我还是巨详细的说说

一、发送请求

第一步依然是发送请求,但在发送请求之前,我们爬取的这个小说网站有好多页小说,所以限制一下,就爬取前5页的,于是就需要for循环,就是下面这句

for i inrange(1, 6): url = f"https://b.faloo.com/y_0_0_0_0_6_1_{i}.html"

接着那句时伪装头,这句伪装头也可以放在for循环外边,主要是把python解释器伪装成浏览器,然后发送请求,不然服务器那边识别到你是python解释器发送的请求,就不给你响应,下面这句就是发送请求

response= requests.get(url,headers=headers)

,然后获得响应(response),话是这样说的,但你发送请求后,人家服务器那边到底有没有给你响应,你是不是需要验证一下,就是下面这句

if response.status_code==200:

二、解析网页

如果服务器那边给你回应了,那状态码就是200,接着就可以拿这pyquer对响应的HTML进行解析

html =pq(response.text)

三、定位

解析后就可以,对小说名称的位置进行定位,就是下面这句

items= html("div > div > div> h1").items()

依旧用的是CSS选择器,后面的items()方法时让items,变成一个可迭代对象,方便后面获取文档

四、获取内容并输出

foritem in items: # 小说名print(item.text())

既然上面已经说到items已经变成可迭代对象,那就进行遍历,遍历后的内容还不是需要的文档,还是HTML,需要用到text()方法,获取文档,然后输出,就行了

五、结果展示

当然五页的内容不止这些,这只是截了一部分

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/5 16:45:24

如何快速掌握ISO20000标准:信息技术服务管理体系终极指南

如何快速掌握ISO20000标准:信息技术服务管理体系终极指南 【免费下载链接】ISO20000信息技术服务管理体系标准新版标准解读PDF下载 探索信息技术服务管理的最新标准,本仓库精心整理了《ISO20000新版标准解读》PDF,深入剖析标准条款&#xff0…

作者头像 李华
网站建设 2026/2/4 16:29:31

企业级 AI 智能体规模化落地:MCP+GraphRAG+Agent

文章解析了企业级AI Agent落地的四大核心趋势:MCP构建统一连接层、GraphRAG实现精准知识响应、AgentDevOps保障系统可靠性、RaaS让价值可衡量。介绍了AI Agent在营销运营、招聘HR等场景的应用实践,以及企业落地自检清单。指出当前AI Agent正从"工具…

作者头像 李华
网站建设 2026/2/5 18:35:44

基于web的二手书交易平台设计与实现开题报告

班级:网络工程2101班学号:202325360111姓名:指导教师:刘诗瑾本科学生毕业论文(设计)开题报告毕业论文(设计)题目:基于web的二手书交易平台设计与实现开题报告内容:1 毕业…

作者头像 李华
网站建设 2026/2/5 22:53:56

苹果生态AI新纪元:本地化大模型如何重塑您的智能体验

苹果生态AI新纪元:本地化大模型如何重塑您的智能体验 【免费下载链接】Qwen3-32B-MLX-6bit 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-32B-MLX-6bit 您是否曾遇到过这样的情况:在处理敏感文档时,因担心隐私泄露而不得…

作者头像 李华