Python 网络爬虫从入门到实战：手把手教你爬取豆瓣电影排行-平芜编程栈

在大数据时代，网络爬虫已成为信息采集的核心工具，广泛应用于数据分析、搜索引擎优化等领域。Python 凭借简洁的语法和强大的库支持，成为编写爬虫的首选语言。本文将从基础概念出发，结合 requests 和 beautifulsoup4 库的实战应用，带大家完成豆瓣电影排行的数据爬取，轻松掌握爬虫核心技能。

一、网络爬虫核心认知

网络爬虫（Web Crawler）是按特定规则自动抓取万维网信息的程序或脚本，如同在网络中漫游的 “蜘蛛”，通过网页中的超链接持续探索更多页面。其核心工作流程可概括为三步：

数据采集：通过 HTTP 请求获取网页原始内容；
数据处理：解析 HTML/XML 文档，提取有效信息；
数据存储：将有用数据持久化到文件或数据库。

二、环境准备：必备库安装

爬虫开发需先安装两个核心库，直接通过 pip 命令即可完成：

requests 库：模拟浏览器发送 HTTP 请求，获取网页内容

pip install requests

beautifulsoup4 库：解析 HTML 页面，提取目标数据

pip install beautifulsoup4

三、核心库详解与基础用法

（一）requests 库：获取网页内容

requests 库封装了复杂的 HTTP 请求逻辑，使用起来简洁直观，核心功能如下：

支持 GET/POST/PUT/DELETE 等 HTTP 方法；
自动处理编码、Cookie 和连接池；
提供超时设置和异常处理机制。

基础使用步骤：

导入库：import requests
发送请求：使用 get () 方法获取网页，需设置 User-Agent 伪装浏览器

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1"} url = "https://movie.douban.com/chart" response = requests.get(url, headers=headers, timeout=10)

3.处理响应：通过 status_code 判断请求状态（200 为成功），text 属性获取网页文本

if response.status_code == 200: html = response.text # 获取HTML字符串 response.encoding = response.apparent_encoding # 自动检测编码

（二）beautifulsoup4 库：解析网页数据

获取 HTML 内容后，需用 beautifulsoup4 解析结构，提取目标信息，其核心优势是支持灵活的选择器语法。

基础使用步骤：

导入库：from bs4 import BeautifulSoup
创建解析对象：指定 HTML 文本和解析器（html.parser 为内置解析器）

soup = BeautifulSoup(html, "html.parser")

3.提取数据：支持两种核心选择器

节点选择器：直接通过标签名获取元素，如soup.title获取标题，soup.p获取第一个 p 标签；
方法选择器：使用 find ()（获取第一个匹配结果）和 find_all ()（获取所有匹配结果），支持按标签名、属性筛选。

常用属性说明：

name：获取标签名称（如 "div"）；
attrs：获取标签属性（返回字典，如 href、class）；
string：获取标签内文本内容；
stripped_strings：获取所有非空文本（生成器对象）。

四、实战：爬取豆瓣电影排行

（一）明确目标与分析网页

目标：爬取豆瓣电影排行榜的电影名称、上映时间、主演、评分等信息。网页分析：通过浏览器开发者工具查看元素结构，发现电影信息集中在class="pl2"的 div 标签和class="star clearfix"的评分区域。

（二）完整代码实现

import requests from bs4 import BeautifulSoup import json # 1. 设置请求头和目标URL headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1"} url = "https://movie.douban.com/chart" # 2. 获取网页内容 def get_html(url, headers): try: response = requests.get(url, headers=headers, timeout=10) if response.status_code == 200: response.encoding = response.apparent_encoding return response.text else: print(f"请求失败，状态码：{response.status_code}") return None except Exception as e: print(f"请求异常：{e}") return None # 3. 解析网页数据 def parse_html(html): soup = BeautifulSoup(html, "html.parser") movies = [] # 查找所有电影条目 items = soup.find_all("tr", class_="item") for item in items: # 提取电影名称 name_tag = item.find("div", class_="pl2").find("a") movie_name = name_tag.get_text(strip=True).replace("\n", "").replace("/", " / ") # 提取上映信息和主演 info_tag = item.find("p", class_="pl") info = info_tag.get_text(strip=True) release_time = info.split("/")[0].strip() actors = [actor.strip() for actor in info.split("/")[1:4] if actor.strip()] # 提取评分 rating_tag = item.find("span", class_="rating_nums") rating = rating_tag.get_text(strip=True) if rating_tag else "暂无评分" # 构建电影字典 movie_dict = { "电影名称": movie_name, "上映时间": release_time, "主演": actors, "评分": rating } movies.append(movie_dict) return movies # 4. 存储数据到JSON文件 def save_data(movies, filename="douban_movies.json"): with open(filename, "w", encoding="utf-8") as f: json.dump(movies, f, ensure_ascii=False, indent=2) print(f"数据已保存到{filename}，共爬取{len(movies)}部电影") # 主函数执行 if __name__ == "__main__": html_content = get_html(url, headers) if html_content: movie_data = parse_html(html_content) if movie_data: save_data(movie_data)