手把手教你用Requests库搞定中国大学MOOC的API数据抓取（附完整代码）-平芜编程栈

深入解析中国大学MOOC数据采集：从API逆向到Python实战

每次打开中国大学MOOC平台，看到海量优质课程资源时，你是否好奇这些数据背后隐藏着怎样的结构？作为国内领先的在线教育平台，其数据架构和API设计对开发者而言是个绝佳的学习案例。今天我们就用Python的Requests库，带你从零开始探索这个知识宝库的数据获取之道。

1. 准备工作与环境搭建

在开始爬取数据前，我们需要做好充分的技术准备。不同于简单的网页抓取，API数据采集更注重对网络请求本质的理解。

首先确保你的开发环境已经安装以下基础工具包：

pip install requests pandas numpy

推荐使用Jupyter Notebook进行交互式开发，方便实时查看数据返回结果。对于请求调试，Postman或Insomnia这类API测试工具能极大提升效率。

关键工具选择考量：

Requests库：比urllib更人性化的HTTP客户端
Pandas：专业的数据处理与分析工具
Jupyter：交互式开发环境，适合数据探索

提示：建议先注册一个中国大学MOOC的测试账号，避免频繁请求触发安全机制

2. API接口逆向分析实战

现代Web应用大多采用前后端分离架构，数据通过API接口传输。打开Chrome开发者工具（F12），切换到Network面板，重点关注XHR/fetch请求。

2.1 核心请求参数解析

观察典型API请求，我们会发现几个关键组成部分：

参数类型	示例	作用
Headers	User-Agent	标识客户端类型
Cookies	NTESSTUDYSI	维持会话状态
Payload	pageIndex	分页参数
URL参数	csrfKey	安全令牌

一个完整的请求示例：

headers = { "User-Agent": "Mozilla/5.0", "Referer": "https://www.icourse163.org/", "Content-Type": "application/json" } params = { "pageIndex": 1, "pageSize": 20, "orderBy": 3 }

2.2 动态令牌处理技巧

平台使用csrfKey作为重要安全验证，这个值通常能在以下几个位置找到：

登录后的Set-Cookie响应头
页面HTML中的meta标签
初始API返回数据

获取后需要保持会话一致性：

session = requests.Session() session.headers.update(headers) response = session.post(api_url, json=params)

3. 数据采集全流程实现

有了API基础认知后，我们来构建完整的采集流程。这个过程中，异常处理和日志记录同样重要。

3.1 分类数据获取

平台课程采用多级分类体系，首先获取顶层分类：

def get_categories(): url = "https://www.icourse163.org/web/j/category/list.rpc" resp = session.post(url) data = resp.json() categories = [] for item in data['result']: categories.append({ 'id': item['id'], 'name': item['name'], 'parentId': item.get('parentId', 0) }) return pd.DataFrame(categories)

3.2 课程详情采集

获取分类后，可按分类遍历课程列表：

def get_courses_by_category(category_id, page=1): params = { "categoryId": category_id, "pageIndex": page, "pageSize": 50 } try: resp = session.post(COURSE_API, json=params) data = resp.json() courses = [] for item in data['result']['list']: course = item['course'] courses.append({ 'courseId': course['id'], 'title': course['name'], 'school': course['school']['name'], 'enrollCount': course['enrollCount'] }) return courses except Exception as e: print(f"获取课程失败: {e}") return []

3.3 评论数据抓取

课程评论往往是最有价值的数据，需要注意分页逻辑：

def get_course_comments(course_id, max_pages=5): comments = [] for page in range(1, max_pages+1): params = { "courseId": course_id, "pageIndex": page, "pageSize": 20 } resp = session.post(COMMENT_API, json=params) data = resp.json() for comment in data['result']['list']: comments.append({ 'content': comment['content'], 'rating': comment['mark'], 'createTime': comment['gmtCreate'] }) if page >= data['result']['totalPage']: break return pd.DataFrame(comments)

4. 高级技巧与优化方案

基础采集实现后，我们需要考虑工程化问题，确保程序稳定高效运行。

4.1 反爬应对策略

平台常见的防护措施包括：

请求频率限制
User-Agent检测
行为模式分析

应对方案：

# 随机延迟控制 import random import time def random_delay(): time.sleep(random.uniform(0.5, 2.5)) # 代理IP池示例 proxies = { 'http': 'http://proxy.example.com:8080', 'https': 'https://proxy.example.com:8080' } response = requests.get(url, proxies=proxies)

4.2 数据存储优化

根据数据量级选择存储方案：

数据规模	推荐方案	优势
<1GB	SQLite	轻量易用
1-10GB	MySQL	成熟稳定
>10GB	MongoDB	灵活扩展

使用Pandas直接导出示例：

# 导出Excel df.to_excel('courses.xlsx', index=False) # 导出到数据库 from sqlalchemy import create_engine engine = create_engine('sqlite:///mooc.db') df.to_sql('courses', engine, if_exists='append')

4.3 性能优化技巧

大规模采集时需要考虑：

# 使用aiohttp实现异步请求 import aiohttp import asyncio async def fetch(session, url): async with session.get(url) as response: return await response.json() async def main(): async with aiohttp.ClientSession() as session: tasks = [fetch(session, url) for url in urls] return await asyncio.gather(*tasks)

5. 数据分析实战案例

采集到的数据如何产生价值？下面演示几个分析方向。

5.1 热门课程分析

# 按报名人数排序 top_courses = df.sort_values('enrollCount', ascending=False).head(10) # 院校课程数量统计 school_stats = df.groupby('school')['courseId'].count().sort_values(ascending=False)

5.2 评论情感分析

使用SnowNLP进行简单情感分析：

from snownlp import SnowNLP def analyze_sentiment(text): s = SnowNLP(text) return s.sentiments df['sentiment'] = df['content'].apply(analyze_sentiment)

5.3 数据可视化

Matplotlib基础图表示例：

import matplotlib.pyplot as plt plt.figure(figsize=(10,6)) df['school'].value_counts().head(10).plot(kind='barh') plt.title('Top 10 Universities by Course Count') plt.tight_layout() plt.show()

在实际项目中，我发现最耗时的环节往往是异常处理和数据清洗。特别是当平台更新接口时，原有的采集逻辑可能需要全面调整。保持代码的模块化和良好的日志记录习惯，能大幅降低维护成本。