news 2026/5/30 16:55:40

【开题答辩全过程】以 基于Spark机器学习算法的体育新闻智能分类系统设计与实现为例,包含答辩的问题和答案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【开题答辩全过程】以 基于Spark机器学习算法的体育新闻智能分类系统设计与实现为例,包含答辩的问题和答案

个人简介

一名14年经验的资深毕设内行人,语言擅长Javaphp、微信小程序、PythonGolang、安卓Android

开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。

感谢大家的关注与支持!

各位老师好,我是20大数据技2班的xx同学。我的课题是“基于Spark机器学习算法的体育新闻智能分类系统”。系统主要做三件事:一是用Python爬虫把新浪、腾讯等网站的体育新闻实时抓回来;二是用Spark MLlib里的朴素贝叶斯、SVM等算法给新闻自动打标签,分成足球、篮球、排球等八类;三是用Django+MySQL搭一个Web后台,普通用户可以按分类浏览、搜索、收藏,管理员可以人工纠正错误分类。整套技术栈就是:Spark+MLlib做分布式训练,jieba+TF-IDF做特征,Django+Bootstrap做页面,MySQL存数据,整个项目跑在一台8核16 G的虚拟机集群上。下面请各位老师提问。



评委老师:为什么选择体育新闻这个场景,而不是更常见的新闻综合场景?
答辩学生:因为我本人就是体育迷,日常就刷体育板块,数据好收集,标签也清晰,像NBA、中超这些关键词很明显,不容易分错。


评委老师:系统准备分几类?如果一条新闻同时提到足球和篮球怎么办?
答辩学生:目前定8个大类,多标签问题先按“出现关键词最多的类”单标签输出,后期再加多标签分类做改进。


评委老师:数据打算抓多少条?存哪儿?
答辩学生:计划抓5万条做训练,1万条做测试,统一存MySQL,文本字段用utf8mb4,附件图片只存URL不存文件。


评委老师:Spark版本用哪个?单机还是集群?
答辩学生:用Spark3.4,本地先单机4核调试,后期开3台虚拟机搭Standalone集群,每台8核16 G,够跑5万条数据。


评委老师:机器学习部分你提到朴素贝叶斯、SVM,最后怎么选模型?
答辩学生:用准确率+训练时间双重指标,哪个综合得分高就用哪个,先跑10折交叉验证,如果差距在2个百分点以内就选训练快的朴素贝叶斯。


评委老师:前端页面谁来做?会写到什么程度?
答辩学生:我自己做,用Django自带模板和Bootstrap,实现登录、列表、搜索、后台审核四个页面,样式够用就行,不追求美工。


评委老师:如果模型把“中国女排夺冠”错分成“乒乓球”,你怎么办?
答辩学生:后台有“人工纠正”按钮,点一下就能把这条数据重新标成排球,同时把修正后的数据回流到训练集,隔一周重新训练一次模型。


评委老师:项目进度怎么安排?
答辩学生:2025.1.1-1.15环境搭建+爬虫;1.16-2.15数据清洗+特征;2.16-3.15模型训练+Web接口;3.16-4.15系统集成+测试;4.16-5.10写论文+查重;5.11-5.25准备答辩。



评委老师:xx同学选题具体、技术路线清晰,对数据、模型、前后端都有实际可落地的安排,问答中也体现出对误差修正和进度管控有思考。建议下一步先把爬虫跑通,确保5万条数据按时入库,再提前把Spark集群环境搭起来,避免后期卡性能。总体通过,请按时间节点推进,预祝顺利完成毕业设计。


以上是某同学的毕业设计答辩的过程,如果你现在还没有参加答辩,还是开题阶段,已经选好了题目不知道怎么写开题报告,可以下面找找有没有自己符合自己题目的开题报告内容,列表中的开题报告都是往届真实的开题报告,可发送使用或参考。文末或底部来联xi可免费获取

最后

有时间和有基础的同学,建议自己多花时间找一下资料(开题报告、源码)自己独立完成毕设,需要开题报告内容、源码参考的,可以联xi博主,没有选题的也可以联系我们进行帮你选题定功能和建议

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 22:05:29

moodycamel::ConcurrentQueue 清空队列的方法论

方法1&#xff1a;循环弹出元素 #include <concurrentqueue.h>// 如果存储的是指针类型 moodycamel::ConcurrentQueue<int*> queue; int* item nullptr; while (queue.try_dequeue(item)) {if (item) {delete item; // 如果需要释放内存item nullptr;} }// 如果…

作者头像 李华
网站建设 2026/5/23 12:33:29

halcon窗口显示文字

前言 我们在开发C#上位机的时候&#xff0c;有时候会使用Halcon控件&#xff0c;在Halcon控件上会有绘制文字&#xff0c;本文就来介绍如何实现。 Halcon代码实现 dev_close_window () dev_open_window (0, 0, 512, 512, black, WindowHandle) set_font (WindowHandle, 宋体…

作者头像 李华
网站建设 2026/5/21 11:13:21

Langchain-Chatchat错误排查手册:常见问题与解决方案

Langchain-Chatchat 错误排查手册&#xff1a;常见问题与解决方案 在企业级 AI 应用日益强调数据隐私和本地化部署的今天&#xff0c;基于大型语言模型&#xff08;LLM&#xff09;的知识库系统正从“云端调用”转向“私有可控”。Langchain-Chatchat 作为一款开源、可离线运行…

作者头像 李华
网站建设 2026/5/20 13:58:06

AtCoder Beginner Contest竞赛题解 | 洛谷 AT_abc436_b Magic Square

​欢迎大家订阅我的专栏&#xff1a;算法题解&#xff1a;C与Python实现&#xff01; 本专栏旨在帮助大家从基础到进阶 &#xff0c;逐步提升编程能力&#xff0c;助力信息学竞赛备战&#xff01; 专栏特色 1.经典算法练习&#xff1a;根据信息学竞赛大纲&#xff0c;精心挑选…

作者头像 李华
网站建设 2026/5/30 10:59:38

Langchain-Chatchat如何选择合适的LLM后端模型?

Langchain-Chatchat 如何选择合适的 LLM 后端模型&#xff1f; 在企业级智能问答系统日益普及的今天&#xff0c;一个核心矛盾逐渐凸显&#xff1a;我们既希望大模型能像人类一样理解并回答复杂问题&#xff0c;又不愿将敏感数据上传至第三方云端。这种对安全性、可控性与智能化…

作者头像 李华
网站建设 2026/5/21 11:49:13

Android16 3576 a14和a16传递自定义编译变量

在RK3576的Android16项目里面,RK的Android16使用的是Android14的kernel和vendor,使用的是Android16的system,当做自适应编译的时候,怎么把Android16设置的自定义编译属性,给到Android14做自适应。 1.查看RK3576编译命令和代码结构: 编译的时候需要进入a16也就是Android16…

作者头像 李华