news 2026/5/10 13:50:43

200k News Category 数据集

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
200k News Category 数据集

一、数据集基本信息

  1. 核心定位:包含20万条带分类标签的新闻数据,用于新闻分类任务,共涵盖10个新闻类别,分别是Technology(科技)、Politics(政治)、Business(商业)、Sports(体育)、Health(健康)、War(战争)、Lifestyle(生活方式)、Science(科学)、Education(教育)、Entertainment(娱乐)。

我用夸克网盘给你分享了「新闻分类数据集」,点击链接或复制整段内容,打开「夸克APP」即可获取。
链接:https://pan.quark.cn/s/a98c80c7c11e

  1. 数据来源:由4个Kaggle数据集聚合而成,原始数据集链接如下:
    • https://www.kaggle.com/datasets/adhamelkomy/news-classification-and-analysis-using-nlp
    • https://www.kaggle.com/datasets/amananandrai/ag-news-classification-dataset/versions/2
    • https://www.kaggle.com/datasets/rmisra/news-category-dataset/versions/3
    • https://www.kaggle.com/datasets/kishanyadav/inshort-news
  2. 数据处理:对原始数据进行了合并、清洗操作,并对新闻类别进行泛化处理,以减少类别数量,提升数据可用性。
  3. 数据文件:仅包含1个CSV文件(200k_news_category.csv),文件大小51.03MB,包含4列核心数据,具体字段及说明如下:
    字段(Column)说明
    title新闻标题
    content新闻正文文本
    category新闻类别(对应10个分类)
    (无明确列名,序号列)数据条目序号(0至209664)
  4. 基础属性
    • 总数据量:209665条
    • 唯一标题数:210800个
    • 类别占比:Lifestyle占30%、Politics占17%、其他类别合计占52%(共110067条)

二、数据集可用性与合规信息

  1. 可用性评分:10.00(满分),数据质量认可度高。
  2. 许可证类型:CC0: Public Domain(公有领域协议),可自由使用、修改和分发,无版权限制。
  3. 更新频率:Never(永不更新),数据为静态版本,无后续更新计划。
  4. 标签与任务适配:标签包含Classification(分类)、News(新闻)、Text(文本)、Multiclass Classification(多分类)、Text Classification(文本分类),适配文本多分类任务,尤其适用于新闻领域的分类模型训练与测试。

三、数据统计与示例

  1. 数据分布:各区间数据量相对均衡,多数区间(如0.00-4216.00、4216.00-8432.00等)数据量为4216条,仅42160.00-46376.00区间为4215条,206584.00-210800.00区间为4217条。
  2. 数据示例(前5条):
    • 序号0:标题“Zareen Khan’s lawyer issues statement on arrest warrant, says ‘she was victim of fraud’”,类别Technology
    • 序号1:标题“What is Women’s Reservation Bill, demanded by parties at Parliament today?”,类别Politics
    • 序号2:标题“IIT Kanpur Director Abhay Karandikar appointed as Centre’s Science & Tech Secretary”,类别Technology
    • 序号3:标题“Time stops for you: Mahindra as he praises PM Modi’s pace of work”,类别Business
    • 序号4:标题“BJP MP Satish Dubey injured after car rams into vehicle in Bihar”,类别Politics

四、 作者与合作者信息

  1. 主要贡献者:REHAM MAYEA
  2. 更新时间:数据集最后更新于一个月前

五、 许可证相关信息

  1. 许可证类型CC0: Public Domain(公有领域协议)
    https://creativecommons.org/publicdomain/zero/1.0/
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 13:21:14

滑轨铰链哪个品牌好耐用?一文详解选型要点与品牌推荐

选择耐用、可靠的滑轨和铰链,是确保橱柜、衣柜等家具长久顺滑使用的关键。面对市场上众多品牌,消费者常常感到困惑。本文将深入解析铰链与滑轨的核心选购要素,并以炬森及其明星产品为例,结合海外品牌及其他国产品牌,为…

作者头像 李华
网站建设 2026/4/29 15:12:46

Swagger UI展示API接口:便于开发者快速接入

Swagger UI展示API接口:便于开发者快速接入 在人工智能模型日益普及的今天,如何让一个训练好的模型真正“用起来”,而不是锁在实验环境中,成为许多团队面临的关键挑战。尤其是对于像 VibeThinker-1.5B-APP 这样专注于数学推理与编…

作者头像 李华
网站建设 2026/5/9 15:44:58

Git commit规范难统一?AI模型帮你自动生成专业提交信息

Git Commit 规范难统一?让 AI 帮你生成专业提交信息 在现代软件开发中,一个看似微不足道的环节——写 Git 提交信息,却常常成为团队协作中的“隐形瓶颈”。我们都有过这样的经历:改完代码,git add . 之后愣住&#xf…

作者头像 李华
网站建设 2026/5/1 19:16:38

ASO应用商店优化:如果上线App,如何命名提高曝光

ASO应用商店优化:如何科学命名App以提升曝光 在今天的移动生态中,哪怕你的App功能再出色、代码再优雅,如果用户根本找不到它,一切努力都可能付诸东流。尤其是在全球应用数量早已突破千万级的背景下,“被看见”比“做得…

作者头像 李华