news 2026/6/25 20:45:44

【专辑】AI大模型应用开发入门-拥抱Hugging Face与Transformers生态 - 使用datasets库加载Huggingface数据集

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【专辑】AI大模型应用开发入门-拥抱Hugging Face与Transformers生态 - 使用datasets库加载Huggingface数据集

大家好,我是java1234_小锋老师,最近更新《AI大模型应用开发入门-拥抱Hugging Face与Transformers生态》专辑,感谢大家支持。

本课程主要介绍和讲解Hugging Face和Transformers,包括加载预训练模型,自定义数据集,模型推理,模型微调,模型性能评估等。是AI大模型应用开发的入门必备知识。

使用datasets库加载Huggingface数据集

Huggingface以及魔塔社区提供了很多数据集,我们可以使用这些数据集来训练和微调模型。

我们首先要安装下datasets库。

pip install datasets -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

IMDb 数据集包含电影评论和相应的情感标签(正面或负面)。这个数据集非常适合情感分析和舆情分析的任务。

https://huggingface.co/datasets/stanfordnlp/imdb

我们用里面的测试集和训练集文件。

Parquet是一种‌列式存储文件格式‌,专为高效存储和处理大规模数据设计,广泛应用于大数据生态系统(如Spark、Hadoop)。其核心特点包括:

1‌,高效压缩‌:通过列式存储实现高压缩比(如Snappy、Gzip编码),显著减少磁盘空间占用。‌‌‌

2,查询优化‌:支持映射下推(仅读取所需列)和谓词下推(过滤无效数据),提升查询性能。‌‌ ‌3,嵌套数据支持‌:原生处理复杂嵌套结构(如JSON、Map),无需扁平化存储。‌‌

我们可以通过datasets库的load_dataset()方法来加载数据集。

测试代码:

from datasets import load_dataset ​ # 加载 IMDb 数据集 dataset = load_dataset(path="./imdb") ​ train = dataset['train'] # 获取训练集 test = dataset['test'] # 获取测试集 print(train, type(train)) print(train[0], type(train[0])) # 每个元素是一个字典 print(train[0]['label'], train[0]['text']) print(test, type(test)) ​ # 遍历数据集 for i in train: print(i)

运行输出:

微博评论csv下载

https://www.modelscope.cn/datasets/Sunnyshan/weibo_sentiment

csv文件的数据集获取代码:

from datasets import load_dataset ​ # 加载微博数据集 dataset = load_dataset(path="csv", data_files="./weibo_senti_100k.csv") ​ # 获取数据集 train = dataset['train'] ​ for i in train: print(i)

运行输出:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/20 10:23:03

药捷安康完成配售:募资1.9亿港元 无营收,半年亏损过亿

雷递网 乐天 1月20日药捷安康(南京)科技股份有限公司(简称:“药捷安康”,股份代号:2617)今日宣布完成配售。药捷安康配售价格为92.85港元,发行210万股,募资总额为1.95亿港…

作者头像 李华
网站建设 2026/6/15 22:08:40

别再盲目刷题!C++ 后端面试这样准备,大厂 HR 更认可

为什么要专门分享 C后端 面试题? 后端同学准备面试时,Java 岗位的题库一搜一大把,C 后端的面试内容却又散又乱,很难系统整合。 所以我整理了一份一线互联网大厂的高频 C 后端面试题,直接帮大家省时间。 这份面试题专…

作者头像 李华
网站建设 2026/6/20 14:41:06

计算机毕业设计springboot新冠物资管理 SpringBoot疫情物资调配与追踪系统 SpringBoot突发公卫物资智慧管理平台

计算机毕业设计springboot新冠物资管理f2h4e (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。2020 年以来,突发公共卫生事件让口罩、防护服、检测试剂等物资成为一线“…

作者头像 李华
网站建设 2026/6/22 17:57:41

赋能工作与生活:2026 年 7 大就绪 AI 能力汇总

从"炫酷演示"到"实际应用" 在过去两年中,新一波生成式AI工具已经悄然成熟。这不是那些长期存在的传统AI,也不是仍然困在研究实验室里的实验性产品。 我们讨论的是那些现在真正有效的工具,可以在真实的组织中应用。 不…

作者头像 李华
网站建设 2026/6/22 1:24:34

可信AI--去中心化RAG技术探索

文章目录去中心化RAG技术概述关键技术实现路径典型应用场景挑战与解决方案去中心化RAG技术概述 去中心化RAG(Retrieval-Augmented Generation)结合了区块链或分布式网络技术,将传统集中式知识检索与生成过程分散到多个节点。核心目标是解决数…

作者头像 李华