news 2026/1/3 8:08:17

数据集初识

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
数据集初识

1.在线加载数据集

代码:

importos# 设置环境变量,所有Hugging Face请求都会通过镜像站os.environ['HF_ENDPOINT']='https://hf-mirror.com'fromdatasetsimportload_dataset,load_from_disk#在线加载数据集datasets=load_dataset(path="lansinuote/ChnSentiCorp",cache_dir="data/")print(datasets)

运行结果:

To support symlinks on Windows,you either need to activate Developer Modeorto run Pythonasan administrator.In order to activate developer mode,see this article:https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development warnings.warn(message)Generating train split:100%|██████████|9600/9600[00:00<00:00,157051.44examples/s]Generating validation split:100%|██████████|1200/1200[00:00<00:00,280524.18examples/s]Generating test split:100%|██████████|1200/1200[00:00<00:00,344619.29examples/s]DatasetDict({train:Dataset({features:['text','label'],num_rows:9600})validation:Dataset({features:['text','label'],num_rows:1200})test:Dataset({features:['text','label'],num_rows:1200})})进程已结束,退出代码为0
#### **加载统计**: |数据集划分 |样本数量 |加载速度 |用时 | |-------|------|----------|-----| |**训练集**|9,600条|157,051条/秒|<0.1秒| |**验证集**|1,200条|280,524条/秒|<0.1秒| |**测试集**|1,200条|344,619条/秒|<0.1秒|

2.离线加载数据集

首先,将缓存数据保存到磁盘

# 2. 保存到磁盘save_path=r"D:\develop\pypro\LLM\LLMPro\01-大模型应用基础\data\chn_senti_corp_saved"datasets.save_to_disk(save_path)print(f"\n 数据集已保存到:{save_path}")

其次,离线加载数据集,并输出train训练集数据

dataset=load_from_disk(r"D:\develop\pypro\LLM\LLMPro\01-大模型应用基础\data\chn_senti_corp_saved")forkindataset["train"]:print(k)

训练集结果输出text和label两个特征量:

{'text':'这书我看他的丰面时就感觉它是给我一个希望的书,可一看和我的想反了.没什么帮助的.就是觉的失败','label':0}{'text':'内存数量配置偏低 内存插槽于掌托下,需拆卸安装,不方便 蓝牙模块采用软件控制','label':0}.........{'text':'虽是观景房,不过我住的楼层太低(19楼)看不到江景,但地点很好,离轻轨临江门站和较场口站(起点)很近,解放碑就在附近(大约100多公尺吧)!','label':1}{'text':'性价比不错,交通方便。行政楼层感觉很好,只是早上8点楼上装修,好吵。 中餐厅档次太低,虽然便宜,但是和酒店档次不相配。','label':1}{'text':'跟心灵鸡汤没什么本质区别嘛,至少我不喜欢这样读经典,把经典都解读成这样有点去中国化的味道了','label':0}进程已结束,退出代码为0


在这里数据集是.arrow格式的,一般我们自建的数据集是.csv格式的,加载代码如下:

dataset=load_dataset(r"D:\develop\pypro\LLM\LLMPro\01-大模型应用基础\data\mobile_test01.csv")

如果想将.arrow格式的转换为.csv格式,可以试一试以下代码:

datasets.to_csv(path_or_buf=r"D:\develop\pypro\LLM\LLMPro\01-大模型应用基础\data\chn_senti_corp_saved.csv")
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/13 17:21:18

java调用MySQL数据库的存储过程和自定义函数

一、什么是存储过程&#xff1f;1、存储过程的定义存储过程&#xff08;Stored Procedure&#xff09;是一组预编译并存储在 MySQL 服务器中的 SQL 语句集合&#xff0c;可通过名称调用执行&#xff0c;支持参数传递、流程控制&#xff08;条件、循环&#xff09;、异常处理等特…

作者头像 李华
网站建设 2025/12/13 17:20:40

【C++初阶】6.C++ 栈和队列详解(含模拟实现及其代码)

目录 一、相关题目 1. 最小栈 (LeetCode 155) 2. 栈的压入、弹出序列 (Nowcoder) 3. 二叉树的层序遍历 (LeetCode 102) 二、栈模拟实现&#xff08;vector版本&#xff09; 1. 适配器 2. 模拟实现 3. 模板按需实例化 三、队列模拟实现&#xff08;list版本&#xff09…

作者头像 李华
网站建设 2025/12/13 17:20:21

java计算机毕业设计社区物品交换平台的管理与实现 基于SpringBoot的社区闲置资源分享平台 JavaWeb社区二手物品流通与捐赠系统

计算机毕业设计社区物品交换平台的管理与实现u908q9 &#xff08;配套有源码 程序 mysql数据库 论文&#xff09; 本套源码可以在文本联xi,先看具体系统功能演示视频领取&#xff0c;可分享源码参考。“旧物堆成山&#xff0c;扔掉可惜&#xff0c;卖掉麻烦”——这是多数家庭的…

作者头像 李华
网站建设 2025/12/13 17:18:39

Whisper语音识别模型深度解析:从架构原理到实战应用

Whisper语音识别模型深度解析&#xff1a;从架构原理到实战应用 【免费下载链接】whisper-tiny.en 项目地址: https://ai.gitcode.com/hf_mirrors/openai/whisper-tiny.en Whisper是OpenAI推出的基于大规模弱监督训练的语音识别模型&#xff0c;通过Transformer编码器-…

作者头像 李华
网站建设 2025/12/13 17:17:17

解密umi微前端:从单体应用到分布式架构的实战演进

大型前端项目开发中&#xff0c;你是否面临过这些痛点&#xff1a;构建时间越来越长、团队协作效率低下、技术升级困难重重&#xff1f;微前端架构正是为解决这些问题而生。本文将带你深入理解umi微前端的实现原理&#xff0c;并通过实际案例展示如何将单体应用优雅拆分为分布式…

作者头像 李华