pytorch深度学习-excle文件读取-平芜编程栈

深度学习有了网络，还得加载进来，读取进来。
常用地方法就是用pandas包
比如我们有个excel文件，名叫"test.xlsx"
文件中我们随便输入一些数：

1 2 3 4 5 6 7 8 9 10 11 12

然后我们用panda包进行读取并且打出来

import pandas as pd data = pd.read_excel('test.xlsx') print(data)

但是打印出来的结果如下：

1 2 3 4 0 5 6 7 8 1 9 10 11 12

可以发现这是一件很奇怪的事情，最左侧对每一行进行了标注序号，从0开始，并且它默认将第一行数据当作了表头，或者说列名。这是因为，pd.read_excel有一个默认的参数"header=0"，0表示第1行，我们可以发现python数据逻辑中的索引都是从0开始的。
为了不让它将第一行作为表的列名，我们可以在读取数据的时候，传给它参数：

import pandas as pd data = pd.read_excel('test.xlsx',header=None) print(data)

打印出的结果：

0 1 2 3 0 1 2 3 4 1 5 6 7 8 2 9 10 11 12

它自动给每一行每一列都添加了索引。

如何查看数据信息

首先我们可以打印出这个数据的大小：

print(data.shape)

也就是（3，4），表示数据是一个3行4列的矩阵。

print(data.info())会打印DataFrame的详细信息。
比如我重新读取一个excel文件，并且打印它的详细信息：

读取excel数据已经完成！ <class 'pandas.core.frame.DataFrame'> RangeIndex: 1500 entries, 0 to 1499 Columns: 800 entries, 0 to 799 dtypes: float64(800) memory usage: 9.2 MB None

它告诉我们有1500，800列，dtypes64（800）说明这800列数据，都是64位浮点型。
我们可以算一下，1个64位的浮点数需要占用64bit，即64/8=8Byte，1500X800个浮点数就需要占用1500X800X8=9.610^6Byte。
也就是9.610^6/1024=9375KB，也就是9375/1024=9.15527 MB≈\approx≈9.2MB。

print(data.describe())打印出的信息是数据的摘要，每一列数据

0 1 ... 798 799 count 1500.000000 1500.000000 ... 1500.000000 1500.000000 mean 1.372601 1.372463 ... 4.958753 4.968210 std 0.685117 0.671365 ... 3.926098 3.953220 min 0.036198 0.031655 ... 0.036077 0.093626 25% 0.854522 0.866613 ... 1.217818 1.179935 50% 1.311026 1.306155 ... 2.404762 2.327359 75% 1.805137 1.796843 ... 8.893706 8.957338 max 4.146413 4.711889 ... 11.713591 12.103350 [8 rows x 800 columns]

它给出了每一列数据的统计信息

如何在读取后取出来索引某些数据

我觉得，pandas的逻辑还是以列为单位保存数据的，因为它会统计每一列的数据的统计信息。
如果要取第i列，那么可以用data[i-1]，比如第1列，就是data[0]。每一列都是Series数据类型：

firstCol = data[0] #取第一列 print(f"firstCol的数据类型：{type(firstCol)}") print(f"data的数据类型：{type(data)}")

最终打印信息如下：
firstCol的数据类型：<class ‘pandas.core.series.Series’>
data的数据类型：<class ‘pandas.core.frame.DataFrame’>

有一种更好操作的方法：
data.iloc[0,:]表示取出来第1行，
data.iloc[:,0]表示取出来第1列
data.iloc[0,0]表示取出来第1行第1列。

.iloc表示按位置提取，这和matab的操作很像。

ABNAN 是 SAP 资产会计中用于往年固定资产的后资本化（Post-Capitalization）的事务码，适用于补录以前年度已投入使用但未入账资产、往年资产价值增加等场景，系统会自动计算并补提

ABNAN 是 SAP 资产会计中用于往年固定资产的后资本化（Post-Capitalization） 的事务码，适用于补录以前年度已投入使用但未入账资产、往年资产价值增加等场景，系统会自动计算并补提以前年度累计折旧，且不允许手工录入累计…

李华

PHP用户信息修改功能实现具象化的庖丁解牛

PHP 用户信息修改功能是高危操作路径，看似“更新几个字段”，实则涉及权限校验、数据验证、审计追踪、并发控制、安全防护五大工程维度。 90% 的数据篡改漏洞（如越权修改、敏感字段泄露、状态不一致） 源于仅实现“能更新”&#…

李华

浏览器插件设想：网页内直接调用Fun-ASR录制并转换语音

浏览器插件设想：网页内直接调用Fun-ASR录制并转换语音在远程办公、在线会议和数字内容消费日益普及的今天，我们每天都在面对一个共同的难题：听到的信息太多，能记住的却太少。一段重要的客户发言、一场关键的技术分享、一次灵感迸…

李华

W5500用于工业网关开发：全面讲解

用W5500打造工业网关：从原理到实战的完整路径你有没有遇到过这样的场景？在开发一个基于STM32的工业数据采集终端时，明明主控性能不弱，但只要一跑LwIP协议栈，系统就变得卡顿、响应延迟飙升，甚至偶尔死机。调…

李华

Reddit社区参与：在MachineLearning板块发起讨论帖

Reddit社区参与：在MachineLearning板块发起讨论帖在AI技术快速渗透日常应用的今天，语音识别已不再是大厂专属的技术壁垒。从智能助手到会议纪要自动生成，越来越多开发者希望拥有一套既能本地运行、又足够轻量高效的端到端ASR系统。然而现实是…

李华

微信公众号推文规划：每周一篇Fun-ASR应用场景解析

Fun-ASR应用场景解析：让语音识别真正落地在智能办公、远程协作和数字化转型加速的今天，会议记录靠手写、培训内容靠回放、客服质检靠人工的时代已经显得格格不入。如何高效地将海量语音转化为结构化文本？如何在保障数据安全的前提下实现自动…

李华