news 2026/2/17 7:19:09

Pandas数据处理技巧全解析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Pandas数据处理技巧全解析

Pandas数据处理技巧全解析

主要章节与要点

  1. UFO 报告数据(uforeports.csv

    • 读取:ufo = pd.read_csv('uforeports.csv')
    • 统计并查看类别分布:ufo['Shape Reported'].value_counts(dropna=False)(包括缺失值)
    • 填充缺失值:ufo['Shape Reported'].fillna(value='VARIOUS', inplace=True)将缺失值用VARIOUS替换
    • 常见行/列选择:使用loc选择指定行/列(例如ufo.loc[[0,1,2], :]ufo.loc[:, ['Colors Reported','Shape Reported','State']]
    • 条件过滤:ufo[ufo.City == 'Oakland']ufo.loc[ufo.City == 'Oakland','State']
    • 用例演示:删除列(.drop())、查看尾部数据(.head()/.tail()等)
  2. pandas 索引(Index)及drinksbycountry.csv

    • 读取:drinks = pd.read_csv('drinksbycountry.csv')
    • 查看索引与列:drinks.indexdrinks.columnsdrinks.shape
    • 将列设为索引:drinks.set_index('country', inplace=True),随后可用drinks.loc['Brazil','beer_servings']用国家名访问行。
    • 重置索引并恢复默认整数索引:drinks.reset_index(inplace=True)
    • 修改索引名称:drinks.index.name = 'country'drinks.index.name = None
    • 按索引或列进行统计:drinks.describe()和对统计结果的定位(例如drinks.describe().loc['25%','beer_servings']
  3. 选择多行多列与位置索引

    • loc用法:基于标签选择行列(可用行标签切片、列表或布尔掩码)。
    • iloc用法:基于整数位置选择(例如ufo.iloc[:,0:4])。
    • 列范围切片:ufo.loc[:, 'Colors Reported':'Time'](使用列名范围切片)
  4. 其它实用示例

    • 读取无表头、使用自定义分隔符的文件:pd.read_table('movieusers.csv', header=None, sep='|')
    • 统计并排序:drinks.continent.value_counts().sort_index()

关键代码片段(摘录并简短说明)

  • 填充缺失值并统计:
ufo['Shape Reported'].value_counts(dropna=False)ufo['Shape Reported'].fillna(value='VARIOUS',inplace=True)ufo['Shape Reported'].value_counts()

说明:先查看包含 NaN 的统计,再用fillna填充,最后确认填充结果。

  • 索引设置与定位:
drinks=pd.read_csv('drinksbycountry.csv')drinks.set_index('country',inplace=True)drinks.loc['Brazil','beer_servings']

说明:把country设置为索引后,可直接用国家名定位对应行的数据。

  • loc/iloc示例:
# 基于标签选择:ufo.loc[[0,1,2],:]# 基于位置选择:ufo.iloc[:,0:4]# 选择列范围:ufo.loc[:,'Colors Reported':'Time']
  • 描述性统计定位:
drinks.describe().loc['25%','beer_servings']
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/6 22:23:58

DeepFlow终极指南:5分钟搞定云原生应用零代码监控部署

DeepFlow作为一款革命性的开源可观测性平台,通过创新的eBPF技术实现了零代码全栈监控,让云原生应用的性能监控变得前所未有的简单。无论你是开发新手还是运维专家,都能快速上手这款强大的工具。 【免费下载链接】deepflow DeepFlow 是云杉网络…

作者头像 李华
网站建设 2026/2/17 2:02:33

高效构建智能应用的完整方法指南

高效构建智能应用的完整方法指南 【免费下载链接】Awesome-Dify-Workflow 分享一些好用的 Dify DSL 工作流程,自用、学习两相宜。 Sharing some Dify workflows. 项目地址: https://gitcode.com/GitHub_Trending/aw/Awesome-Dify-Workflow 想要快速开发智能应…

作者头像 李华
网站建设 2026/2/14 2:34:53

Hunyuan3D-2终极指南:从零掌握开源3D生成模型的核心技术

Hunyuan3D-2终极指南:从零掌握开源3D生成模型的核心技术 【免费下载链接】Hunyuan3D-2 High-Resolution 3D Assets Generation with Large Scale Hunyuan3D Diffusion Models. 项目地址: https://gitcode.com/GitHub_Trending/hu/Hunyuan3D-2 在当今AI技术飞…

作者头像 李华
网站建设 2026/2/16 21:49:03

18、配置和管理FTP服务器全攻略

配置和管理FTP服务器全攻略 1. FTP简介 文件传输协议(FTP)是一种互联网协议,既适用于互联网上的文件传输,也可在本地网络中使用。日常从网站下载文件,大概率就用到了FTP。而且,在系统上安装和配置FTP十分便捷。接下来将详细介绍如何安装和配置FTP服务器,以及使用FTP客…

作者头像 李华
网站建设 2026/2/7 19:38:35

音元系统:附录

音节的构成 根据音元分析法说明音节的构成,具体内容是制作每个音节具体由哪个首音和哪个干音构成的音节表。制作音元分析的音节总表,既可根据首音差异分类制表也可根据韵音的音质的差异分类制表。 根据首音差异分类制表就是把首音相同干音不同的音节录…

作者头像 李华