当前位置：首页 > 技术 > 正文内容

Pandas 快速参考指南

访客技术 2026年6月4日 47

初始化与导入 --------

在本文中，我们将使用以下简写：

data_frame：表示任意的 Pandas DataFrame 实例

同时需要导入库如下：

import pandas as pd

加载数据 ----

pd.read_csv(文件路径)：从 CSV 文件读取数据
pd.read_table(文件路径, sep='分隔符')：从文本文件读取数据，指定分隔符
pd.read_excel(工作簿路径)：从 Excel 文件读取数据
pd.read_sql(query, 数据库连接)：从 SQL 数据库读取数据
pd.read_json(json字符串)：从 JSON 字符串读取数据
pd.read_html(url)：从网页解析表格
pd.read_clipboard()：从剪贴板读取内容，并传给 read_table()
pd.DataFrame(dict_data)：从字典创建 DataFrame，键作为列名，值作为数据

导出数据 ----

data_frame.to_csv(文件名)：保存为 CSV 文件
data_frame.to_excel(文件名)：保存为 Excel 文件
data_frame.to_sql(表名, 数据库连接)：保存到 SQL 表
data_frame.to_json(文件名)：以 JSON 格式保存数据

生成测试数据集 ------

pd.DataFrame(np.random.rand(20,5))：创建一个包含随机数的 20x5 DataFrame
pd.Series(iterable_data)：从可迭代对象创建 Series
data_frame.index = pd.date_range('起始日期', periods=data_frame.shape[0])：设置日期索引

浏览和检查数据 -------

data_frame.head(n)：显示前 n 行
data_frame.tail(n)：显示后 n 行
data_frame.shape：查看行数和列数
data_frame.info()：显示索引、数据类型及内存信息
data_frame.describe()：展示数值列的基本统计信息
series.value_counts(dropna=False)：显示唯一值及其计数
data_frame.apply(pd.Series.value_counts)：对每一列应用 value_counts 方法

选取数据 ----

data_frame[列名]：按列名选取，返回 Series
data_frame[[列名1, 列名2]]：选取多列，返回 DataFrame
series.iloc[位置]：通过位置索引选取元素
series.loc['标签']：通过标签选取元素
data_frame.iloc[0,:]：获取第一行
data_frame.iloc[0,0]：获取第一个单元格的内容

数据清洗 ----

data_frame.columns = ['a','b','c']：重命名所有列
pd.isna()：检测缺失值
pd.notna()：检测非缺失值
data_frame.dropna()：删除含有任何缺失值的行
data_frame.dropna(axis=1)：删除含有任何缺失值的列
data_frame.fillna(值)：用指定值填充缺失值
series.astype(float)：转换数据类型为浮点型
series.replace(旧值, 新值)：替换特定值
data_frame.rename(columns={'旧名':'新名'})：更改列名
data_frame.set_index('列名')：设定新的索引列

数据操作：筛选、排序与分组 --------------------------

data_frame[data_frame[列名] > 数值]：根据条件筛选行
data_frame.sort_values(by=列名)：按指定列排序，默认升序
data_frame.groupby(列名)：按某列进行分组
data_frame.pivot_table(index=列名, values=[列名1, 列名2], aggfunc=max)：创建数据透视表

数据整合 ----

pd.concat([df1, df2], axis=1)：沿列方向合并两个 DataFrame
df1.merge(df2, on='公共列', how='inner')：基于共同列进行内连接

数据分析 ----

data_frame.mean()：计算每列的平均值
data_frame.corr()：计算相关系数矩阵
data_frame.count()：统计每列的有效值数量
data_frame.max()：找出每列的最大值
data_frame.min()：找出每列的最小值
data_frame.median()：计算每列的中位数
data_frame.std()：计算每列的标准差

标签: Pandas data-analysis Python

返回列表

上一篇：Elixir中Bamboo的三种异步邮件发送方案

下一篇：使用 Expect 实现自动化交互操作

Linux crontab 详解

1) crontab 是什么cron 是 Linux 的定时任务守护进程；crontab 是用来编辑/查看“按时间周期执行命令”的表（cron table）。常见两类：用户 crontab：每个用户一份（crontab -e 编辑）系统级 crontab / cron.d：可指定执行用户（/etc/crontab、/etc/cron.d/*）2) crontab 时间...

富文本里可以允许的 HTML 属性

一、所有标签默认允许的安全属性（极少）class （可选）id （通常建议禁用）title️ 注意：id 容易被滥用做锚点注入，很多系统直接禁用class 允许的话最好只允许固定前缀（如 editor-*）二、a 标签允许属性<a href="" t...

方法一：通过官网安装包（最简单，适合初学者）如果你只是想快速安装并开始使用，这是最直接的方法。访问 Node.js 官网。页面会显示两个版本：LTS (Recommended For Most Users)：长期支持版，最稳定。建议选这个。Current：最新特性版，包含最新功能但可能不够稳定。下载 .pkg 安装包并运行。按照安装向导点击“下一步”即可完成。方法二：使用 Homebrew 安装（...

Dom\HTML_NO_DEFAULT_NS 的副作用：自动加闭合标签

在使用Dom\HTMLDocument时，Dom\HTML_NO_DEFAULT_NS 将禁止在解析过程中设置元素的命名空间, 此设置是为了与DOMDocument向后兼容而存在的。当使用它时，已知的一个副作用就是：自动加闭合标签例如 </img> 为什么会这样？当你使用：Dom\HTML_NO_DEFAULT_NS文档会变成无命名空间模式，此时内部更接近 XML...

Laravel 事件和监听器创建

在 Laravel 中，使用 Artisan 命令创建 Events（事件）和 Listeners（监听器）是非常高效的。你可以通过以下几种方式来实现：1. 手动创建单个 Event如果你只想创建一个事件类，可以使用 make:event 命令：Bashphp artisan make:event UserRegistered执行后，文件将生成在 app/Even...

自定义域名解析神器 dnsmasq

什么是 dnsmasq？dnsmasq 是一个轻量级、功能强大的网络服务工具，专为小型和中等规模网络设计。它是一个综合的网络基础设施解决方案[1]。dnsmasq 能做什么？功能说明应用场景DNS 转发与缓存将 DNS 查询转发到上游服务器（ISP、Google DNS 等），并在本地缓存结果加快 DNS 查询速度，减少外部 DNS 流量本地 DNS解析本地网络设备的主机名，无需编辑&n...

老程序员博客

Pandas 快速参考指南

相关文章

Linux crontab 详解

富文本里可以允许的 HTML 属性

Mac 安装 Node.js 指南

Dom\HTML_NO_DEFAULT_NS 的副作用：自动加闭合标签

Laravel 事件和监听器创建

自定义域名解析神器 dnsmasq

发表评论

Copyright © agingcoder.cn

Powered By Z-BlogPHP. Theme by TOYEAN.

老程序员博客

Pandas 快速参考指南

相关文章

Linux crontab 详解

富文本里可以允许的 HTML 属性

Mac 安装 Node.js 指南

Dom\HTML_NO_DEFAULT_NS 的副作用：自动加闭合标签

Laravel 事件和监听器创建

自定义域名解析神器 dnsmasq

发表评论取消回复

Copyright © agingcoder.cn

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论