Pandas read_csv 参数详解
citgpt 2024-10-24 16:21 12 浏览 0 评论
前言
在使用 Pandas 进行数据分析和处理时,read_csv 是一个非常常用的函数,用于从 CSV 文件中读取数据并将其转换成 DataFrame 对象。read_csv 函数具有多个参数,可以根据不同的需求进行灵活的配置。本文将详细介绍 read_csv 函数的各个参数及其用法,帮助大家更好地理解和利用这一功能。
常用参数概述
pandas的 read_csv 函数用于读取CSV文件。以下是一些常用参数:
filepath_or_buffer: 要读取的文件路径或对象。
sep: 字段分隔符,默认为,。
delimiter: 字段分隔符,sep的别名。
header: 用作列名的行号,默认为0(第一行),如果没有列名则设为None。
names: 列名列表,用于结果DataFrame。
index_col: 用作索引的列编号或列名。
usecols: 返回的列,可以是列名的列表或由列索引组成的列表。
dtype: 字典或列表,指定某些列的数据类型。
skiprows: 需要忽略的行数(从文件开头算起),或需要跳过的行号列表。
nrows: 需要读取的行数(从文件开头算起)。
skipfooter: 文件尾部需要忽略的行数。
encoding: 文件编码(如'utf-8','latin-1'等)。
parse_dates: 将某些列解析为日期。
infer_datetime_format: 如果 True 且 parse_dates 未指定,那么将尝试解析日期。
iterator: 如果 True,返回 TextFileReader 对象,用于逐块读取文件。
chunksize: 每个块的行数,用于逐块读取文件。
compression: 压缩格式,例如 'gzip' 或 'xz'
filepath_or_buffer要读取的文件路径或对象
filepath_or_buffer: FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]可以接收3种类型,文件路径,读取文件的bytes, 读取文件的str。
可以接受任何有效的字符串路径。该字符串可以是 URL。有效的 URL 方案包括 http、ftp、s3、gs 和 file。对于文件 URL,需要主机。本地文件可以是:file://localhost/path/to/table.csv。
想传入一个路径对象,pandas 接受任何 Path
类文件对象是指具有 read() 方法的对象,例如文件句柄(例如通过内置 open 函数)或 StringIO。
示例如下:
# 读取字符串路径
import pandas
from pathlib import Path
# 1.相对路径,或文件绝对路径
df1 = pandas.read_csv('data.csv')
print(df1)
# 文件路径对象Path
file_path = Path(__file__).parent.joinpath('data.csv')
df2 = pandas.read_csv(file_path)
print(df2)
# 读取url地址
df3 = pandas.read_csv('http://127.0.0.1:8000/static/data.csv')
print(df3)
# 读取文件对象
with open('data.csv', encoding='utf8') as fp:
df4 = pandas.read_csv(fp)
print(df4)
sep: 字段分隔符,默认为,
sep 字段分隔符,默认为,
delimiter(同sep,分隔符)
示例如下:
df1 = pandas.read_csv('data.csv', sep=',')
print(df1)
df2 = pandas.read_csv('data.csv', delimiter=',')
print(df2)
header 用作列名的行号
header: 指定哪一行作为列名,默认为0,即第一行,如果没有列名则设为None。
如下数据,没有header
张三,男,22,123@qq.com
李四,男,23,222@qq.com
王五,女,24,233@qq.com
张六,男,22,123@qq.com
# 读取示例
df6 = pandas.read_csv('data2.csv', header=None)
print(df6)
names自定义列名
names自定义列名,如果header=None,则可以使用该参数。
df6 = pandas.read_csv(
'data2.csv',
header=None,
names=['姓名', '性别', '年龄', '邮箱'])
print(df6)
index_col 用作行索引的列编号或列名
index_col参数在使用pandas的read_csv函数时用于指定哪一列作为DataFrame的索引。
如果设置为None(默认值),CSV文件中的行索引将用作DataFrame的索引。如果设置为某个列的位置(整数)或列名(字符串),则该列将被用作DataFrame的索引。
import pandas as pd
# 我们想要将'`email`'列作为DataFrame的索引
df8 = pd.read_csv('data.csv', index_col='email')
print(df8)
# 或者,如果我们知道'email'列在第4列的位置,也可以这样指定
df9 = pd.read_csv('data.csv', index_col=3)
print(df9)
usecols 读取指定的列
usecols 读取指定的列,可以是列名或列编号。
import pandas as pd
# 1.指定列的编号
df10 = pd.read_csv('data.csv', usecols=[0, 1])
print(df10)
# 2.指定列的名称
df11 = pd.read_csv('data.csv', usecols=['name', 'sex'])
print(df11)
skiprows 、nrows 和skipfooter
skiprows: 需要忽略的行数(从文件开头算起),或需要跳过的行号列表。
nrows: 需要读取的行数(从文件开头算起)
skipfooter: 文件尾部需要忽略的行数。
示例如下:
# skiprpws忽略的行数
import pandas as pd
# 跳过前面2行
df15 = pd.read_csv('data.csv', skiprows=2)
print(df15)
# nrows 需要读取的行数
import pandas as pd
# 读取前面2行
df15 = pd.read_csv('data.csv', nrows=2)
print(df15)
# 文件尾部需要忽略的行数
import pandas as pd
# 忽略文件尾部3行
df15 = pd.read_csv('data.csv', skipfooter=3)
print(df15)
parse_dates 将某些列解析为日期
示例如下:
name,time,date
Bob,21:33:30,2019-10-10
Jerry,21:30:15,2019-10-10
Tom,21:25:30,2019-10-10
Vince,21:20:10,2019-10-10
Hank,21:40:15,2019-10-10
import pandas as pd
# 1.指定列的编号
df16 = pd.read_csv('data.csv')
print(df16)
-------------
# 结果如下:
name time date
0 Bob 21:33:30 2019-10-10
1 Jerry 21:30:15 2019-10-10
2 Tom 21:25:30 2019-10-10
3 Vince 21:20:10 2019-10-10
4 Hank 21:40:15 2019-10-10
默认读取的date日期是字符串类型,使用parse_dates 参数转成datetime类型。
import pandas as pd
df16 = pd.read_csv('ddd.csv')
print(df16.to_dict()) # 'date': {0: '2019-10-10', 1: '2019-10-10',
df17 = pd.read_csv('ddd.csv', parse_dates=['date'])
print(df17.to_dict()) # 'date': {0: Timestamp('2019-10-10 00:00:00')
总结
通过本文的介绍,大家应该对 Pandas 中 read_csv 函数的参数有了更全面的了解。在实际应用中,根据数据的特点和处理需求,灵活使用 read_csv 的各种参数,可以更轻松、高效地进行数据读取和预处理,为数据分析和建模提供更好的基础。
相关推荐
- js中arguments详解
-
一、简介了解arguments这个对象之前先来认识一下javascript的一些功能:其实Javascript并没有重载函数的功能,但是Arguments对象能够模拟重载。Javascrip中每个函数...
- firewall-cmd 常用命令
-
目录firewalldzone说明firewallzone内容说明firewall-cmd常用参数firewall-cmd常用命令常用命令 回到顶部firewalldzone...
- epel-release 是什么
-
EPEL-release(ExtraPackagesforEnterpriseLinux)是一个软件仓库,它为企业级Linux发行版(如CentOS、RHEL等)提供额外的软件包。以下是关于E...
- FullGC详解 什么是 JVM 的 GC
-
前言:背景:一、什么是JVM的GC?JVM(JavaVirtualMachine)。JVM是Java程序的虚拟机,是一种实现Java语言的解...
-
2024-10-26 08:50 citgpt
- 跨域(CrossOrigin)
-
1.介绍 1)跨域问题:跨域问题是在网络中,当一个网络的运行脚本(通常时JavaScript)试图访问另一个网络的资源时,如果这两个网络的端口、协议和域名不一致时就会出现跨域问题。 通俗讲...
- 微服务架构和分布式架构的区别
-
1、含义不同微服务架构:微服务架构风格是一种将一个单一应用程序开发为一组小型服务的方法,每个服务运行在自己的进程中,服务间通信采用轻量级通信机制(通常用HTTP资源API)。这些服务围绕业务能力构建并...
- 深入理解与应用CSS clip-path 属性
-
clip-pathclip-path是什么clip-path 是一个CSS属性,允许开发者创建一个剪切区域,从而决定元素的哪些部分可见,哪些部分会被隐...
-
2024-10-25 11:51 citgpt
- Request.ServerVariables 大全
-
Request.ServerVariables("Url")返回服务器地址Request.ServerVariables("Path_Info")客户端提供的路...
- python操作Kafka
-
目录一、python操作kafka1.python使用kafka生产者2.python使用kafka消费者3.使用docker中的kafka二、python操作kafka细...
- Runtime.getRuntime().exec详解
-
Runtime.getRuntime().exec详解概述Runtime.getRuntime().exec用于调用外部可执行程序或系统命令,并重定向外部程序的标准输入、标准输出和标准错误到缓冲池。...
- promise.all详解 promise.all是干什么的
-
promise.all详解promise.all中所有的请求成功了,走.then(),在.then()中能得到一个数组,数组中是每个请求resolve抛出的结果...
-
2024-10-24 16:21 citgpt
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- oracleclient (56)
- springbatch (59)
- oracle恢复数据 (56)
- 简单工厂模式 (68)
- 函数指针 (72)
- fill_parent (135)
- java配置环境变量 (140)
- linux文件系统 (56)
- 计算机操作系统教程 (60)
- 静态ip (63)
- notifyicon (55)
- 线程同步 (58)
- xcode 4 5 (60)
- 调试器 (60)
- c0000005 (63)
- html代码大全 (61)
- header utf 8 (61)
- 多线程多进程 (65)
- require_once (60)
- 百度网盘下载速度慢破解方法 (72)
- 谷歌浏览器免费入口 (72)
- npm list (64)
- 网站打开速度检测 (59)
- 网站建设流程图 (58)
- this关键字 (67)