Pandas read_csv 参数详解

citgpt 2024-10-24 16:21 12 浏览 0 评论

前言

在使用 Pandas 进行数据分析和处理时，read_csv 是一个非常常用的函数，用于从 CSV 文件中读取数据并将其转换成 DataFrame 对象。read_csv 函数具有多个参数，可以根据不同的需求进行灵活的配置。本文将详细介绍 read_csv 函数的各个参数及其用法，帮助大家更好地理解和利用这一功能。

常用参数概述

pandas的 read_csv 函数用于读取CSV文件。以下是一些常用参数：

filepath_or_buffer: 要读取的文件路径或对象。

sep: 字段分隔符，默认为,。

delimiter: 字段分隔符，sep的别名。

header: 用作列名的行号，默认为0（第一行），如果没有列名则设为None。

names: 列名列表，用于结果DataFrame。

index_col: 用作索引的列编号或列名。

usecols: 返回的列，可以是列名的列表或由列索引组成的列表。

dtype: 字典或列表，指定某些列的数据类型。

skiprows: 需要忽略的行数（从文件开头算起），或需要跳过的行号列表。

nrows: 需要读取的行数（从文件开头算起）。

skipfooter: 文件尾部需要忽略的行数。

encoding: 文件编码（如'utf-8'，'latin-1'等）。

parse_dates: 将某些列解析为日期。

infer_datetime_format: 如果 True 且 parse_dates 未指定，那么将尝试解析日期。

iterator: 如果 True，返回 TextFileReader 对象，用于逐块读取文件。

chunksize: 每个块的行数，用于逐块读取文件。

compression: 压缩格式，例如 'gzip' 或 'xz'

filepath_or_buffer要读取的文件路径或对象

filepath_or_buffer: FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]可以接收3种类型，文件路径，读取文件的bytes，读取文件的str。

可以接受任何有效的字符串路径。该字符串可以是 URL。有效的 URL 方案包括 http、ftp、s3、gs 和 file。对于文件 URL，需要主机。本地文件可以是：file://localhost/path/to/table.csv。

想传入一个路径对象，pandas 接受任何 Path

类文件对象是指具有 read() 方法的对象，例如文件句柄（例如通过内置 open 函数）或 StringIO。

示例如下：

# 读取字符串路径

import pandas

from pathlib import Path

# 1.相对路径，或文件绝对路径

df1 = pandas.read_csv('data.csv')

print(df1)

# 文件路径对象Path

file_path = Path(__file__).parent.joinpath('data.csv')

df2 = pandas.read_csv(file_path)

print(df2)

# 读取url地址

df3 = pandas.read_csv('http://127.0.0.1:8000/static/data.csv')

print(df3)

# 读取文件对象

with open('data.csv', encoding='utf8') as fp:

df4 = pandas.read_csv(fp)

print(df4)

sep: 字段分隔符，默认为,

sep 字段分隔符，默认为,

delimiter（同sep，分隔符）

示例如下：

df1 = pandas.read_csv('data.csv', sep=',')

print(df1)

df2 = pandas.read_csv('data.csv', delimiter=',')

print(df2)

header 用作列名的行号

header: 指定哪一行作为列名，默认为0，即第一行，如果没有列名则设为None。

如下数据，没有header

张三,男,22,123@qq.com

李四,男,23,222@qq.com

王五,女,24,233@qq.com

张六,男,22,123@qq.com

# 读取示例

df6 = pandas.read_csv('data2.csv', header=None)

print(df6)

names自定义列名

names自定义列名，如果header=None，则可以使用该参数。

df6 = pandas.read_csv(

'data2.csv',

header=None,

names=['姓名', '性别', '年龄', '邮箱'])

print(df6)

index_col 用作行索引的列编号或列名

index_col参数在使用pandas的read_csv函数时用于指定哪一列作为DataFrame的索引。

如果设置为None（默认值），CSV文件中的行索引将用作DataFrame的索引。如果设置为某个列的位置（整数）或列名（字符串），则该列将被用作DataFrame的索引。

import pandas as pd

# 我们想要将'`email`'列作为DataFrame的索引

df8 = pd.read_csv('data.csv', index_col='email')

print(df8)

# 或者，如果我们知道'email'列在第4列的位置，也可以这样指定

df9 = pd.read_csv('data.csv', index_col=3)

print(df9)

usecols 读取指定的列

usecols 读取指定的列，可以是列名或列编号。

import pandas as pd

# 1.指定列的编号

df10 = pd.read_csv('data.csv', usecols=[0, 1])

print(df10)

# 2.指定列的名称

df11 = pd.read_csv('data.csv', usecols=['name', 'sex'])

print(df11)

skiprows 、nrows 和skipfooter

skiprows: 需要忽略的行数（从文件开头算起），或需要跳过的行号列表。

nrows: 需要读取的行数（从文件开头算起）

skipfooter: 文件尾部需要忽略的行数。

示例如下：

# skiprpws忽略的行数

import pandas as pd

# 跳过前面2行

df15 = pd.read_csv('data.csv', skiprows=2)

print(df15)

# nrows 需要读取的行数

import pandas as pd

# 读取前面2行

df15 = pd.read_csv('data.csv', nrows=2)

print(df15)

# 文件尾部需要忽略的行数

import pandas as pd

# 忽略文件尾部3行

df15 = pd.read_csv('data.csv', skipfooter=3)

print(df15)

parse_dates 将某些列解析为日期

示例如下：

name,time,date

Bob,21:33:30,2019-10-10

Jerry,21:30:15,2019-10-10

Tom,21:25:30,2019-10-10

Vince,21:20:10,2019-10-10

Hank,21:40:15,2019-10-10

import pandas as pd

# 1.指定列的编号

df16 = pd.read_csv('data.csv')

print(df16)

-------------

# 结果如下：

name time date

0 Bob 21:33:30 2019-10-10

1 Jerry 21:30:15 2019-10-10

2 Tom 21:25:30 2019-10-10

3 Vince 21:20:10 2019-10-10

4 Hank 21:40:15 2019-10-10

默认读取的date日期是字符串类型，使用parse_dates 参数转成datetime类型。

import pandas as pd

df16 = pd.read_csv('ddd.csv')

print(df16.to_dict()) # 'date': {0: '2019-10-10', 1: '2019-10-10',

df17 = pd.read_csv('ddd.csv', parse_dates=['date'])

print(df17.to_dict()) # 'date': {0: Timestamp('2019-10-10 00:00:00')

总结

通过本文的介绍，大家应该对 Pandas 中 read_csv 函数的参数有了更全面的了解。在实际应用中，根据数据的特点和处理需求，灵活使用 read_csv 的各种参数，可以更轻松、高效地进行数据读取和预处理，为数据分析和建模提供更好的基础。

Pandas read_csv 参数详解

相关推荐

取消回复欢迎你发表评论:

专业软文推广代发公司软文推广代理平台

VB6.0中SQL经典接法（vb sql语句）

一键生成通用高亮代码块到剪贴板，可粘贴到在线编辑器

十大免费的软文推广平台，帮助企业提高品牌知名度、曝光度

西门子触摸屏VBScript编程系列教程(1)——简介

QML性能优化的一些建议!（qml优缺点）

C++栈溢出攻击（栈溢出攻击）

链动2+1模式与推三返一模式:电商营销策略的融合与创新

高防CDN在游戏行业中的应用(提供稳定流畅的游戏体验)

开源调试器x64dbg-Browse/snapshots

Pandas read_csv 参数详解

相关推荐

取消回复欢迎 你 发表评论:

专业软文推广代发公司 软文推广代理平台

VB6.0中SQL经典接法（vb sql语句）

一键生成通用高亮代码块到剪贴板，可粘贴到在线编辑器

十大免费的软文推广平台，帮助企业提高品牌知名度、曝光度

西门子触摸屏VBScript编程系列教程(1)——简介

QML性能优化的一些建议!（qml优缺点）

C++栈溢出攻击（栈溢出 攻击）

链动2+1模式与推三返一模式:电商营销策略的融合与创新

高防CDN在游戏行业中的应用(提供稳定流畅的游戏体验)

开源调试器x64dbg-Browse/snapshots

取消回复欢迎你发表评论:

专业软文推广代发公司软文推广代理平台

C++栈溢出攻击（栈溢出攻击）