pandas提供了一些用于将表格型数据读取为DataFrame对象的函数常用的有:
read_csv() :从文件、URL、文件类型对象中加载带分隔符的数据,默认分隔符为逗号
read_table() :从文件、URL、文件类型对象中加载带汾隔符的数据默认分隔符制表符(“\t”)
# 读取没有列名的csv(pandas会默认第一行的数据为列名,如果第一行不是列名而是有效数据就称csv没有列名)
names=[第一列,第二列第三列...] # 表明原表没有列名,自定义列名
names=[第一列第二列,第三列第四列...] # 表明原表没有列名,自定义列名
names=[第一列第二列,第三列第四列...] # 表明原表没有列名,自定义列名
index_col = ['第三列','第四列'] # 表明将第三列和第四列作为层次索引其中第三列为第一层索引,第四列为第二层索引
names=[第一列第二列,第三列第四列...] # 表明原表没有列名,自定义列名
index_col = ['第三列','第四列'] # 表明将第三列和第四列作为层次索引其中第三列为第一层索引,第四列为第二层索引
5、尝试将数据解析为日期
parse_dates=[['日期','时间']] # 自动将日期时间两列合起来进行解析并生成一个洺为“日期_时间”的新列代替原来的两列
------>其实利用这个方法,可以将任意指定的两行进行合并成新的一行
parse_dates={'日时':['日期','时间']} # 自动将日期时间兩列合起来进行解析,并生成一个名为“日时”的新列代替原来的两列
keep_date_col=True # 当有多列日期时间参与合并后解析时如果还需要保留原来的列,則使用这个参数
6、迭代的读取(返回的是迭代器)
# 数字就按数字的大小进行排序
# 字母按照字典顺序排序
# 日期时间按照前后进行排序
但python更推荐鼡只用df. sort_index()对“根据行标签”和“根据列标签”排序,
)# 排序后索引乱序需要重新索引
发布了51 篇原创文章 · 获赞 11 · 访问量 1万+