Pandas数据操作归纳总结
Pandas建立在NumPy之上,旨在与许多其他第三方库完美地集成在科学计算环境中。它的两个主要数据结构是Series(1维)和DataFrame(2维)。
一、Pandas数据结构:一维数组(Series)
1、创建Series
Series是一个一维的数据类型,其中每一个元素都有一个标签。类似于Numpy中元素带标签的数组。其中,标签可以是数字或者字符串。
1 | import numpy as np |
2、Series的索引
Series对象提供了几种不同的索引方法。
(1)枚举索引
枚举索引按照index值进行索引。
index值默认使用下标,下标总是从0开始的,而且索引值总是数字。也可以用关键字为index赋值,关键字既可以是数字,也可以是字符串等。
1 | import numpy as np |
(2)布尔索引
1 | import numpy as np |
(3)切片索引
切片索引使用的是下标,不会受到index的影响
1 | import numpy as np |
二、Pandas数据结构:数据表(Dataframe)
Pandas提供了一种名为Dataframe的二维表结构。可以把DataFrame想象成一个电子表格,它由行名(index)、列名(columns)和数据(values)组成。
1、创建Dataframe
(1)从字典创建
1 | import numpy as np |
(2)从Series创建
1 | import numpy as np |
(3)从二维数组直接创建
由二维数组直接创建DataFrame,得到一样形状的结果数据,如果不指定index和columns,两者均返回默认数字格式
1 | import numpy as np |
2、Dataframe的查看
1 | import numpy as np |
3、Dataframe的遍历
1 | # -*- coding: utf-8 -*- |
4、设置Dataframe的索引
(1)普通索引
1 | import pandas as pd |
(2)多级索引
1 | import pandas as pd |
5、用Dataframe的索引筛选数据
(1)枚举索引
1 | import numpy as np |
(2)布尔索引
1 | import numpy as np |
(3)切片索引
1 | import numpy as np |
(4)loc和iloc索引
1 | import numpy as np |
5、变更Dataframe字段名
1 | import pandas as pd |
三、Pandas数据 I/O
1 | import numpy as np |
四、Series和DataFrame的基本操作
1、Series和DataFrame添加删除元素
(1)Series添加删除元素
1 | import numpy as np |
(1)DataFrame添加删除元素
1 | import numpy as np |
2、Series和DataFrame数据排重
1 | import numpy as np |
3、Series和DataFrame数据缺失值处理
1 | # -*- coding: utf-8 -*- |
4、Series和DataFrame数据替换和映射
(1)数据替换
1 | import numpy as np |
(2)数据映射
map()函数就是一个数据到一个数据的映射关系,中间没有对数据的增删改
map(function,list)就是将list里面的数据取出来然后用于function
1 | import numpy as np |
5、DataFrame行列变换
(1)使用 numpy 实现转置
1 | import numpy as np |
(2)利用 pandas 多级索引实现转置
stack() 会将数据的列”旋转”为行,新的行索引比原来的行索引低了一个级别(0的级别最高)。
unstack() 将数据的行”旋转”为列,默认旋转的是级别最低的索引。
1 | import numpy as np |
6、DataFrame合并与拆分
(1)堆叠
concat()能够实现轴向数据集的堆叠
1 | import numpy as np |
(2)连接
merge()可根据一个或者多个键将不同的DataFrame连接在一起,类似于SQL数据库中的join操作
1 | import numpy as np |
(3)拆分
1 | import numpy as np |
7、DataFrame排序
1 | import numpy as np |
8、DataFrame分组
1 | # -*- coding: utf-8 -*- |
五、Pandas与数据统计
1、Series的统计
1 | # -*- coding: utf-8 -*- |
2、DataFrame的统计
1 | # -*- coding: utf-8 -*- |