在数据分析中,Python的主要探索函数
Python中主要用于书探索的是pandas(数据分析)和matplotlib(数据可视化).其中pandas提供了大量的数据探索的工具与数据相关的函数,这些数据探索可大致分为统计特征函数与统计作图函数,而作图函数依赖于mayplotlib,所以往往又会跟matplotlib结合在一起使用
基本统计特征的函数:统计特征用于计算数据的均值,方差,标准差,分位数,相关系数和协方差等,这些统计特征能反映出数据的整体分布
方法名
函数功能
所属库
corr()
计算样本数据的Spearman(Pearson)相关系数矩阵
pandas
cov()
计算样本数据的协方差矩阵
pandas
describe()
给出样本的基本描述(基本统计量入均值,标准差等)
pandas
kurt()
样本值的峰度(四阶矩)
pandas
mean()
计算数据样本的算数平均数
pandas
skew()
样本值的偏离(三阶矩)
pandas
std()
计算样本数据的标准差
pandas
sum()
计算数据样本的总和(按列计算)
pandas
var()
计算样本数据的方差
pandas
sum()
mean()
var()
std()
corr()
cov()
skew/kurt
describe()
拓展统计特征函数
除了上述的统计特征外,pandas还提供了一些非常方便的计算特征的函数,主要又累计计算(cum)和滚动计算(pd.rolling)
方法名
函数功能
所属库
cummax()
依次给出前1,2,3,..,个数的最大值.
pandas
cummin()
依次给出前1,2,3,…,个数的最小值
pandas
cumprod()
依次给出1,2,3,…,n个数的积
pandas
cumsum()
依次给出前1,2,3…,n个数的和
pandas
pandas累积统计特征函数
方法名
函数功能
所属库
rolling_sum()
计算数据样本的总和(按列计算)
pandas
rolling_mean()
数据样本的算术平均数
pandas
rolling_var()
计算样本的方差
pandas
rolling_std()
计算样本的标准差
pandas
rolling_corr()
计算样本的Spearman(Pearson)
pandas
rolling_cov()
计算数据样本的协方差矩阵
pandas
rolling_skew()
样本的偏度(三阶矩)
pandas
rolling_kurt()
样本值的峰度(四阶矩)
pandas
统计作图函数
通过统计作图函数绘制的图表可以直观地反映出数据及统计量的性质机器内在的规律,如盒图恶意表示多个样本的均值.误差条形图能同时显示下限和上限误差,最小二乘拟合曲线图能分析两变量间的关系.
Python主要统计作图函数
作图函数名
作图函数功能
所属工具箱
boxplot()
绘制样本数据的箱型图
Pandas
hist()
绘制二维条形直方图,可显示数据的分配情况
Matplotlib/Pandas
pie()
绘制饼型图
Matplotlib/Pandas
plot()
绘制线性二维图,折线图
Matplotlib/Pandas
plot(logy=True)
绘制y轴的对数图形
Pandas
plot(yerr=error)
绘制误差条形图
Pandas
plot
pie
功能:绘制饼型图
import matplotlib.pyplot as plt
import numpy as np
x = np.random.randn(1000) # 1000个服从正太分布的随机数
plt.hist(x, 10) # 分成10组进行绘制直方图
plt.show()
使用格式: plt.pie(size),使用matplotlib绘制饼图,其中size是一个列表,记录各个扇形的比例
hist
boxplot
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import random
x = np.random.randn(1000) # 1000个服从正太分布
D = pd.DataFrame([x, x+1]).T # 构造两列的DataFrame
D.plot(kind="box") # 调用Series内置的作图方法画图,用kind参数指定箱型图box
plt.show()
plot(logx = True)/plot(logy = True)
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
x = pd.Series(np.exp(np.arange(20))) # 原始数据
x.plot(label= u"原始数据图", legend=True)
plt.show()
x.plot(logy=True, label=u"对数数据图", legend=True)
plt.show()
plot(yerr= error)
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
plt.rcParams["font.sans-serif"] = ["SimHei"] # 用来正常显示中文标签
plt.rcParams["axes.unicode_minus"] = False # 用来正常显示负号
error = np.random.randn(10) # 定义误差列
y = pd.Series(np.sin(np.arange(10))) # 均值数据列
y.plot(yerr=error) # 绘制误差图
plt.show()
手机扫一扫
移动阅读更方便
你可能感兴趣的文章