numpy和pandas的基本用法
阅读原文时间:2023年08月29日阅读:1

安装numpy模块

pip install numpy

可以通过导入numpy模块来使用它

import numpy as np


a = np.array([1, 2, 3, 4, 5])  # 从列表创建一维数组
b = np.zeros((3, 3))  # 创建一个3x3的全零数组
c = np.ones((2, 2))  # 创建一个2x2的全一数组
d = np.arange(0, 10, 2)  # 从0到10(不包括10),步长为2创建一维数组


a.shape  # 获取数组的形状
a.ndim  # 获取数组的维度
a.size  # 获取数组的元素个数
a.dtype  # 获取数组的数据类型
a.reshape((2, 3))  # 改变数组的形状
a.min()  # 返回数组的最小值
a.max()  # 返回数组的最大值
a.sum()  # 返回数组的元素和


a + b  # 数组相加(对应元素相加)
a - b  # 数组相减(对应元素相减)
a * b  # 数组相乘(对应元素相乘)
a / b  # 数组相除(对应元素相除)
np.dot(a, b)  # 数组的矩阵乘法
np.sin(a)  # 对数组中的每个元素应用sin函数

安装pandas模块

pip install pandas

可以通过导入pandas模块来使用它

import pandas as pd


# 从CSV文件读取数据
df = pd.read_csv('data.csv')
# 从excel文件读取数据
data = pandas.read_excel('1.xlsx')


# 查看数据头部和尾部
df.head()  # 默认显示前5行
df.tail(10)  # 显示后10行

# 查看数据统计信息
df.describe()  # 显示数值列的统计信息
df['column'].mean()  # 计算某一列的平均值

# 选择和过滤数据
df['column']  # 选择某一列
df[['column1', 'column2']]  # 选择多列
df[condition]  # 根据条件选择行

# 添加和删除数据
df['new_column'] = values  # 添加新列
df.drop('column', axis=1, inplace=True)  # 删除列

# 数据排序和分组
df.sort_values('column')  # 按列值排序
df.groupby('column').mean()  # 按列分组并计算平均值

# 处理缺失数据
df.dropna()  # 删除包含缺失值的行
df.fillna(value)  # 用指定值填充缺失值


df.plot()  # 绘制折线图
df.plot(kind='bar')  # 绘制柱状图
df.plot(kind='scatter', x='column1', y='column2')  # 绘制散点图

小案例(读取excel中的数据进行分析)

import numpy as np
import pandas as pd

df = pd.read_excel('1.xlsx', sheet_name='Sheet1')
# 在read_excel()函数中,1.xlsx是Excel文件的路径,Sheet1是要读取的工作表的名称。可以根据需要更改这些参数。

df.head()  # 查看数据前几行
df.shape  # 查看数据形状(行数和列数)
df.columns  # 查看列名
df['column']  # 选择某一列
df.describe()  # 查看数据的统计信息

# 使用NumPy的array()函数将数据转换为NumPy数组(如果需要):
data = np.array(df)