pandas入门

读取/存储文件

(1) 打开csv文件:
titanic = pd.read_csv(“路径/文件.csv”)
(2) 存储excel文件:
titanic.to_excel(“路径/文件.xlsx”,sheet_name=”passengers”,index=False)命名名为”passengers”的工作簿,通过索引标签不会存在电子表格中
(3) 打开excel文件:
titanic = pd.read_excel(“路径/文件.xlsx”,sheet_name=”passengers”)打开passengers工作簿

选择列

  1. 选择1列:
    age = titanic[“age”]
  2. 选取多列:
    age_sex = titanic[[“age”,”sex”]]

数据筛选

  1. 筛选 35岁以上的乘客的所有信息:
    above_35 = titanic[titanic[“age”]<35]
  2. 选出级别为2和3的数据:
    (1)class_23=titanic[titanic[“pclass”].isin[2,3]]
    (2)class_23=titanic[(titanic[“pclass”]==2)|(titanic[“pclass”]==3)]
  3. 选出已知年龄的乘客数据(选出年龄不为空的数据)
    age_no_na=titanic[titanic[“age”].notna()]
  4. 只选出35岁以上乘客的姓名
    above_35 = titanic[titanic[“age”]>35,”name”]
  5. 对第10到25行和第3列到5列
    titanic.iloc[9:25,2:5]
    titanic.iloc[0:3,3]=”anonymous”对第1到4行的第4列赋值为”anonymous”

创建新列

  1. 创建一列
    titanic[“新列”] = “吉祥如意”//添加名为”新列”的列,并且给它赋值为”吉祥如意”
  2. 将特定的列标签名更改:
    titanic = titanic.rename(
    columns={
    “name” : “feng”,
    “age” : 18,
    ….
    }
    )
  3. 列名小写:
    titanic = titanic.rename(columns=str.lower)

统计

  1. 求平均值,中位数等信息
    titanic[‘列名’].mean()//平均值
    titanic[‘culumns_name’].median()//中位数
    titanic[‘culumns_name’].max()//最大值
    titanic[‘culumns_name’].min()//最小值
  2. 分组统计
    (1) 统计男性与女性的平均年龄
    titanic[[‘sex’,’age’]].groupby(‘sex’).mean()
    titanic.groupby(‘sex’)[‘age’].mean()
    (2) 每种性别和舱位等级组合的票价平均值
    titanic.groupby([‘sex’,’pclass’])[‘fare’].mean()