pandas入门
pandas入门
读取/存储文件
(1) 打开csv文件:
titanic = pd.read_csv(“路径/文件.csv”)
(2) 存储excel文件:
titanic.to_excel(“路径/文件.xlsx”,sheet_name=”passengers”,index=False)命名名为”passengers”的工作簿,通过索引标签不会存在电子表格中
(3) 打开excel文件:
titanic = pd.read_excel(“路径/文件.xlsx”,sheet_name=”passengers”)打开passengers工作簿
选择列
- 选择1列:
age = titanic[“age”] - 选取多列:
age_sex = titanic[[“age”,”sex”]]
数据筛选
- 筛选 35岁以上的乘客的所有信息:
above_35 = titanic[titanic[“age”]<35] - 选出级别为2和3的数据:
(1)class_23=titanic[titanic[“pclass”].isin[2,3]]
(2)class_23=titanic[(titanic[“pclass”]==2)|(titanic[“pclass”]==3)] - 选出已知年龄的乘客数据(选出年龄不为空的数据)
age_no_na=titanic[titanic[“age”].notna()] - 只选出35岁以上乘客的姓名
above_35 = titanic[titanic[“age”]>35,”name”] - 对第10到25行和第3列到5列
titanic.iloc[9:25,2:5]
titanic.iloc[0:3,3]=”anonymous”对第1到4行的第4列赋值为”anonymous”
创建新列
- 创建一列
titanic[“新列”] = “吉祥如意”//添加名为”新列”的列,并且给它赋值为”吉祥如意” - 将特定的列标签名更改:
titanic = titanic.rename(
columns={
“name” : “feng”,
“age” : 18,
….
}
) - 列名小写:
titanic = titanic.rename(columns=str.lower)
统计
- 求平均值,中位数等信息
titanic[‘列名’].mean()//平均值
titanic[‘culumns_name’].median()//中位数
titanic[‘culumns_name’].max()//最大值
titanic[‘culumns_name’].min()//最小值 - 分组统计
(1) 统计男性与女性的平均年龄
titanic[[‘sex’,’age’]].groupby(‘sex’).mean()
titanic.groupby(‘sex’)[‘age’].mean()
(2) 每种性别和舱位等级组合的票价平均值
titanic.groupby([‘sex’,’pclass’])[‘fare’].mean()
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 self个人博客!