分享在数据分析过程中最常使用的Python函数和方法

乐乐1年前 (2023-11-21)阅读数 20#技术干货

文章标签函数

我们知道Pandas是Python中最广泛使用的数据分析和操作库。它提供了许多功能和方法，可以快速解决数据分析中数据处理问题。

为了更好的掌握Python函数的使用方法，我以客户流失数据集为例，分享在数据分析过程中最常使用的函数和方法。

数据如下所示：

importnumpyasnp

importpandasaspd

df=pd.read_csv("Churn_Modelling.csv")

print(df.shape)

df.columns

结果输出：

(10000,14)

Index(['RowNumber','CustomerId','Surname','CreditScore','Geography','Gender','Age','Tenure','Balance','NumOfProducts','HasCrCard','IsActiveMember','EstimatedSalary','Exited'],dtype='object')

1.删除列

df.drop(['RowNumber','CustomerId','Surname','CreditScore'],axis=1,inplace=True)

print(df[:2])

print(df.shape)

结果输出：

说明：「axis」参数设置为1以放置列，0设置为行。「inplace=True」参数设置为True以保存更改。我们减了4列，因此列数从14个减少到10列。

GeographyGenderAgeTenureBalanceNumOfProductsHasCrCard\

0FranceFemale4220.011

IsActiveMemberEstimatedSalaryExited

01101348.881

(10000,10)

2.选择特定列

我们从csv文件中读取部分列数据。可以使用usecols参数。

df_spec=pd.read_csv("Churn_Modelling.csv",usecols=['Gender','Age','Tenure','Balance'])

df_spec.head()

3.nrows

可以使用nrows参数，创建了一个包含csv文件前5000行的数据帧。还可以使用skiprows参数从文件末尾选择行。Skiprows=5000表示我们将在读取csv文件时跳过前5000行。

df_partial=pd.read_csv("Churn_Modelling.csv",nrows=5000)

print(df_partial.shape)

4.样品

创建数据框后，我们可能需要一个小样本来测试数据。我们可以使用n或frac参数来确定样本大小。

df=pd.read_csv("Churn_Modelling.csv",usecols=['Gender','Age','Tenure','Balance'])

df_sample=df.sample(n=1000)

df_sample2=df.sample(frac=0.1)

5.检查缺失值

isna函数确定数据帧中缺失的值。通过将isna与sum函数一起使用，我们可以看到每列中缺失值的数量。

df.isna().sum()

6.使用loc和iloc添加缺失值

使用loc和iloc添加缺失值，两者区别如下：

·loc：选择带标签

·iloc：选择索引

我们首先创建20个随机索引进行选择：

missing_index=np.random.randint(10000,size=20)

我们将使用loc将某些值更改为np.nan(缺失值)。

df.loc[missing_index,['Balance','Geography']]=np.nan

"Balance"和"Geography"列中缺少20个值。让我们用iloc做另一个示例。

df.iloc[missing_index,-1]=np.nan

7.填充缺失值

fillna函数用于填充缺失的值。它提供了许多选项。我们可以使用特定值、聚合函数(例如均值)或上一个或下一个值。

avg=df['Balance'].mean()

df['Balance'].fillna(value=avg,inplace=True)

fillna函数的方法参数可用于根据列中的上一个或下一个值(例如方法="ffill")填充缺失值。它可以对顺序数据(例如时间序列)非常有用。

8.删除缺失值

处理缺失值的另一个方法是删除它们。以下代码将删除具有任何缺失值的行。

df.dropna(axis=0,how='any',inplace=True)

9.根据条件选择行

分享在数据分析过程中最常使用的Python函数和方法

在某些情况下，我们需要适合某些条件的观测值(即行)。

france_churn=df[(df.Geography=='France')&(df.Exited==1)]

france_churn.Geography.value_counts()

10.用查询描述条件

查询函数提供了一种更灵活的传递条件的方法。我们可以用字符串来描述它们。

df2=df.query('80000

鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com

免责声明：我们致力于保护作者版权，注重分享，当前被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!邮箱：344225443@qq.com)

图片声明：本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明：本文中引用的各种信息及资料（包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主体（包括但不限于公司、媒体、协会等机构）的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理！本站为非盈利性质站点,本着为中国教育事业出一份力,发布内容不收取任何费用也不接任何广告!)