在數(shù)據(jù)處理的時(shí)候很多情況并不能獲取到理想的沒(méi)有問(wèn)題的數(shù)據(jù),也就是說(shuō)數(shù)據(jù)缺失是普遍存在的。在出具處理的時(shí)候我們通常要先對(duì)數(shù)據(jù)缺失進(jìn)行處理才能繼續(xù)下一步的操作,以pandas為例,pandas數(shù)據(jù)數(shù)據(jù)缺失會(huì)將缺失部分填充為NaN,那么pandas NaN缺失值處理要如何進(jìn)行呢?接下來(lái)的這篇文章帶你了解。
本文主要介紹了pandas中NaN缺失值的處理方法,主要有兩種方法,具體如下:
import pandas as pd
缺失值處理
兩種方法:
- 刪除含有缺失值的樣本
- 替換/插補(bǔ)
處理缺失值為NaN
先判斷數(shù)據(jù)中是否存在NaN,通過(guò)下面兩個(gè)方法中任意一個(gè)
pd.isnull(dataframe)
# dataframe為數(shù)據(jù)
如果數(shù)據(jù)中存在NaN返回True,如果沒(méi)有就返回False
pd.notnull(dataframe)
該方法與isnull相反
any() 和 all()
"""
pd.isnull(dataframe).any()
判斷哪一個(gè)字段中存在缺失值沒(méi)有就返回False
pd.notnull(dataframe).all()
判斷哪一個(gè)字段中存在缺失值沒(méi)有就返回True
"""
使用numpy也可以進(jìn)行判斷
import numpy as np
np.any(pd.isnull(dataframe)) # 如果返回True,說(shuō)明數(shù)據(jù)中存在缺失值
np.all(pd.notnull(dataframe)) # 如果返回False, 說(shuō)明數(shù)據(jù)中存在缺失值
然后進(jìn)行數(shù)據(jù)處理
方式一: 刪除空值行
dataframe.dropna(inplace=False)
"""
dropna() 是刪除空值數(shù)據(jù)的方法, 默認(rèn)將只要含有NaN的整行數(shù)據(jù)刪除,
如果想要?jiǎng)h除整行都是空值的數(shù)據(jù)需要添加how='all'參數(shù)
默認(rèn)是刪除整行, 如果對(duì)列做刪除操作, 需要添加axis參數(shù),
axis=1表示刪除列, axis=0表示刪除行
inplace: 是否在當(dāng)前的dataframe中執(zhí)行此操作,
True表示在原來(lái)的基礎(chǔ)上修改,
False表示返回一個(gè)新的值, 不修改原有數(shù)據(jù)
"""
方式二: 替換/插補(bǔ)
缺失值NaN有默認(rèn)標(biāo)記的值
比如有的空值不是NaN, 有的是一個(gè)'?'
先替換
使用numpy把"?"替換為NaN
import numpy as np
# 替換
dataframe.replace(to_replace="?", value=np.nan)
把其他的缺失值換為NaN后, 然后就按照缺失值為NaN的方式就行操作
刪除數(shù)據(jù)
如果只是單獨(dú)的刪除數(shù)據(jù)可以使用drop()方法
DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False)
'''
代碼解釋:
labels : 就是要?jiǎng)h除的行列的名字,用列表指定
index : 直接指定要?jiǎng)h除的行
columns : 直接指定要?jiǎng)h除的列
inplace=False : 表示返回一個(gè)新的值, 不修改原有數(shù)據(jù)
inplace=True : 表示在原來(lái)的基礎(chǔ)上修改
'''
例:
import pandas as pd
df = pd.read_csv('/text.xlsx')
# 刪除第0行和第1行
df.drop(labels=[0,1],axis=0)
# 刪除列名為 age 的列
df.drop(axis=1,columns=age)
以上就是pandas NaN缺失值處理的全部?jī)?nèi)容,希望能給小伙伴帶來(lái)幫助,也希望大家以后多多支持W3Cschool!