App下載

什么是異常值?如何在統(tǒng)計(jì)數(shù)據(jù)中查找異常值

半顆心的暖 2021-08-25 09:50:30 瀏覽數(shù) (13705)
反饋

異常值是數(shù)據(jù)集的重要組成部分。它們可以保存有關(guān)您數(shù)據(jù)的有用信息。異常值可以為您正在研究的數(shù)據(jù)提供有用的見(jiàn)解,并且它們可以對(duì)統(tǒng)計(jì)結(jié)果產(chǎn)生影響。這可能會(huì)幫助您發(fā)現(xiàn)不一致之處并檢測(cè)統(tǒng)計(jì)過(guò)程中的任何錯(cuò)誤。因此,了解如何在數(shù)據(jù)集中查找異常值將有助于您更好地理解數(shù)據(jù)。

有幾種不同的方法可以在統(tǒng)計(jì)中找到異常值。本文將解釋如何通過(guò)計(jì)算四分位距來(lái)檢測(cè)數(shù)值異常值。我舉了一個(gè)非常簡(jiǎn)單的數(shù)據(jù)集以及如何計(jì)算四分位距的示例,因此您可以根據(jù)需要進(jìn)行操作。讓我們開(kāi)始吧!

什么是統(tǒng)計(jì)中的異常值?

簡(jiǎn)單來(lái)說(shuō),異常值是相對(duì)于最近的數(shù)據(jù)點(diǎn)和您正在使用的數(shù)據(jù)圖或數(shù)據(jù)集中的其余相鄰共存值而言極高或極低的數(shù)據(jù)點(diǎn)。

離群值是從數(shù)據(jù)集或圖形中的整體值模式中顯著突出的極值。

下面,在圖表的最左側(cè),有一個(gè)異常值。

一月份的值明顯低于其他月份。

屏幕截圖 2021-08-24-at-3.07.05-PM

如何識(shí)別數(shù)據(jù)集中的異常值

好的,你如何尋找異常值?

異常值必須滿(mǎn)足以下兩個(gè)條件之一:

outlier < Q1 - 1.5(IQR)
outlier > Q3 + 1.5(IQR)

低離群值的規(guī)則是數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)必須小于?Q1 - 1.5xIQR?。

這意味著數(shù)據(jù)點(diǎn)需要低于第一個(gè)四分位數(shù)的四分位間距的 1.5 倍以上才能被視為低異常值。

高離群值的規(guī)則是,如果數(shù)據(jù)集中的任何數(shù)據(jù)點(diǎn)大于?Q3 - 1.5xIQR?,則為高離群值。

更具體地說(shuō),數(shù)據(jù)點(diǎn)需要落在第三個(gè)四分位數(shù)以上的四分位距的 1.5 倍以上才能被視為高異常值。

如您所見(jiàn),您需要首先在數(shù)據(jù)集中計(jì)算某些個(gè)別值,例如IQR. 但是要找到IQR,您需要找到分別是Q1和 的所謂的第一四分位數(shù)和第三四分位數(shù) Q3。

所以,讓我們看看它們各自做了什么,并分解如何在奇數(shù)和偶數(shù)數(shù)據(jù)集中找到它們的值。

如何在奇數(shù)數(shù)據(jù)集中找到上下四分位數(shù)

首先,假設(shè)您有這個(gè)數(shù)據(jù)集:

25,14,6,5,5,30,11,11,13,4,2

第一步是按數(shù)字升序?qū)χ颠M(jìn)行排序,從最小到最大。

2,4,5,5,6,11,11,13,14,25,30

最低值 ( MIN ) 是2,最高值 ( MAX ) 是30。

如何在奇數(shù)數(shù)據(jù)集中計(jì)算Q2

下一步是找到中位數(shù)或四分位數(shù) 2 (Q2)。

這組特定的數(shù)據(jù)具有奇數(shù)個(gè)值,11總分加在一起。

在數(shù)據(jù)集中查找中位數(shù)意味著您正在查找中間值——集合中的單個(gè)中間數(shù)。

在奇數(shù)數(shù)據(jù)集中,只有一個(gè)中間數(shù)。

因?yàn)?1總共有值,所以一個(gè)簡(jiǎn)單的方法是將集合分成兩個(gè)相等的部分,每邊包含5值。

中值將5在一側(cè)具有值,在另一側(cè)具有值5。

(2,4,5,5,6), 11,(11,13,14,25,30)

中位數(shù)是11因?yàn)樗菍⑶鞍氩糠峙c后半部分分開(kāi)的數(shù)字。

仔細(xì)檢查您是否正確的另一種方法是這樣做:

(total_number_of_scores + 1) / 2.

這是(11 + 1) /2 = 6,這意味著您希望在6th這組數(shù)據(jù)的位置使用數(shù)字 - 即11。

所以Q2 = 11。

如何在奇數(shù)數(shù)據(jù)集中計(jì)算Q1

接下來(lái),為了找到下四分位數(shù),Q1我們需要找到數(shù)據(jù)集前半部分的中位數(shù),它位于左側(cè)。

提醒一下,初始數(shù)據(jù)集是:

(2,4,5,5,6), 11,(11,13,14,25,30)

數(shù)據(jù)集的前半部分或下半部分不包括中位數(shù):

2,4,5,5,6

這一次,又是一組奇怪的分?jǐn)?shù)——特別是有5值。

您想再次將這半集分成另一半,每側(cè)有相同數(shù)量的兩個(gè)值。您將獲得一個(gè)唯一編號(hào),該編號(hào)將是5值中間的編號(hào)。

選擇突出的中間值:

(2,4), 5,(5,6)

在這種情況下,它是Q1 = 5.

要仔細(xì)檢查,您還可以執(zhí)行total_number_of_values + 1 / 2類(lèi)似于前面的示例:

(5 + 1) /2 = 3.

這意味著您需要第三位的數(shù)字,即5.

如何在奇數(shù)數(shù)據(jù)集中計(jì)算Q3

要找到上四分位數(shù)Q3,過(guò)程與Q1上述相同。但在這種情況下,你在數(shù)據(jù)集的右側(cè)取下半部分,高于中位數(shù),不包括中位數(shù)本身:

(2,4,5,5,6), 11,(11,13,14,25,30)

11,13,14,25,30

您將奇數(shù)集的這一半拆分為另一半以求中位數(shù),然后求出 的值Q3。

您再次希望像上半場(chǎng)一樣排在第三位。

(11,13), 14,(25,30)

所以Q3 = 14。

如何在奇數(shù)數(shù)據(jù)集中計(jì)算IQR

現(xiàn)在,下一步是計(jì)算代表四分位距的 IQR。

這是您在上面計(jì)算的下四分位數(shù) (Q1) 和上四分位數(shù) (Q3) 之間的差異/距離。

提醒一下,這樣做的公式如下:

IQR = Q3 - Q1

要從上面找到數(shù)據(jù)集的 IQR:

IQR= 14 - 5
IQR = 9

如何在奇數(shù)數(shù)據(jù)集中找到異常值

回顧到目前為止,數(shù)據(jù)集如下:

2,4,5,5,6,11,11,13,14,25,30

到目前為止,您已經(jīng)計(jì)算了五個(gè)數(shù)字摘要:

MIN = 2
Q1 = 5
MED = 11
Q3 = 14
MAX = 30

最后,讓我們看看數(shù)據(jù)集中是否有任何異常值。

提醒一下,異常值必須符合以下標(biāo)準(zhǔn):

outlier < Q1 - 1.5(IQR)

或者

outlier > Q3 + 1.5(IQR)

要查看是否有最低值異常值,需要計(jì)算第一部分,看看集合中是否有滿(mǎn)足條件的數(shù)字。

Outlier < Q1 - 1.5(IQR)
Outlier < 5 - 1.5(9)
Outlier < 5 - 13.5 
outlier < - 8.5

沒(méi)有更低的異常值,因?yàn)闆](méi)有比-8.5數(shù)據(jù)集中的數(shù)字少的數(shù)字。

接下來(lái),查看是否有更高的異常值:

Outlier > Q3  + 1.5(IQR)=
Outlier > 14 + 1.5(9)
Outlier > 14 + 13.5
Outlier > 27,5

并且數(shù)據(jù)集中有一個(gè)數(shù)字大于27,5:

2,4,5,5,6,11,11,13,14,25,30

在這種情況下,30是現(xiàn)有數(shù)據(jù)集中的異常值。

如何在偶數(shù)數(shù)據(jù)集中找到上下四分位數(shù)

當(dāng)您的數(shù)據(jù)集由一組偶數(shù)數(shù)據(jù)組成時(shí)會(huì)發(fā)生什么?

不僅有一個(gè)突出的中位數(shù) (Q2),也沒(méi)有突出的上四分位數(shù) (Q1) 或突出的下四分位數(shù) (Q3)。

所以計(jì)算四分位數(shù)然后找到異常值的過(guò)程有點(diǎn)不同。

如何在偶數(shù)數(shù)據(jù)集中計(jì)算Q2

假設(shè)你有這個(gè)帶有8數(shù)字的數(shù)據(jù)集:

10,15,20,26,28,30,35,40

這一次,數(shù)字已經(jīng)從最低值到最高值排序。

要在偶數(shù)數(shù)據(jù)集中找到中位數(shù),您需要找到位于中間的兩個(gè)數(shù)字之間的值。您將它們加在一起并除以2,如下所示:

10,15,20, 26,28,30,35,40

26 + 28 = 54
54 / 2 = 27

如何在偶數(shù)數(shù)據(jù)集中計(jì)算Q1

要計(jì)算偶數(shù)數(shù)據(jù)集中的上四分位數(shù)和下四分位數(shù),您需要保留數(shù)據(jù)集中的所有數(shù)字(而不是在您刪除中位數(shù)的奇數(shù)集中)。

這一次,數(shù)據(jù)集被切成兩半。

10,15,20,26 | 28,30,35,40

為了 find Q1,您將數(shù)據(jù)集的前半部分拆分為另一半,留下剩余的偶數(shù)集:

10,15 | 20,26

要找到這一半的中位數(shù),您可以將中間的兩個(gè)數(shù)字除以二:

Q1 = (15 + 20)/2
Q1 =  35 / 2
Q1 = 17,5

如何在偶數(shù)數(shù)據(jù)集中計(jì)算Q3

要找到Q3,您需要關(guān)注數(shù)據(jù)集的后半部分并將該半部分拆分為另一半:

28,30,35,40 -> 28,30 | 35,40

中間的兩個(gè)數(shù)字是30和35。

您將它們相加并將它們除以二,結(jié)果是:

Q3 = (30 + 35)/2
Q3 =  65 / 2
Q3 = 32,5

如何計(jì)算偶數(shù)數(shù)據(jù)集中的IQR

計(jì)算 IQR 的公式與我們用于計(jì)算奇數(shù)數(shù)據(jù)集的公式完全相同。

IQR = Q3 - Q1
IQR = 32,5 - 17,5
IQR = 15

如何在偶數(shù)數(shù)據(jù)集中找到異常值

回顧一下,到目前為止,五個(gè)數(shù)字摘要如下:

MIN = 10
Q1 = 17,5
MED = 27
Q3 = 32,5
MAX = 40

要計(jì)算數(shù)據(jù)集中的任何異常值:

outlier < Q1 - 1.5(IQR)

或者

outlier > Q3 + 1.5(IQR)

要找到任何較低的異常值,您可以計(jì)算Q1 - 1.5(IQR)并查看是否有任何值小于結(jié)果。

outlier < 17,5 - 1.5(15)=
outlier < 17,5 - 22,5
outlier < -5

數(shù)據(jù)集中沒(méi)有任何小于 的值-5。

最后,為了找到任何更高的異常值,您計(jì)算 Q3 - 1.5(IQR)并查看數(shù)據(jù)集中是否有任何值高于結(jié)果

outlier > 32.5 + 1.5(15)=
outlier > 32.5 + 22.5
outlier > 55

沒(méi)有任何高于55此數(shù)據(jù)集的值,因此該數(shù)據(jù)集沒(méi)有任何異常值。

結(jié)論

在本文中,您學(xué)習(xí)了如何在數(shù)據(jù)集中查找四分位距并以此方式計(jì)算任何異常值。


0 人點(diǎn)贊