文章來源于公眾號:Python技術(shù) 作者:派森醬
為何非程序員學(xué) Python 的越來越多了?他們可能并不是想去爬取一些網(wǎng)站的數(shù)據(jù),而是在工作中碰到很多數(shù)據(jù)分析處理的問題,用 Python 就可以簡單高效地解決。本文就通過一個實際的例子來給大家展示一下 Python 是如何應(yīng)用于實際工作中高效解決復(fù)雜問題的。
背景
小明就職于一家戶外運動專營公司,他們公司旗下有好多個品牌,并且涉及到很多細(xì)分的行業(yè)。小明在這家公司任數(shù)據(jù)分析師,平時都是通過 Excel 來做數(shù)據(jù)分析的。今天老板丟給他一個任務(wù):下班前篩選出集團公司旗下最近一年銷售額前五名的品牌以及銷售額。
對于 Excel 大佬來說,這不就是分分鐘的事嗎?小明并沒有放在眼里,直到市場部的同事將原始的數(shù)據(jù)文件發(fā)給他,他才意識到事情并沒有那么簡單:
這并不是想象中的排序取前五就行了。這總共有90個文件,按常規(guī)的思路來看,他要么將所有文件的內(nèi)容復(fù)制到一張表中進行分類匯總,要么將每張表格進行分類匯總,然后再最最終結(jié)果進行分類匯總。
想想這工作量,再想想截止時間,小明撓了撓頭,感覺到要漸漸頭禿。
思路分析
這種體力活,寫程序解決是最輕松的啦。小明這時候想到了他的程序員好朋友小段,于是他把這個問題拋給了小段。
小段縷了下他那所剩無幾的頭發(fā),說:so easy,只需要找潘大師即可。
小明說:你搞不定嗎?還要找其他人!
小段苦笑說:不不不,潘大師是 Python 里面一個處理數(shù)據(jù)的庫,叫 Pandas ,俗稱 潘大師。
小明說:我不管什么大師不大師,就說需要多久搞定。
小段說:給我?guī)追昼妼懗绦?,再跑幾秒鐘就好了?/p>
小明發(fā)過去了膜拜大佬的表情。
小段略微思考了下,整理了一下程序思路:
- 計算每張表每一行的銷售額,用“訪客數(shù) 轉(zhuǎn)化率 客單價”就行。
- 將每張表格根據(jù)品牌匯總銷售額。
- 將所有表格的結(jié)果匯總成一張總表
- 在總表中根據(jù)品牌匯總銷售額并排序
編碼
第零步,讀取 Excel :
import pandas as pd
df = pd.read_excel("./tables/" + name)
第一步,計算每張表格內(nèi)的銷售額:
df['銷售額'] = df['訪客數(shù)'] * df['轉(zhuǎn)化率'] * df['客單價']
第二步,將每張表格根據(jù)品牌匯總銷售額:
df_sum = df.groupby('品牌')['銷售額'].sum().reset_index()
第三步,將所有表格的結(jié)果匯總成一張總表:
result = pd.DataFrame()
result = pd.concat([result, df_sum])
第四步,在總表中根據(jù)品牌匯總銷售額并排序:
final = result.groupby('品牌')['銷售額'].sum().reset_index().sort_values('銷售額', ascending=False)
最后,我們來看看完整的程序:
import pandas as pd
import os
result = pd.DataFrame()
for name in os.listdir("./tables"):
try:
df = pd.read_excel("./tables/" + name)
df['銷售額'] = df['訪客數(shù)'] * df['轉(zhuǎn)化率'] * df['客單價']
df_sum = df.groupby('品牌')['銷售額'].sum().reset_index()
result = pd.concat([result, df_sum])
except:
print(name)
pass
final = result.groupby('品牌')['銷售額'].sum().reset_index().sort_values('銷售額', ascending=False)
pd.set_option('display.float_format', lambda x: '%.2f' % x)
print(final.head())
最后的結(jié)果是這樣的:
品牌 銷售額
15 品牌-5 1078060923.62
8 品牌-17 1064495314.96
4 品牌-13 1038560274.21
3 品牌-12 1026115153.00
13 品牌-3 1006908609.07
可以看到最終的前五已經(jīng)出來了,整個程序運行起來還是很快的。
幾分鐘之后,小段就把結(jié)果給小明發(fā)過去了,小明感動得內(nèi)牛滿面,直呼改天請吃飯,拜師學(xué)藝!
總結(jié)
本文主要是想通過一個實際的案例來向大家展示潘大師(Pandas)的魅力,特別是應(yīng)用于這種表格處理,可以說是太方便了。寫過程序的可能都有點熟悉的感覺,這種處理方式有點類似于 SQL 查詢語句。潘大師不僅能使我們的程序處理起來變得更簡單高效,對于需要經(jīng)常處理表格的非程序員也是非常友好的,上手起來也比較簡單。
以上就是W3Cschool編程獅
關(guān)于再也不用為多張Excel表匯總發(fā)愁了,Python 秒處理真香!的相關(guān)介紹了,希望對大家有所幫助。