閱讀(837) 書簽贊(0) 我要糾錯(cuò)

scikit-learn 計(jì)算性能

2023-02-20 14:48 更新

對于某些應(yīng)用，估計(jì)器的性能（主要是預(yù)測時(shí)間的延遲和吞吐量）至關(guān)重要?？紤]訓(xùn)練吞吐量也可能是有意義的，但是在生產(chǎn)設(shè)置（通常在脫機(jī)中運(yùn)行）通常是不太重要的。

我們將在這里審查您可以從不同上下文中的一些 scikit-learn估計(jì)器預(yù)期的數(shù)量級，并提供一些解決性能瓶頸的技巧和訣竅。

將預(yù)測的延遲作為進(jìn)行預(yù)測所需的耗費(fèi)時(shí)間（例如，以微秒為單位）進(jìn)行測量。延遲通常被認(rèn)為一種分布，運(yùn)營工程師通常將注意力集中在該分布的給定百分位數(shù)（例如 90 百分位數(shù)）上的延遲。

預(yù)測吞吐量被定義為軟件可以在給定的時(shí)間量內(nèi)可預(yù)測的預(yù)測數(shù)（例如每秒的預(yù)測）。

性能優(yōu)化需要注意的一個(gè)重要方面是它可能會(huì)損害預(yù)測精度。實(shí)際上，更簡單的模型（例如線性的，而不是 non-非線性的，或者具有較少參數(shù)的模型）通常運(yùn)行得更快，但是可能會(huì)丟失數(shù)據(jù)中包含的信息。

8.2.1. 預(yù)測延遲

在使用/選擇機(jī)器學(xué)習(xí)工具包時(shí)可能遇到的最直接的問題之一是生產(chǎn)環(huán)境中發(fā)生的預(yù)測延遲。

影響預(yù)測延遲的主要因素是

特征的數(shù)量
輸入數(shù)據(jù)的表示和稀疏性
模型復(fù)雜性
特征提取

最后一個(gè)主要參數(shù)是在批量預(yù)測或一次執(zhí)行一個(gè)預(yù)測模式下進(jìn)行預(yù)測的可能性。

8.2.1.1. 批量與原子模式

通常進(jìn)行批量預(yù)測 (可能有更多的方法) 非常有效的原因有很多（分支預(yù)測, CPU緩存, 線性代數(shù)庫的優(yōu)化等.）。

在這里，我們看到一些具有很少特征的設(shè)置，獨(dú)立于估計(jì)器選擇，批量模式總是更快，而對于其中的一些，它們的數(shù)量大約是 1 到 2 個(gè)數(shù)量級:

為了對您的案例的不同的估計(jì)器進(jìn)行基準(zhǔn)測試，您可以在此示例中簡單地更改 n_features 參數(shù): 預(yù)測延遲. 這應(yīng)該給你估計(jì)預(yù)測延遲的數(shù)量級。

8.2.1.2. 配置 Scikit-learn 來減少驗(yàn)證開銷

Scikit-learn 對數(shù)據(jù)進(jìn)行了一些驗(yàn)證，從而增加了對 predict 和類似函數(shù)的調(diào)用開銷。特別地，檢查這些特征是有限制的（非空或無限）涉及對數(shù)據(jù)的完全傳遞。如果你確定自己的數(shù)據(jù)是沒問題的，你可以通過在導(dǎo)入 scikit-learn 之前將環(huán)境變量配置 SKLEARN_ASSUME_FINITE 設(shè)置為非空字符串來抑制檢查有限性，或者使用以下方式在 Python 中配置 sklearn.set_config 。為了比這些全局設(shè)置更多的控制 config_context 允許您在指定的上下文中設(shè)置此配置:

>>> import sklearn
>>> with sklearn.config_context(assume_finite=True):
...     pass  # do learning/prediction here with reduced validation

注意這個(gè)配置會(huì)影響上下文中的 sklearn.utils.assert_all_finite 所有功能.

8.2.1.3. 特征數(shù)量的影響

顯然，當(dāng)特征數(shù)量增加時(shí)，每個(gè)示例的內(nèi)存消耗量也會(huì)增加。實(shí)際上，對于具有個(gè)特征的個(gè)實(shí)例的矩陣，空間復(fù)雜度在。從 computing （計(jì)算）角度來看，這也意味著 the number of basic operations （基本操作的數(shù)量）（例如，線性模型中向量矩陣乘積的乘法）也增加。以下是 prediction latency (預(yù)測延遲)與 number of features(特征數(shù)) 的變化圖:

總的來說，您可以預(yù)期預(yù)測時(shí)間至少隨特征數(shù)量線性增加非線性情況可能會(huì)發(fā)生，取決于全局內(nèi)存占用和估計(jì)。

8.2.1.4. 輸入數(shù)據(jù)的影響

Scipy 提供用來優(yōu)化稀疏矩陣的稀疏矩陣數(shù)據(jù)結(jié)構(gòu). 稀疏矩陣最主要的特征是不存儲(chǔ)0值，因此當(dāng)你的數(shù)據(jù)是稀疏的這樣可以消耗更少的內(nèi)存。稀疏(CSR or CSC) 矩陣中的一個(gè)非零值僅需占用32bit的位置+64位浮點(diǎn)型的值+額外的32bit表示矩陣中的行或者列。在密集（或者稀疏）線性模型上使用稀疏輸入可以加速預(yù)測的速度，只有非零值特征才會(huì)影響點(diǎn)乘以至于影響預(yù)測結(jié)果。因此如果你在一個(gè)1e6維空間中只有100個(gè)非零值，那么你只需要100次乘法和加法運(yùn)算而不是1e6。

然而，密度表示的計(jì)算可以利用 BLAS 中高度優(yōu)化的向量操作和多線程，并且往往導(dǎo)致更少的 CPU 高速緩存 misses 。因此，sparse input （稀疏輸入）表示的 sparsity （稀疏度）通常應(yīng)相當(dāng)高（10% 非零最大值，要根據(jù)硬件進(jìn)行檢查）比在具有多個(gè) CPU 和優(yōu)化 BLAS 實(shí)現(xiàn)的機(jī)器上的 dense input （密集輸入）表示更快。

以下是測試輸入 sparsity （稀疏度）的示例代碼:

def sparsity_ratio(X):
    return 1.0 - np.count_nonzero(X) / float(X.shape[0] * X.shape[1])
print("input sparsity ratio:", sparsity_ratio(X))

根據(jù)經(jīng)驗(yàn)，您可以考慮如果 sparsity ratio （稀疏比）大于 90% , 您可能會(huì)從 sparse formats （稀疏格式）中受益。有關(guān)如何構(gòu)建（或?qū)?shù)據(jù)轉(zhuǎn)換為） sparse matrix formats （稀疏矩陣格式）的更多信息，請參閱 Scipy 的稀疏矩陣格式文檔 documentation 。大多數(shù)的時(shí)候, CSR 和 CSC 格式是最有效的。

8.2.1.5. 模型復(fù)雜度的影響

一般來說，當(dāng)模型的復(fù)雜成都增加了，預(yù)測性能和延遲也會(huì)一起增加。增長的預(yù)測性能通常是好的，但是對于許多應(yīng)用我們最好不要增加太多的預(yù)測延遲。我們將通過不同類別的監(jiān)督學(xué)習(xí)模型來重新認(rèn)識這個(gè)問題。

對于 sklearn.linear_model (例如 Lasso, ElasticNet, SGDClassifier/Regressor, Ridge & RidgeClassifier, PassiveAggressiveClassifier/Regressor, LinearSVC, LogisticRegression…) 使用的決策函數(shù)是一致的 (點(diǎn)積) , 所以延遲應(yīng)該也是一致的。這里給一個(gè)例子使用 sklearn.linear_model.SGDClassifier 與 elasticnet penalty（彈性網(wǎng)懲罰）。正則化的強(qiáng)度由alpha參數(shù)全局決定。一個(gè)足夠高的alpha，可以增加 elasticnet 的 l1_ratio 參數(shù)，以在模型參數(shù)中執(zhí)行各種稀疏程度。這里的 Higher sparsity （較高稀疏度）被解釋為 less model complexity （較少的模型復(fù)雜度），因?yàn)槲覀冃枰^少的系數(shù)充分描述它。當(dāng)然， sparsity （稀疏性）會(huì)隨著稀疏點(diǎn)積產(chǎn)生時(shí)間大致與非零系數(shù)的數(shù)目成比例地影響 prediction time （預(yù)測時(shí)間）。

對于具有非線性內(nèi)核的 sklearn.svm 算法系列，延遲與支持向量的數(shù)量有關(guān)（越少越快）。在 SVC 或 SVR 模型中延遲和吞吐量隨著支持向量的數(shù)量線性增長。內(nèi)核也將影響延遲，因?yàn)樗糜谟?jì)算每個(gè)支持向量一次輸入向量的投影。在下面的圖中， sklearn.svm.NuSVR 的 nu 參數(shù)用于影響支持向量的數(shù)量。

對于sklearn.ensemble的 trees （例如 RandomForest, GBT, ExtraTrees 等）樹的數(shù)量及其深度發(fā)揮著最重要的作用。延遲和吞吐量應(yīng)與樹的數(shù)量呈線性關(guān)系。在這種情況下，我們直接使用 sklearn.ensemble.gradient_boosting.GradientBoostingRegressor 的 n_estimators 參數(shù)。

在任何情況下都應(yīng)該警告，降低的 model complexity （模型復(fù)雜性）可能會(huì)損害如上所述的準(zhǔn)確性。例如，可以用快速線性模型來處理 non-linearly separable problem （非線性可分離問題），但是在該過程中預(yù)測能力將很可能受到影響。

8.2.1.6. 特征提取的延遲

大多數(shù) scikit-learn 模型通常非?？?，因?yàn)樗鼈兛梢酝ㄟ^編譯的 Cython 擴(kuò)展或優(yōu)化的計(jì)算庫來實(shí)現(xiàn)。另一方面，在許多現(xiàn)實(shí)世界的應(yīng)用中，特征提取過程（即，將數(shù)據(jù)庫行或網(wǎng)絡(luò)分組的原始數(shù)據(jù)轉(zhuǎn)換為 numpy arrays ）來控制總體預(yù)測時(shí)間。例如在路透社文本分類任務(wù)中，根據(jù)所選擇的模型，整個(gè)準(zhǔn)備（讀取和解析 SGML 文件，將文本進(jìn)行標(biāo)記并將其散列為公共向量空間）的時(shí)間比實(shí)際預(yù)測代碼的時(shí)間長 100 到 500 倍。

因此，在很多情況下，建議您仔細(xì)地對 carefully time and profile your feature extraction code ( 特征提取代碼進(jìn)行時(shí)間預(yù)估和簡檔)，因?yàn)楫?dāng)您的 overall latency （整體延遲）對您的應(yīng)用程序來說太慢時(shí)，可能是開始優(yōu)化的好地方。

8.2.2. 預(yù)測吞吐量

另一個(gè)度量生產(chǎn)系統(tǒng)大小的重要的指標(biāo)是預(yù)測吞吐量，即在給定時(shí)間內(nèi)能做出預(yù)測的數(shù)量。

以下是 Prediction Latency 示例的基準(zhǔn)測試，該示例針對合成數(shù)據(jù)的多個(gè) estimators （估計(jì)器）測量此數(shù)量:

這些 throughputs（吞吐量）早單個(gè)進(jìn)程上實(shí)現(xiàn)。提高應(yīng)用程序吞吐量的一個(gè)明顯的方法是產(chǎn)生其他實(shí)例（通常由于 GIL而在 Python 中進(jìn)行處理）共享相同模型。還可能添加機(jī)器來分布式負(fù)載。關(guān)于如何實(shí)現(xiàn)這一點(diǎn)的詳細(xì)解釋超出了本文檔的范圍。

8.2.3. 技巧與竅門

8.2.3.1. 線性代數(shù)庫

由于 scikit-learn 在很大程度上依賴于 Numpy/Scipy 和線性代數(shù)，所以需要理解這些庫的版本。基本上，你應(yīng)該確保使用優(yōu)化的 BLAS / LAPACK 構(gòu)建numpy庫.

并非所有的模型都受益于優(yōu)化的 BLAS 和 Lapack 實(shí)現(xiàn)。例如，基于（隨機(jī)化）決策樹的模型通常不依賴于內(nèi)部循環(huán)中的 BLAS 調(diào)用，kernel SVMs (SVC, SVR, NuSVC, NuSVR) 。另一方面，使用 BLAS DGEMM 調(diào)用（通過 numpy.dot）實(shí)現(xiàn)的線性模型通常將受益于調(diào)整的 BLAS 實(shí)現(xiàn)，并且導(dǎo)致非優(yōu)化 BLAS 的數(shù)量級加速。

你可以使用以下命令顯示您的 NumPy / SciPy / scikit-learn 安裝使用的 BLAS / LAPACK 實(shí)現(xiàn):

from numpy.distutils.system_info import get_info
print(get_info('blas_opt'))
print(get_info('lapack_opt'))

優(yōu)化的 BLAS / LAPACK 實(shí)現(xiàn)如下:

Atlas (需要通過在目標(biāo)機(jī)器上 rebuilding 進(jìn)行硬件特定調(diào)整)
OpenBLAS
MKL
Apple Accelerate and vecLib frameworks (僅適用于OSX系統(tǒng) )

有關(guān)更多信息，請參見 Scipy install page 和 Daniel Nouri 的 blog post 在這篇博客中介紹了如何一步一步在 Debian / Ubuntu中安裝配置的信息.

8.2.3.2. 限制工作內(nèi)存

當(dāng)直接使用numpy的向量化操作執(zhí)行計(jì)算的時(shí)候，需要使用大量的臨時(shí)內(nèi)存空間。這個(gè)很可能會(huì)耗盡系統(tǒng)的內(nèi)存空間。在可以以固定內(nèi)存塊執(zhí)行計(jì)算的地方，我們嘗試這樣做，并允許用戶使用 sklearn.set_config或config_context提示該工作內(nèi)存的最大大小(默認(rèn)為1GB)。以下建議將臨時(shí)工作記憶限制在128mib:

>>> import sklearn
>>> with sklearn.config_context(working_memory=128):
...     pass  # do chunked work here

遵循此設(shè)置的塊操作的一個(gè)示例是metric.pairwise_distances_chunked，用于計(jì)算成對距離矩陣的行壓縮。

8.2.3.3. 模型壓縮

在scikit-learn中模型壓縮一般只在線性模型中考慮。在這種情況下，這意味著我們要控制模型稀疏度（即模型向量中的非零坐標(biāo)數(shù)）。將模型稀疏度與稀疏輸入數(shù)據(jù)表示相結(jié)合是一個(gè)好主意。

以下是示例代碼，說明了如何使用 sparsify() 方法:

clf = SGDRegressor(penalty='elasticnet', l1_ratio=0.25)
clf.fit(X_train, y_train).sparsify()
clf.predict(X_test)

在這個(gè)示例中，我們更喜歡 elasticnet 懲罰，因?yàn)樗ǔＪ悄Ｐ途o湊性和預(yù)測能力之間的一個(gè)很好的妥協(xié)。還可以進(jìn)一步調(diào)整 l1_ratio 參數(shù)（結(jié)合正則化強(qiáng)度 alpha ）來控制這個(gè)權(quán)衡。

對于合成數(shù)據(jù)，典型的 benchmark在模型和輸入時(shí)都會(huì)降低 30% 的延遲。稀疏（分別為 0.000024 和 0.027400 非零系數(shù)比）。您的里程可能會(huì)因您的數(shù)據(jù)和模型的稀疏性和大小而有所不同。因此，為了減少部署在生產(chǎn)服務(wù)器上的預(yù)測模型的內(nèi)存使用，擴(kuò)展可能非常有用。

8.2.3.4. 模型重塑

模型重塑在于僅選擇一部分可用功能以適應(yīng)模型。換句話說，如果模型在學(xué)習(xí)階段丟棄特征，我們可以從輸入中刪除這些特征。這有幾個(gè)好處。首先，它減少了模型本身的內(nèi)存（因此是減少了時(shí)間）的開銷。一旦知道要從上一次運(yùn)行中保留哪些功能，它也允許在 pipeline 中丟棄顯式的特征選擇組件。最后，它可以通過不收集和構(gòu)建模型丟棄的特征來幫助減少數(shù)據(jù)訪問和特征提取層上游的處理時(shí)間和 I/O 的使用。例如，如果原始數(shù)據(jù)來自數(shù)據(jù)庫，則可以通過使查詢返回較輕的記錄，從而可以編寫更簡單和更快速的查詢或減少 I/O 的使用。目前，重塑需要在 scikit-learn 中手動(dòng)執(zhí)行。在稀疏輸入（特別是 CSR 格式）的情況下，通常不能生成相關(guān)的特征，使其列為空。

8.2.3.5. 參考鏈接

scikit-learn developer performance documentation
Scipy sparse matrix formats documentation

以上內(nèi)容是否對您有幫助：

← scikit-learn 大數(shù)據(jù)計(jì)算策略

scikit-learn 并行，資源管理和配置 →

寫筆記

我要補(bǔ)充