在機器學(xué)習(xí)中經(jīng)常用到一種搜索算法——束搜索算法,又叫beam search 算法,他是貪心算法的一種優(yōu)化實現(xiàn)。在機器學(xué)習(xí)中我們需要自行實現(xiàn)這種算法,接下來這篇文章主要記錄兩種不同的beam search版本,小伙伴可以進(jìn)行對比和學(xué)習(xí)。
小破站的彈幕是小破站的特色之一,很多小伙伴都很喜歡小破站的彈幕。那么怎么把這些有趣的彈幕收集起來呢?今天小編就帶來python爬取小破站數(shù)據(jù)的教程,我們可以使用爬蟲爬取小破站的彈幕并保存起來,最后也可以用python繪制詞云。
在python的print中有兩個參數(shù)分別是end和sep,他們的功能有點類似,一個是python輸出結(jié)尾,一個是python輸出分割,那么這兩個參數(shù)到底怎么用呢?又有什么區(qū)別呢?接下來這篇文章帶你了解。
如果你也在學(xué)習(xí)pytorch,torchtext庫的大名應(yīng)該從學(xué)習(xí)中了解過。他是pytorch生態(tài)圈中專門預(yù)處理文本數(shù)據(jù)集的庫。接下來我們就以NLP數(shù)據(jù)集為例,來講講怎么使用pytorch導(dǎo)入NLP數(shù)據(jù)集吧。
pyspark是spark為python開發(fā)者專門提供的api,他可以使用python來調(diào)用spark的計算引擎用于進(jìn)行數(shù)據(jù)分析。學(xué)習(xí)pyspark的第一步就是pyspark環(huán)境配置和基本操作,接下來小編就來介紹一下這兩點內(nèi)容。
python爬蟲的應(yīng)用不止在數(shù)據(jù)爬取,音樂的爬取也不在話下。python爬取音樂的基本思路是先使用python爬蟲爬取音樂的下載鏈接,然后再使用python批量下載這些音樂。具體操作我們可以看下面的正文:
在學(xué)習(xí)keras深度學(xué)習(xí)框架的過程中我們可能會遇到Keras運行變慢,內(nèi)存消耗變大的問題,這些問題其實是有g(shù)et_value函數(shù)運行越來越慢導(dǎo)致的,那么怎么解決這些問題呢?接下來小編就帶你來了解。
很多小伙伴在剛開始學(xué)習(xí)的時候沒有接觸到python安裝第三方庫的知識,但學(xué)習(xí)內(nèi)容已經(jīng)涉及到第三方模塊了,這時候我們就要學(xué)習(xí)pip的使用了。pip使用還是相對簡單的,接下來小編用一篇文章教會你使用pip。
在學(xué)習(xí)機器學(xué)習(xí)的時候,很多時候我們并不要求計算機有很高的單核算力,反而要求計算機有比較高的并行計算功能。這時候我們就可以使用GPU(顯卡)來幫我們運行機器學(xué)習(xí)的代碼了。業(yè)內(nèi)比較出名的機器學(xué)習(xí)的框架有TensorFlow和Keras,那么TensorFlow使用GPU和Keras使用GPU需要設(shè)置些什么呢?閱讀這篇文章你會得到了解。
在使用pyspark進(jìn)行數(shù)據(jù)分析和清洗的時候,一般我們會使用dataframe來進(jìn)行數(shù)據(jù)的存儲和操作。所以我們在數(shù)據(jù)清洗前需要先使用pyspark創(chuàng)建dataframe并配置dataframe。接下來我們就來看看具體怎么操作。