相信喜歡在b站上收藏視頻的小伙伴應(yīng)該很多,小編就是其中一員,但是時(shí)間久了之后我們的收藏夾會(huì)變得雜亂無(wú)章,那么怎么使用python對(duì)b站收藏夾排序呢?今天小編就帶來(lái)一種按照視頻發(fā)布時(shí)間排序的法子。一起來(lái)看看吧。
前言
在最一開(kāi)始,我的B站收藏一直是存放在默認(rèn)收藏夾中,但是隨著視頻收藏的越來(lái)越多,沒(méi)有分類的視頻放在一起,想在眾多視頻中找到想要的視頻非常困難,因此就對(duì)收藏夾里面的視頻進(jìn)行了分類。但是分類之后緊接著又出現(xiàn)了一個(gè)新的問(wèn)題:原來(lái)存放在默認(rèn)收藏夾里面視頻的相對(duì)順序被打亂了——明明前幾天剛收藏的視頻卻要翻很多很多頁(yè)才能找到,因此有了這個(gè)程序。
程序的作用
因?yàn)槲覀兛吹降囊曨l大部分都是通過(guò)推薦得到的,而推薦的視頻大部分都是剛發(fā)布不久,因此大部分收藏的視頻的順序也基本是按照視頻發(fā)布的順序來(lái)的。那么通過(guò)程序?qū)κ詹貖A中的視頻按照發(fā)布時(shí)間重新排序,那么就和我們收藏視頻的順序幾乎一致了。
機(jī)理
利用b站的API獲取收藏夾中視頻的視頻的編號(hào),用python中的request庫(kù)獲得視頻對(duì)應(yīng)網(wǎng)頁(yè)的html,之后利用正則表達(dá)式得到視頻發(fā)布的時(shí)間。將發(fā)布時(shí)間和視頻的編號(hào)綁定,按照視頻發(fā)布時(shí)間從小到大排序,再次利用b站的API將視頻收藏到指定收藏夾。
出現(xiàn)的問(wèn)題
b站視頻的av號(hào)在八位以下的時(shí)候是按照視頻發(fā)布順序編排的,但是當(dāng)?shù)竭_(dá)九位的時(shí)候就不是按照發(fā)布順序編排的了,因此只能通過(guò)訪問(wèn)視頻主頁(yè)來(lái)得到視頻發(fā)布時(shí)間。
b站的API如果長(zhǎng)時(shí)間比較高頻率的訪問(wèn)會(huì)出現(xiàn)錯(cuò)誤碼,因此每次調(diào)用API之后都sleep了一下。
中間程序可能因?yàn)楦鞣N原因掛掉,因此在中間加入了儲(chǔ)存中間狀態(tài)的功能,否則每次掛掉都要重新爬速度非常慢。
使用方法
在創(chuàng)建Sort
類對(duì)象時(shí),將userAgent
,cookie
,fid
,toFid
,csrf
傳入類的構(gòu)造函數(shù)中,之后調(diào)用類中的sortVideos()
方法即可完成排序。
import requests, json, time, re, datetime, random
class WriteLog(object):
def __getCurrentTime(self):
return str(time.ctime(time.time()))
def writeFile(self, fileName, l):
with open(self.__getCurrentTime() + fileName, 'w') as f:
for i in l:
f.write(str(i) + '
')
class Sort(WriteLog):
def __init__(self, fid, toFid, csrf, userAgent, cookie, MinSleepTime=5, MaxSleepTime=10):
self.MinSleepTime = MinSleepTime
self.MaxSleepTime = MaxSleepTime
self.fid = str(fid)
self.toFid = str(toFid)
self.csrf = csrf
self.DeadVideo = []
self.headers = {'User-Agent': userAgent, 'cookie': cookie}
def __Sleep(self):
sleepTime = random.randint(self.MinSleepTime, self.MaxSleepTime)
time.sleep(sleepTime)
def __getAllVideoId(self):
print('Start get all video ID')
fid = self.fid
res = []
cnt = 0
for i in range(100):
if i == 0:
continue
url = 'https://api.bilibili.com/x/v3/fav/resource/list?media_id=' + fid + '&pn=' + str(i) + '&ps=20&keyword=&order=mtime&type=0&tid=0&platform=web&jsonp=jsonp'
html = requests.get(url=url, headers=self.headers)
te = json.loads(html.text)
te = te['data']['medias']
if te != None:
for j in te:
res.append(j['id'])
print('num: ', cnt, ' videoID: ', j['id'])
cnt = cnt + 1
self.__Sleep()
else:
break
print('Finish get all video ID, in total %d' % (len(res)))
return res
def __addVideoToFavorite(self, vid):
fid = self.toFid
csrf = self.csrf
url = 'https://api.bilibili.com/x/v3/fav/resource/deal'
data = {
'rid': vid,
'type': '2',
'add_media_ids': fid,
'del_media_ids': '',
'jsonp': 'jsonp',
'csrf': csrf,
'platform': 'web',
}
requests.post(url=url, data=data, headers=self.headers)
print('finish add video %s to folder %s' % (vid, fid))
def __getVideoPostTime(self, vid):
vid = str(vid)
url = 'https://www.bilibili.com/video/av' + vid
text = requests.get(url).text
'''
data-vue-meta="true" itemprop="uploadDate" content="2021-04-07 23:29:21"><meta data-vue-meta="true" itemprop="datePublished" c
'''
reg = re.compile('content="([0-9]+)-([0-9]+)-([0-9]+)s([0-9]+):([0-9]+):([0-9]+)"')
text = reg.findall(text)
if len(text) == 0:
return -1
text = text[0]
if len(text) < 6:
return -1
t = ""
for i in text:
t = t + str(i)
print('finish get video %s post time, it's post time is: %s' % (vid, t))
return int(t)
def __Unique(self, l):
size = len(l)
if size == 0:
return []
res = [l[0]]
for i in range(size):
if i == 0:
continue
if l[i] != l[i - 1]:
res.append(l[i])
return res
def __addVideo(self, res):
cnt = 0
for i in res:
self.__addVideoToFavorite(vid=i)
self.__Sleep()
cnt = cnt + 1
def __getVideosTime(self, res):
videos = []
cnt = 0
for i in res:
t = self.__getVideoPostTime(i)
if t == -1:
continue
item = {
'vid': str(i),
'postTime': t
}
videos.append(item)
cnt = cnt + 1
return videos
def sortVideos(self):
fid = self.fid
toFid = self.toFid
res = self.__getAllVideoId()
self.writeFile('getAllVideoId' + fid + 'to' + toFid, res)
videos = self.__getVideosTime(res)
videos = sorted(videos, key=lambda x: x['postTime'])
res = []
for i in videos:
res.append(i['vid'])
res = self.__Unique(res)
self.writeFile('getVideosTime' + fid + 'to' + toFid, res)
self.__addVideo(res)
self.writeFile('err' + fid + 'to' + toFid, self.DeadVideo)
if __name__=='__main__':
userAgent = ''
cookie = ''
fid = ''
toFid = ''
csrf = ''
sortVideo = Sort(fid=fid, toFid=toFid, csrf=csrf, userAgent=userAgent, cookie=cookie)
sortVideo.sortVideos()
以上就是怎么使用python對(duì)B站收藏夾排序的詳細(xì)內(nèi)容,更多python的學(xué)習(xí)資料請(qǐng)關(guān)注W3Cschool其它相關(guān)文章!