在日常開發(fā)中,從一個(gè)字符串中提取其中的一些內(nèi)容是很常見的業(yè)務(wù)需求之一。那么如何使用python提取字符串中的中英文呢?比較常見的做法是使用正則判斷來(lái)進(jìn)行數(shù)據(jù)提取,接下來(lái)我們就來(lái)看看怎么用正則判斷匹配我們需要的字符串并篩選出來(lái)吧。
前言
提取中英文是我們?cè)谧鰯?shù)據(jù)處理時(shí)候經(jīng)常使用的,最高效的做法就是通過(guò)正則判斷了,下面是我寫的筆記,希望對(duì)你有用
一. re中的sub函數(shù)
使用Python 的re模塊,re模塊提供了re.sub用于替換字符串中的匹配項(xiàng)。
re.sub(pattern, repl, string, count=0)
參數(shù)說(shuō)明:
- pattern:正則重的模式字符串
- repl:被拿來(lái)替換的字符串
- string:要被用于替換的原始字符串
- count:模式匹配后替換的最大次數(shù),省略則默認(rèn)為0,表示替換所有的匹配
1.1 提取中文
可以這樣想:我們可以通過(guò)將不是中文的字符替換為空不就可以了
例如
import re
str = "重出江湖hello的地H方。。的,world"
str = re.sub("[A-Za-z0-9,。]", "", str)
print(str)
輸出:神的孩子在唱歌
1.2 提取英文
import re
str = "重123出江湖hello的地H方。。的,world"
str = re.sub("[u4e00-u9fa5