App下載

如何使用python提取字符串的中英文(正則判斷)

辦公任 2021-08-16 14:06:28 瀏覽數(shù) (7700)
反饋

在日常開(kāi)發(fā)中,從一個(gè)字符串中提取其中的一些內(nèi)容是很常見(jiàn)的業(yè)務(wù)需求之一。那么如何使用python提取字符串中的中英文呢?比較常見(jiàn)的做法是使用正則判斷來(lái)進(jìn)行數(shù)據(jù)提取,接下來(lái)我們就來(lái)看看怎么用正則判斷匹配我們需要的字符串并篩選出來(lái)吧。

前言

提取中英文是我們?cè)谧鰯?shù)據(jù)處理時(shí)候經(jīng)常使用的,最高效的做法就是通過(guò)正則判斷了,下面是我寫(xiě)的筆記,希望對(duì)你有用

一. re中的sub函數(shù)

使用Python 的re模塊,re模塊提供了re.sub用于替換字符串中的匹配項(xiàng)。

re.sub(pattern, repl, string, count=0)

參數(shù)說(shuō)明:

  • pattern:正則重的模式字符串
  • repl:被拿來(lái)替換的字符串
  • string:要被用于替換的原始字符串
  • count:模式匹配后替換的最大次數(shù),省略則默認(rèn)為0,表示替換所有的匹配

1.1 提取中文

可以這樣想:我們可以通過(guò)將不是中文的字符替換為空不就可以了

例如

import re
str = "重出江湖hello的地H方。。的,world"
str = re.sub("[A-Za-z0-9,。]", "", str)
print(str)
輸出:神的孩子在唱歌

1.2 提取英文

import re
str = "重123出江湖hello的地H方。。的,world"
str = re.sub("[u4e00-u9fa5