当前位置：首页 > 技术 > 正文内容

Python re模块与正则表达式入门指南

访客技术 2026年7月1日 1

正则表达式的实际用途

很多网站或应用在用户输入手机号、邮箱等信息时，会实时验证格式是否正确。这种功能背后就是正则表达式在起作用。

比如，一个手机号校验需求：必须是11位纯数字，且以13、15、17、18或19开头。用纯Python代码实现如下：

while True:
    phone = input('请输入手机号: ').strip()
    if len(phone) == 11:
        if phone.isdigit():
            if phone.startswith('13') or phone.startswith('15') or \
               phone.startswith('17') or phone.startswith('18') or phone.startswith('19'):
                print('手机号合法')
            else:
                print('开头不符合要求')
        else:
            print('必须为纯数字')
    else:
        print('长度必须为11位')

而使用正则表达式配合Python的re模块，代码会简洁很多：

import re
phone = input('请输入手机号: ')
if re.match(r'^(13|14|15|18|19)[0-9]{9}$', phone):
    print('手机号合法')
else:
    print('手机号不合法')

正则表达式是一种独立的技术，几乎所有的编程语言都支持它。核心思想是用特殊符号的组合来描述字符串模式，从而快速筛选出满足条件的子串。

字符组

字符组用方括号[]表示，里面的字符是"或"关系——只要匹配到其中一个就算成功。

正则	含义
`[0123456789]`	匹配0-9任意数字（完整写法）
`[0-9]`	匹配0-9任意数字（简写）
`[a-z]`	匹配任意小写字母
`[A-Z]`	匹配任意大写字母
`[0-9a-zA-Z]`	匹配数字或大小写字母

例如[0-9]匹配字符串'78i2'会得到['7','8','2']，匹配'111'得到['1','1','1']。

特殊符号（元字符）

元字符能匹配一类字符，常用符号如下：

元字符	匹配内容
`.`	除换行符外的任意字符
`\w`	字母、数字、下划线
`\s`	空白符（空格、制表符等）
`\d`	数字
`^`	字符串开头
`$`	字符串结尾
`\|`	逻辑或
`()`	分组
`[]`	字符组
`[^...]`	取反字符组

注意：^在字符组[]内部表示取反，在外部表示匹配开头。例如[^a]匹配'ab-ab-a'得到['b','-','b','-']。

再看一个结合开头结尾的例子：^海.匹配'海燕海娇海东'只得到'海燕'（从开头匹配）；海.$则得到'海东'（从结尾匹配）。

量词

量词跟在字符或字符组后面，控制匹配次数：

量词	说明
`*`	零次或多次
`+`	一次或多次
`?`	零次或一次
`{n}`	恰好n次
`{n,}`	至少n次
`{n,m}`	n到m次

例如李.匹配'李杰和李莲英和李二棍子'，得到三个结果['李杰', '李莲', '李二']。而李.*会贪婪地匹配整个字符串，结果为['李杰和李莲英和李二棍子']。

贪婪与非贪婪

默认情况下，量词会尽可能多地匹配字符（贪婪模式）。在量词后加?可以切换为非贪婪模式，即匹配尽可能少的字符。

正则	待匹配字符串	结果	说明
`<.*>`	`<script>...</script>`	`<script>...</script>`	贪婪匹配，从第一个`<`到最后一个`>`
`<.*?>`	`<script>...</script>`	`<script>`和`</script>`	非贪婪，遇到第一个`>`就停止

转义符

反斜杠\用于转义特殊字符。例如\n表示换行符，\d表示数字。如果需要匹配字面意义的\n，则需要写\\n。在Python字符串前加r可以避免多次转义。

建议

对于常见的格式校验（如手机号、邮箱），不必从头写正则，直接在网上搜索现成的表达式即可，前人已经造好了轮子。

Python re模块

re模块提供了正则表达式的完整支持。

findall —— 查找所有匹配

import re
result = re.findall(r'e', 'leethon eat apple')
print(result)  # ['e', 'e', 'e', 'e']

finditer —— 返回迭代器

result = re.finditer(r'e', 'leethon')
for match in result:
    print(match.group())  # 依次输出每个匹配

search —— 查找第一个匹配

result = re.search(r'e', 'leethon')
if result:
    print(result.group())  # 'e'

match —— 仅匹配开头

result = re.match(r'e', 'leethon')
print(result)  # None，因为开头是'l'

compile —— 预编译正则

pattern = re.compile(r'\d{3}')  # 匹配连续三个数字
numbers1 = pattern.findall('23423422342342344')
numbers2 = pattern.findall('asjdkasjdk32423')
print(numbers1, numbers2)

split、sub、subn

# split: 按模式分割
parts = re.split(r'[ab]', 'abcd')
print(parts)  # ['', '', 'cd']

# sub: 替换，可指定替换次数
text = re.sub(r'\d', 'H', 'eva3jason4yuan4', count=1)
print(text)  # 'evaHjason4yuan4'

# subn: 返回(替换结果, 替换次数)
result = re.subn(r'\d', 'H', 'eva3jason4yuan4')
print(result)  # ('evaHjasonHyuanH', 3)

分组与命名

圆括号()用于分组，分组会改变findall的返回行为：

# 分组优先：findall只返回分组内的内容
result = re.findall(r'www.(baidu|oldboy).com', 'www.oldboy.com')
print(result)  # ['oldboy']

# 取消分组优先：使用(?:...)
result = re.findall(r'www.(?:baidu|oldboy).com', 'www.oldboy.com')
print(result)  # ['www.oldboy.com']

还可以给分组起别名，方便提取：

pattern = re.search(r'www.(?P<site>baidu|oldboy)(?P<suffix>.com)', 'www.oldboy.com')
print(pattern.group())          # www.oldboy.com
print(pattern.group('site'))    # oldboy
print(pattern.group(1))         # oldboy
print(pattern.group('suffix'))  # .com

标签: Python re模块正则表达式字符串匹配贪婪匹配

返回列表

上一篇：RMBG-2.0高效部署：24GB显存限制下的并发处理策略

下一篇：JavaFX串口通信实战指南

Linux crontab 详解

1) crontab 是什么cron 是 Linux 的定时任务守护进程；crontab 是用来编辑/查看“按时间周期执行命令”的表（cron table）。常见两类：用户 crontab：每个用户一份（crontab -e 编辑）系统级 crontab / cron.d：可指定执行用户（/etc/crontab、/etc/cron.d/*）2) crontab 时间...

富文本里可以允许的 HTML 属性

一、所有标签默认允许的安全属性（极少）class （可选）id （通常建议禁用）title️ 注意：id 容易被滥用做锚点注入，很多系统直接禁用class 允许的话最好只允许固定前缀（如 editor-*）二、a 标签允许属性<a href="" t...

方法一：通过官网安装包（最简单，适合初学者）如果你只是想快速安装并开始使用，这是最直接的方法。访问 Node.js 官网。页面会显示两个版本：LTS (Recommended For Most Users)：长期支持版，最稳定。建议选这个。Current：最新特性版，包含最新功能但可能不够稳定。下载 .pkg 安装包并运行。按照安装向导点击“下一步”即可完成。方法二：使用 Homebrew 安装（...

Dom\HTML_NO_DEFAULT_NS 的副作用：自动加闭合标签

在使用Dom\HTMLDocument时，Dom\HTML_NO_DEFAULT_NS 将禁止在解析过程中设置元素的命名空间, 此设置是为了与DOMDocument向后兼容而存在的。当使用它时，已知的一个副作用就是：自动加闭合标签例如 </img> 为什么会这样？当你使用：Dom\HTML_NO_DEFAULT_NS文档会变成无命名空间模式，此时内部更接近 XML...

Laravel 事件和监听器创建

在 Laravel 中，使用 Artisan 命令创建 Events（事件）和 Listeners（监听器）是非常高效的。你可以通过以下几种方式来实现：1. 手动创建单个 Event如果你只想创建一个事件类，可以使用 make:event 命令：Bashphp artisan make:event UserRegistered执行后，文件将生成在 app/Even...

自定义域名解析神器 dnsmasq

什么是 dnsmasq？dnsmasq 是一个轻量级、功能强大的网络服务工具，专为小型和中等规模网络设计。它是一个综合的网络基础设施解决方案[1]。dnsmasq 能做什么？功能说明应用场景DNS 转发与缓存将 DNS 查询转发到上游服务器（ISP、Google DNS 等），并在本地缓存结果加快 DNS 查询速度，减少外部 DNS 流量本地 DNS解析本地网络设备的主机名，无需编辑&n...

老程序员博客

Python re模块与正则表达式入门指南

正则表达式的实际用途

字符组

特殊符号（元字符）

量词

贪婪与非贪婪

转义符

建议

Python re模块

findall —— 查找所有匹配

finditer —— 返回迭代器

search —— 查找第一个匹配

match —— 仅匹配开头

compile —— 预编译正则

split、sub、subn

分组与命名

相关文章

Linux crontab 详解

富文本里可以允许的 HTML 属性

Mac 安装 Node.js 指南

Dom\HTML_NO_DEFAULT_NS 的副作用：自动加闭合标签

Laravel 事件和监听器创建

自定义域名解析神器 dnsmasq

发表评论

Copyright © agingcoder.cn

Powered By Z-BlogPHP. Theme by TOYEAN.

老程序员博客

Python re模块与正则表达式入门指南

正则表达式的实际用途

字符组

特殊符号（元字符）

量词

贪婪与非贪婪

转义符

建议

Python re模块

findall —— 查找所有匹配

finditer —— 返回迭代器

search —— 查找第一个匹配

match —— 仅匹配开头

compile —— 预编译正则

split、sub、subn

分组与命名

相关文章

Linux crontab 详解

富文本里可以允许的 HTML 属性

Mac 安装 Node.js 指南

Dom\HTML_NO_DEFAULT_NS 的副作用：自动加闭合标签

Laravel 事件和监听器创建

自定义域名解析神器 dnsmasq

发表评论取消回复

Copyright © agingcoder.cn

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论