www.5129.net > Python爬虫正则表达式匹配多个给定字符串间的内容

Python爬虫正则表达式匹配多个给定字符串间的内容

你的正则表达式使用了贪婪模式的匹配(.*),应该用非贪婪模式,正则表达式应该为<a href=

import repattern = '<a.*?href="(.+)&qu

# encoding: UTF-8 import re # 将正则表达式编译成Pattern对象

会的话,更好,有时候会达到事半功倍的效果。比如有些网站,比如58,它的帖子页面地址是58.com/z

这样写最简单,也只能匹配help <div class="help"&g

简单说: 使用正则,或者专门处理解析html的库,去提取即可; 详细说: 你巧了。我之

如果正则表达式没有问题的话,建议先打印content,如果没有结果的话,根据爬豆瓣的经验,一般要在r

解析HTML,最好不要使用正则表达式 而是使用专门的HTML解析器,比如Python的lxml包 举

你的正则表达式应该是src=不是sre= 另外,src属性可能不在<img>标签的末尾

网站地图

All rights reserved Powered by www.5129.net

copyright ©right 2010-2021。
www.5129.net内容来自网络,如有侵犯请联系客服。zhit325@qq.com