用Python爬虫抓站的一些技巧总结

百变鹏仔1年前 (2023-11-21)阅读数 14#技术干货

学用python也有3个多月了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过在discuz论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本，本来想写googlemusic的抓取脚本的，结果有了强大的gmbox，也就不用写了。

这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，再加上simplecd这个半爬虫半网站的项目，累积不少爬虫抓站的经验，在此总结一下，那么以后做东西也就不用重复劳动了。

1.最基本的抓站

importurllib2

用Python爬虫抓站的一些技巧总结

content=urllib2.urlopen('http://XXXX').read()

2.使用代理服务器

这在某些情况下比较有用，比如IP被封了，或者比如IP访问的次数受到限制等等。

importurllib2

proxy_support=urllib2.ProxyHandler({'http':'http://XX.XX.XX.XX:XXXX'})

opener=urllib2.build_opener(proxy_support,urllib2.HTTPHandler)

urllib2.install_opener(opener)

content=urllib2.urlopen('http://XXXX').read()

3.需要登录的情况

登录的情况比较麻烦我把问题拆分一下：

3.1cookie的处理

importurllib2,cookielib

cookie_support=urllib2.HTTPCookieProcessor(cookielib.CookieJar())

opener=urllib2.build_opener(cookie_support,urllib2.HTTPHandler)

urllib2.install_opener(opener)

content=urllib2.urlopen('http://XXXX').read()

是的没错，如果想同时用代理和cookie，那就加入proxy_support然后operner改为

opener=urllib2.build_opener(proxy_support,cookie_support,urllib2.HTTPHandler)

3.2表单的处理

登录必要填表，表单怎么填?首先利用工具截取所要填表的内容。

比如我一般用firefox+httpfox插件来看看自己到底发送了些什么包

这个我就举个例子好了，以verycd为例，先找到自己发的POST请求，以及POST表单项：

可以看到verycd的话需要填username,password,continueURI,fk,login_submit这几项，其中fk是随机生成的(其实不太随机，看上去像是把epoch时间经过简单的编码生成的)，需要从网页获取，也就是说得先访问一次网页，用正则表达式等工具截取返回数据中的fk项。continueURI顾名思义可以随便写，login_submit是固定的，这从源码可以看出。还有username，password那就很显然了。

好的，有了要填写的数据，我们就要生成postdata

importurllib

postdata=urllib.urlencode({

'username':'XXXXX',

'password':'XXXXX',

'continueURI':'http://www.verycd.com/',

'fk':fk,

'login_submit':'登录'

})

然后生成http请求，再发送请求：

req=urllib2.Request(

url='http://secure.verycd.com/signin/*/http://www.verycd.com/',

data=postdata

)

result=urllib2.urlopen(req).read()

3.3伪装成浏览器访问

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现：

headers={

'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-US;rv:1.9.1.6)Gecko/20091201Firefox/3.5.6'

}

req=urllib2.Request(

url='http://secure.verycd.com/signin/*/http://www.verycd.com/',

data=postdata,

headers=headers

)

3.4反”反盗链”

某些站点有所谓的反盗链设置，其实说穿了很简单，就是检查你发送请求的header里面，referer站点是不是他自己，所以我们只需要像3.3一样，把headers的referer改成该网站即可，以黑幕著称地cnbeta为例：

headers={

'Referer':'http://www.cnbeta.com/articles'

}

headers是一个dict数据结构，你可以放入任何想要的header，来做一些伪装。例如，有些自作聪明的网站总喜欢窥人隐私，别人通过代理访问，他偏偏要读取header中的X-Forwarded-For来看看人家的真实IP，没话说，那就直接把X-Forwarde-For改了吧，可以改成随便什么好玩的东东来欺负欺负他，呵呵。

3.5终极绝招

有时候即使做了3.1-3.4，访问还是会被据，那么没办法，老老实实把httpfox中看到的headers全都写上，那一般也就行了。再不行，那就只能用终极绝招了，selenium直接控制浏览器来进行访问，只要浏览器可以做到的，那么它也可以做到。类似的还有pamie，watir，等等等等。

4.多线程并发抓取

单线程太慢的话，就需要多线程了，这里给个简单的线程池模板这个程序只是简单地打印了1-10，但是可以看出是并发地。

fromthreadingimportThread

fromQueueimportQueue

fromtimeimportsleep

#q是任务队列

#NUM是并发线程总数

#JOBS是有多少任务

q=Queue()

NUM=2

JOBS=10

#具体的处理函数，负责处理单个任务

defdo_somthing_using(arguments):

printarguments

#这个是工作进程，负责不断从队列取数据并处理

defworking():

whileTrue:

arguments=q.get()

do_somthing_using(arguments)

sleep(1)

q.task_done()

#forkNUM个线程等待队列

foriinrange(NUM):

t=Thread(target=working)

t.setDaemon(True)

t.start()

#把JOBS排入队列

foriinrange(JOBS):

q.put(i)

#等待所有JOBS完成

q.join()

5.验证码的处理

碰到验证码咋办?这里分两种情况处理：

google那种验证码，凉拌

简单的验证码：字符个数有限，只使用了简单的平移或旋转加噪音而没有扭曲的，这种还是有可能可以处理的，一般思路是旋转的转回来，噪音去掉，然后划分单个字符，划分好了以后再通过特征提取的方法(例如PCA)降维并生成特征库，然后把验证码和特征库进行比较。这个比较复杂，一篇博文是说不完的，这里就不展开了，具体做法请弄本相关教科书好好研究一下。

事实上有些验证码还是很弱的，这里就不点名了，反正我通过2的方法提取过准确度非常高的验证码，所以2事实上是可行的。

6gzip/deflate支持

现在的网页普遍支持gzip压缩，这往往可以解决大量传输时间，以VeryCD的主页为例，未压缩版本247K，压缩了以后45K，为原来的1/5。这就意味着抓取速度会快5倍。

然而python的urllib/urllib2默认都不支持压缩，要返回压缩格式，必须在request的header里面写明’accept-encoding’，然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码，很繁琐琐碎。如何让urllib2自动支持gzip,defalte呢?

其实可以继承BaseHanlder类，然后build_opener的方式来处理：

importurllib2

fromgzipimportGzipFile

fromStringIOimportStringIO

classContentEncodingProcessor(urllib2.BaseHandler):

"""Ahandlertoaddgzipcapabilitiestourllib2requests"""

#addheaderstorequests

defhttp_request(self,req):

req.add_header("Accept-Encoding","gzip,deflate")

returnreq

#decode

defhttp_response(self,req,resp):

old_resp=resp

#gzip

ifresp.headers.get("content-encoding")=="gzip":

gz=GzipFile(

fileobj=StringIO(resp.read()),

mode="r"

)

resp=urllib2.addinfourl(gz,old_resp.headers,old_resp.url,old_resp.code)

resp.msg=old_resp.msg

#deflate

ifresp.headers.get("content-encoding")=="deflate":

gz=StringIO(deflate(resp.read()))

resp=urllib2.addinfourl(gz,old_resp.headers,old_resp.url,old_resp.code)#'classtoaddinfo()and

resp.msg=old_resp.msg

returnresp

#deflatesupport

importzlib

defdeflate(data):#zlibonlyprovidesthezlibcompressformat,notthedeflateformat;

try:#soontopofallthere'sthisworkaround:

returnzlib.decompress(data,-zlib.MAX_WBITS)

exceptzlib.error:

returnzlib.decompress(data)

然后就简单了，

encoding_support=ContentEncodingProcessor

opener=urllib2.build_opener(encoding_support,urllib2.HTTPHandler)

#直接用opener打开网页，如果服务器支持gzip/defalte则自动解压缩

content=opener.open(url).read()

以上内容为大家介绍了用Python爬虫抓站的一些技巧总结，希望对大家有所帮助，如果想要了解更多Python相关知识，请关注IT培训机构:开发教育。http://www.baikegou.com/

鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com

免责声明：我们致力于保护作者版权，注重分享，当前被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!邮箱：344225443@qq.com)

图片声明：本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明：本文中引用的各种信息及资料（包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主体（包括但不限于公司、媒体、协会等机构）的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理！本站为非盈利性质站点,本着为中国教育事业出一份力,发布内容不收取任何费用也不接任何广告!)