代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
Python
】
实现爬虫下载美女图片
作者:
Ben
/ 发布于
2015/7/15
/
653
#-*- coding:utf-8 -*- http://www.aichengxu.com import urllib2 import re import requests from lxml import etree 这些是要导入的库,代码并没有使用正则,使用的是xpath,正则困难的童鞋可以尝试使用下 推荐各位先使用基本库来写,这样可以学习到更多 links=[] #遍历url的地址 k=1 print u'请输入最后的页数:' endPage=int(raw_input()) #最终的页数 (r'\d+(?=\s*页) 这是一个比较通用的正则抓取总页数的代码,当然最后要group #这里是手动输入页数,避免内容太多 for j in range(0,endPage): url='http://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn='+str(j) #页数的url地址 html=urllib2.urlopen(url).read() #读取首页的内容 selector=etree.HTML(html) #转换为xml,用于在接下来识别 links=selector.xpath('//div/a[@class="j_th_tit"]/@href') #抓取当前页面的所有帖子的url #大家可以使用浏览器自带的源码查看工具,在指定目标处查看元素,这样更快捷 for i in links: url1="http://tieba.baidu.com"+i #因为爬取到的地址是相对地址,所以要加上百度的domain html2=urllib2.urlopen(url1).read() #读取当前页面的内容 selector=etree.HTML(html2) #转换为xml用于识别 link=selector.xpath('//img[@class="BDE_Image"]/@src') #抓取图片,各位也可以更换为正则,或者其他你想要的内容 #此处就是遍历下载 for each in link: #print each print u'正在下载%d'%k fp=open('image/'+str(k)+'.bmp','wb') #下载在当前目录下 image文件夹内,图片格式为bmp image1=urllib2.urlopen(each).read() #读取图片的内容 fp.write(image1) #写入图片 fp.close() k+=1 #k就是文件的名字,每下载一个文件就加1 print u'下载完成!'
试试其它关键字
爬虫下载
同语言下
.
比较两个图片的相似度
.
过urllib2获取带有中文参数的url内容
.
不下载获取远程图片的宽度和高度及文件大小
.
通过qrcode库生成二维码
.
通过httplib发送GET和POST请求
.
Django下解决小文件下载
.
遍历windows的所有窗口并输出窗口标题
.
根据窗口标题调用窗口
.
python 抓取搜狗指定公众号
.
pandas读取指定列
可能有用的
.
C#实现的html内容截取
.
List 切割成几份 工具类
.
SQL查询 多列合并成一行用逗号隔开
.
一行一行读取txt的内容
.
C#动态修改文件夹名称(FSO实现,不移动文件)
.
c# 移动文件或文件夹
.
c#图片添加水印
.
Java PDF转换成图片并输出给前台展示
.
网站后台修改图片尺寸代码
.
处理大图片在缩略图时的展示
Ben
贡献的其它代码
(
12
)
.
单位转换类 DensityUtils
.
生成透明的二维码
.
实现爬虫下载美女图片
.
屏蔽关键字
.
利用js,无插件完成报表打印
.
ip地址和int相互转换
.
日期是否合法
.
打印datatable
.
webservice双工通讯
.
android下载工具类
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3