代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
Python
】
批量下载图片
作者:
沉淀岁月
/ 发布于
2013/9/13
/
1018
#!/usr/bin/env python #-*-coding:utf-8-*-' #Filename:download_file.py import os,sys import re import urllib import urllib2 base_url = 'xxx' array_url = list() pic_url = list() inner_url = list() def get_array_url(array_url,base_url): content = urllib.urlopen(base_url).read() array_url_a = re.findall(r'/rihan.*?.html',content) for url in array_url_a: url_a = 'xxx'+url #print url_a array_url.append(url_a) def get_inner_url(array_url,inner_url): inner_url.append(array_url) content = urllib.urlopen(array_url[10]).read() content = content.replace(" ","") url_a = re.findall(r'<li>.*?</li>',content) for i in url_a: url = re.findall(r'ahref=\\'.*?.html\\'target',i) if len(url)>0: # print url[0] url_b = re.sub(r'ahref=\\'','',url[0]) # print url_b url_c = re.sub(r'\\'target','',url_b) url_c = 'http://xxx/'+re.sub(r'/.*/','',url_c) inner_url.append(url_c) del inner_url[1] # print inner_url def get_pic_url(pic_url,inner_url,array_url): content = urllib.urlopen(array_url).read() pic_url_a = re.findall(r'center.*?.jpg',content) print 'bbbbbbbbb',len(pic_url_a) pic_url_a = re.findall(r'http://.*.jpg',pic_url_a[0]) pic_url.append(pic_url_a[0]) j=2 for i in inner_url: jj = '/'+str(j)+'.jpg' pic = re.sub(r'/1.jpg',jj,pic_url_a[0]) pic_url.append(pic) j = j+1 del pic_url[-1] for i in pic_url: print i def urlcallback(a,b,c): """ call back function a,已下载的数据块 b,数据块的大小 c,远程文件的大小 """ print "callback" prec=100.0*a*b/c if 100 < prec: prec=100 print "%.2f%%"%(prec,) def download(img_url,file_num): for img in img_url: print img img_name = re.sub(r'http://.*/','',img) path = 'C:/'+str(file_num)+'/'+img_name urllib.urlretrieve(img,path,urlcallback) get_array_url(array_url,base_url) file_num = 3 #download(pic_url,file_num) get_inner_url(url,inner_url) get_pic_url(pic_url,inner_url,url) ''' for url in array_url: print url # get_inner_url(url,inner_url) # get_pic_url(pic_url,inner_url) get_inner_url(url,inner_url) get_pic_url(pic_url,inner_url,url) download(pic_url,file_num) file_num = file_num+1 del inner_url[:] del pic_url[:] '''
试试其它关键字
批量下载图片
同语言下
.
比较两个图片的相似度
.
过urllib2获取带有中文参数的url内容
.
不下载获取远程图片的宽度和高度及文件大小
.
通过qrcode库生成二维码
.
通过httplib发送GET和POST请求
.
Django下解决小文件下载
.
遍历windows的所有窗口并输出窗口标题
.
根据窗口标题调用窗口
.
python 抓取搜狗指定公众号
.
pandas读取指定列
可能有用的
.
C#实现的html内容截取
.
List 切割成几份 工具类
.
SQL查询 多列合并成一行用逗号隔开
.
一行一行读取txt的内容
.
C#动态修改文件夹名称(FSO实现,不移动文件)
.
c# 移动文件或文件夹
.
c#图片添加水印
.
Java PDF转换成图片并输出给前台展示
.
网站后台修改图片尺寸代码
.
处理大图片在缩略图时的展示
沉淀岁月
贡献的其它代码
(
39
)
.
CSS置顶页脚
.
CSS跨浏览器透明度
.
timer定时器的用法演示
.
PHP实现网站保存快捷桌面方式
.
定位函数所在模块
.
提示信息的自动隐藏
.
提交表单后禁用提交按钮
.
文本框输入值文字消失
.
批量剪切图片
.
批量生成ETL Automation APP下Perl脚本执行目录
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3