代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
Python
】
淘宝商品简单爬虫
作者:
咏泰
/ 发布于
2018/3/26
/
1070
淘宝商品简单爬虫,主要的运用re、request、parse(用于urlopen读取带中文的连接)模块,读取和操作html标签,还有文件操作。
#!/usr/bin/python # -*- coding: UTF-8 -*- # @Time : 2018/3/26 0:37 # @Author : LeiYang # @Site : # @File : aa.py # @Software: PyCharm import re; import urllib from urllib import request,parse; searchName = "口红" pages = 10 url = 'https://s.taobao.com/search?'; #网址 payload = {'q':searchName,'s': '1','ie':'utf8'} #字典传递url参数 file = open('口红价格表.txt','w',encoding='utf-8') #打开文件 for k in range(1,pages): urlg = url; payload['s'] = k ; for key, values in payload.items(): urlg += key + "=" + str(values) + "&"; print(urlg) urlg = urllib.parse.quote(urlg, safe='/:?=') #safe是个关键参数必带 # resp = request.urlopen(urlg.encode('utf-8')).read().decode('utf-8') resp = request.urlopen(urlg).read().decode('utf-8') print(resp) #获取了页面标签,开始匹配正则 #获取标题 reName = re.compile(r'"raw_title":"([^"]+)') #正则 listName = reName.findall(resp); #获取到标题列表 #获取价格 reValue = re.compile(r'"view_price":"([^"]+)') listValue = reValue.findall(resp) #正则 print(listValue) #获取到价格列表 #列表长度 listLen = len(listValue); #将数据写入文本中 for num in range(listLen): curNum = (k - 1) * listLen + num ; file.write('序号:' + str(curNum) + "\n" + "名字:" + listName[num] + "\n" + "价格:" + str(listValue[num]) + "\n\n") #关闭文件 file.close()
试试其它关键字
同语言下
.
比较两个图片的相似度
.
过urllib2获取带有中文参数的url内容
.
不下载获取远程图片的宽度和高度及文件大小
.
通过qrcode库生成二维码
.
通过httplib发送GET和POST请求
.
Django下解决小文件下载
.
遍历windows的所有窗口并输出窗口标题
.
根据窗口标题调用窗口
.
python 抓取搜狗指定公众号
.
pandas读取指定列
可能有用的
.
比较两个图片的相似度
.
过urllib2获取带有中文参数的url内容
.
不下载获取远程图片的宽度和高度及文件大小
.
通过qrcode库生成二维码
.
通过httplib发送GET和POST请求
.
Django下解决小文件下载
.
遍历windows的所有窗口并输出窗口标题
.
根据窗口标题调用窗口
.
python 抓取搜狗指定公众号
.
pandas读取指定列
咏泰
贡献的其它代码
(
9
)
.
淘宝商品简单爬虫
.
MyBatis mapper.xml文件中的curd语句
.
Caesar凯撒加密的解密
.
公历获取生肖和公历获取农历
.
获取系统文件图标
.
Gridview中Datakeys 通过主键取得各列的值
.
查找文件中关键字及其个数统计
.
iframe去除滚动条
.
一次性创建多级目录
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3