代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
Python
】
周期性抓取网页内容
作者:
intergret
/ 发布于
2012/3/6
/
920
1.使用sched模块可以周期性地执行指定函数 2.在周期性执行指定函数中抓取指定网页,并解析出想要的网页内容,代码中是六维论坛的在线人数
<div>coding=utf-8</div> import time,sched,os,urllib2,re,string</div> <div></div> <div>初始化sched模块的scheduler类</div> <div>第一个参数是一个可以返回时间戳的函数,第二个参数可以在定时未到达之前阻塞。</div> <div>s = sched.scheduler(time.time,time.sleep)</div> <div></div> <div>被周期性调度触发的函数</div> <div>def event_func():</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span>req = urllib2.Request('http://bt.neu6.edu.cn/')</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span>response = urllib2.urlopen(req)</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span>rawdata = response.read()</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span>response.close()</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span></div> <div><span class="Apple-tab-span" style="white-space:pre"> </span>usernump = re.compile(r'总计 <em>.*?</em> 人在线')</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span>usernummatch = usernump.findall(rawdata)</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span>if usernummatch:</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span>currentnum=usernummatch[0]</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span>currentnum=currentnum[string.index(currentnum,'>')+1:string.rindex(currentnum,'<')]</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span>print "Current Time:",time.strftime('%Y,%m,%d,%H,%M',time.localtime(time.time())),'User num:',currentnum</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span></div> <div><span class="Apple-tab-span" style="white-space:pre"> </span># 保存结果,供图表工具amcharts使用</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span>result=open('liuvUserNUm','a')</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span>result.write('{year: new Date('+time.strftime('%Y,%m,%d,%H,%M',time.localtime(time.time()))+'),value:'+currentnum+'},\n')</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span>result.close()</div> <div></div> <div>enter四个参数分别为:间隔事件、优先级(用于同时间到达的两个事件同时执行时定序)、被调用触发的函数,给他的参数(注意:一定要以tuple给如,如果只有一个参数就(xx,))</div> <div>def perform(inc):</div> <div> s.enter(inc,0,perform,(inc,))</div> <div> event_func()</div> <div> </div> <div>def mymain(inc=900):</div> <div> s.enter(0,0,perform,(inc,))</div> <div> s.run()</div> <div></div> if __name__ == "__main__":</div> <div><span class="Apple-tab-span" style="white-space:pre"> </span>mymain()</div>
试试其它关键字
抓取网页内容
同语言下
.
比较两个图片的相似度
.
过urllib2获取带有中文参数的url内容
.
不下载获取远程图片的宽度和高度及文件大小
.
通过qrcode库生成二维码
.
通过httplib发送GET和POST请求
.
Django下解决小文件下载
.
遍历windows的所有窗口并输出窗口标题
.
根据窗口标题调用窗口
.
python 抓取搜狗指定公众号
.
pandas读取指定列
可能有用的
.
C#实现的html内容截取
.
List 切割成几份 工具类
.
SQL查询 多列合并成一行用逗号隔开
.
一行一行读取txt的内容
.
C#动态修改文件夹名称(FSO实现,不移动文件)
.
c# 移动文件或文件夹
.
c#图片添加水印
.
Java PDF转换成图片并输出给前台展示
.
网站后台修改图片尺寸代码
.
处理大图片在缩略图时的展示
intergret
贡献的其它代码
(
4
)
.
Python 函数的周期性执行
.
oracle数据库连接及基本操作封装
.
树形菜单
.
周期性抓取网页内容
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3