代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
Python
】
抓取网上的小说章节并写入txt文件
作者:
lj_april
/ 发布于
2012/10/22
/
834
import urllib.request as web</div> import re</div> <div></div> <div>'''用来过滤出小说html中小说的章节名与内容'''</div> <div>def getContent(url):</div> <div> http = str(web.urlopen(url).read(),encoding='GBK')</div> <div> title = re.findall('<h1>.*?</h1>',http)[0]</div> <div> title = re.sub('</?h1>','',title)</div> <div> </div> <div> content = re.findall('<div id="content">.*?</div>',http)[0]</div> <div> content = re.sub('','\n',content)</div> <div> content = re.sub('<div id="content">|</div>','',content)</div> <div> content = re.sub(' ',' ',content)</div> <div> return (title,content)</div> <div></div> <div>'''用来获取目录页码html下的章节超链接'''</div> <div>def getUrlList(url):</div> <div> http = str(web.urlopen(url).read(),encoding='GBK')</div> <div> lis = re.findall('<a.*?章.*?</a>',http)</div> <div> hrefs = []</div> <div> for l in lis:</div> <div> try:</div> <div> hrefs.append(l.split('"')[1])</div> <div> except:</div> <div> pass</div> <div> return hrefs</div> <div></div> <div></div> if __name__ == '__main__':</div> <div> url = '小说地址url'</div> <div> f = open('e://name.txt',mode='w')</div> <div> urlList = getUrlList(url)</div> <div> numUrlList = []</div> <div> for u in urlList[:-1]:</div> <div> try:</div> <div> #print(url,' ',url[:-5])</div> <div> numUrlList.append(int(u[:-5]))</div> <div> except:</div> <div> pass</div> <div> numUrlList.sort()</div> <div></div> <div> for href in numUrlList:</div> <div> h = url + str(href) + '.html'</div> <div> print(h)</div> <div> try:</div> <div> c = getContent(h)</div> <div> except:</div> <div> try:</div> <div> c = getContent(h)</div> <div> except:</div> <div> print('读取失败了')</div> <div> continue</div> <div> title,content = c</div> <div> print(title,'完成')</div> <div> f.write(title+'\n')</div> <div> f.write(content)</div> <div> f.write('\n')</div> <div> print('全部完成了,ohyeah')</div> <div> f.close() </div> <div></div>
试试其它关键字
写入txt文件
同语言下
.
比较两个图片的相似度
.
过urllib2获取带有中文参数的url内容
.
不下载获取远程图片的宽度和高度及文件大小
.
通过qrcode库生成二维码
.
通过httplib发送GET和POST请求
.
Django下解决小文件下载
.
遍历windows的所有窗口并输出窗口标题
.
根据窗口标题调用窗口
.
python 抓取搜狗指定公众号
.
pandas读取指定列
可能有用的
.
C#实现的html内容截取
.
List 切割成几份 工具类
.
SQL查询 多列合并成一行用逗号隔开
.
一行一行读取txt的内容
.
C#动态修改文件夹名称(FSO实现,不移动文件)
.
c# 移动文件或文件夹
.
c#图片添加水印
.
Java PDF转换成图片并输出给前台展示
.
网站后台修改图片尺寸代码
.
处理大图片在缩略图时的展示
lj_april
贡献的其它代码
(
2
)
.
抓取网上的小说章节并写入txt文件
.
简单的生成html
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3