代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
Python
】
抓取国家统计局网站最新县及县以上行政区划代码
作者:
G.Conanca
/ 发布于
2012/6/25
/
968
抓取国家统计局网站上的最新县及县以上行政区划代码,并保存成json格式的文件
<div>! /usr/bin/env python # -*- coding: utf-8 -*-</div> <div>'''抓取 国家统计局网站 上的最新县及县以上行政区划代码,并保存成 json 格式的js文件 by Conanca '''</div> import urllib2,json</div> <div>xzqhdm_list_url = 'http://www.stats.gov.cn/tjbz/xzqhdm/index.htm' url_prefix = 'http://www.stats.gov.cn/tjbz/xzqhdm/'</div> <div>var_text = 'xzqh' code_text = 'C' name_text = 'N' sub_text = 'S' file_path = 'xzqh.js'</div> <div>def set_proxy(proxy): ''' 设置代理服务器 ''' urllib2.install_opener(urllib2.build_opener(urllib2.ProxyHandler({'http' : proxy})))</div> <div>def get_latest_page(): ''' 获取最新的行政区划代码公布页 ''' content = urllib2.urlopen(xzqhdm_list_url).read() index_start = content.find("<td width='76%' height='20' valign='middle'><a href='") + 53 index_end = content.find("' target='_blank' class='a2'>") xzqhdm_url = content[index_start:index_end] xzqhdm_url = url_prefix + xzqhdm_url print 'latest page:' + xzqhdm_url return xzqhdm_url</div> <div>def crawl_page(xzqhdm_url): ''' 爬行政区划代码公布页 ''' print 'crawling...' content = urllib2.urlopen(xzqhdm_url).read() index_start = content.find('''<td class='content'><span class="content">''') + 42 index_end = content.find("<BR></span></td>") content = content[index_start:index_end] # print content return content</div> <div>def convert(content): print 'converting...' ''' 将爬到的内容转换为行政区划 list ''' item_arr = content.replace(' ','*').split('<BR>') p_list = [] current_p = {} current_p_sub = [] current_c = {} current_c_sub = [] current_d = {} for item_str in item_arr: #print item_str if item_str.count('*')==1: print 'got a province:'+item_str if len(current_p)!=0: # 为当前省 设置其子项;省列表中添加当前省 current_p[sub_text] = current_p_sub p_list.append(current_p) # 赋值 当前省;初始化 当前省的子项 current_p = creat_item(item_str) current_p_sub = [] elif item_str.count('*')==3: print '********got a city:'+item_str # 赋值 当前市;初始化 当前市的子项 current_c = creat_item(item_str) current_c_sub = [] if len(current_c)!=0: # 为当前市 设置其子项;当前省的子项中添加当前市 current_c[sub_text] = current_c_sub current_p_sub.append(current_c) elif item_str.count('*')>=5: print '****************got a district:'+item_str # 赋值 当前区县;当前市的子项中添加当前区县 current_d = creat_item(item_str) current_c_sub.append(current_d) else : print 'invaild item string:'+item_str return p_list</div> <div>def creat_item(item_str): ''' 根据字符串创建条目对象 ''' t = item_str.split(' ') code = t[0].replace('*','') name = t[1].replace('*','') item = {code_text:code,name_text:name} #print item return item</div> <div>def write_to(content,file_path): ''' 将行政区划列表写入指定的js文件中 ''' print 'writing...' f = open(file_path, 'w') f.write('var {0}={1}'.format(var_text,content)) f.close() print 'finished!' if __name__ == '__main__': #set_proxy('http://192.168.2.61:8080') url = get_latest_page() content = crawl_page(url) p_list = convert(content) write_to(json.dumps(p_list,ensure_ascii=False,separators=(',',':')),file_path)</div>
试试其它关键字
县及县以上行政区划代码
同语言下
.
比较两个图片的相似度
.
过urllib2获取带有中文参数的url内容
.
不下载获取远程图片的宽度和高度及文件大小
.
通过qrcode库生成二维码
.
通过httplib发送GET和POST请求
.
Django下解决小文件下载
.
遍历windows的所有窗口并输出窗口标题
.
根据窗口标题调用窗口
.
python 抓取搜狗指定公众号
.
pandas读取指定列
可能有用的
.
C#实现的html内容截取
.
List 切割成几份 工具类
.
SQL查询 多列合并成一行用逗号隔开
.
一行一行读取txt的内容
.
C#动态修改文件夹名称(FSO实现,不移动文件)
.
c# 移动文件或文件夹
.
c#图片添加水印
.
Java PDF转换成图片并输出给前台展示
.
网站后台修改图片尺寸代码
.
处理大图片在缩略图时的展示
G.Conanca
贡献的其它代码
(
1
)
.
抓取国家统计局网站最新县及县以上行政区划代码
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3