利用Python抓取行政区划码的方法


Posted in Python onNovember 28, 2016

前言

国家统计局网站上有相对比较齐的行政区划码,对于一些网站来说这是非常基础的数据,所以写了个Python程序将这部分数据抓取下来。

注意:抓取下来以后还要进行简单的人工的整理

示例代码:

# -*- coding:utf-8 -*-
'''
获取国家统计局上的行政区划码
'''
import requests,re
base_url = 'http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201504/t20150415_712722.html'
 
def get_xzqh():
 html_data = requests.get(base_url).content
 pattern = re.compile('<p class="MsoNormal" style=".*?"><span lang="EN-US" style=".*?">(\d+)<span>.*?</span></span><span style=".*?">(.*?)</span></p>')
 areas = re.findall(pattern,html_data)
 print "code,name,level"
 for area in areas:
  print area[0],area[1].decode('utf-8').replace(u' ',''),area[1].decode('utf-8').count(u' ')
 
if __name__=='__main__':
 get_xzqh()

注意事项:

另外,关于国家地区表的信息,还有另外一种获取渠道,那就是QQ软件自带的国家地区信息表。(文件名为LocList.xml),一般的存储位置为:C:\Program Files\Tencent\QQ\I18N\2052

如需中文版安装中文版QQ即可获取,如需英文版则安装英文版QQ。国际版在1033目录。

code都是按照ISO3166标准写的,极易导入数据库。

总结

以上就是利用Python获取行政区划码的全部内容,希望本文的内容对大家学习或者使用python能有所帮助,如果有疑问大家可以留言交流。

Python 相关文章推荐
Python sys.argv用法实例
May 28 Python
Python解析excel文件存入sqlite数据库的方法
Nov 15 Python
Python实现读取txt文件并画三维图简单代码示例
Dec 09 Python
Python实现从log日志中提取ip的方法【正则提取】
Mar 31 Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 Python
浅谈Python采集网页时正则表达式匹配换行符的问题
Dec 20 Python
详解Python爬取并下载《电影天堂》3千多部电影
Apr 26 Python
python数据归一化及三种方法详解
Aug 06 Python
Python pandas RFM模型应用实例详解
Nov 20 Python
TensorFlow获取加载模型中的全部张量名称代码
Feb 11 Python
python语言time库和datetime库基本使用详解
Dec 25 Python
Python学习之异常中的finally使用详解
Mar 16 Python
Python抓取手机号归属地信息示例代码
Nov 28 #Python
Python文本相似性计算之编辑距离详解
Nov 28 #Python
Python实现全角半角字符互转的方法
Nov 28 #Python
Python连接PostgreSQL数据库的方法
Nov 28 #Python
windows及linux环境下永久修改pip镜像源的方法
Nov 28 #Python
Python如何为图片添加水印
Nov 25 #Python
Python pass详细介绍及实例代码
Nov 24 #Python
You might like
zend framework配置操作数据库实例分析
2012/12/06 PHP
Thinkphp多文件上传实现方法
2014/10/31 PHP
php+mysqli使用面向对象方式更新数据库实例
2015/01/29 PHP
搭建Vim为自定义的PHP开发工具的一些技巧
2015/12/11 PHP
php微信公众号开发模式详解
2016/11/28 PHP
json 入门基础教程 推荐
2009/10/31 Javascript
ExtJs 表单提交登陆实现代码
2010/08/19 Javascript
基于jquery的一个OutlookBar类,动态创建导航条
2010/11/19 Javascript
Javascript在IE和FireFox中的不同表现简析
2012/12/03 Javascript
Jquery:ajax实现翻页无刷新功能代码
2013/08/05 Javascript
node.js中的console.time方法使用说明
2014/12/09 Javascript
详解iframe与frame的区别
2016/01/13 Javascript
怎么限制input的text里输入的值只能是数字(正则、js)
2016/05/16 Javascript
js实现带缓动动画的导航栏效果
2017/01/16 Javascript
基于jQuery实现弹幕APP
2017/02/10 Javascript
微信小程序实现实时圆形进度条的方法示例
2017/02/24 Javascript
12个非常有用的JavaScript技巧
2017/05/17 Javascript
Windows下使用Nodejs运行js的方法
2017/09/02 NodeJs
webpack组织模块打包Library的原理及实现
2018/03/10 Javascript
jQuery Ajax实现Select多级关联动态绑定数据的实例代码
2018/10/26 jQuery
详解element-ui级联菜单(城市三级联动菜单)和回显问题
2019/10/02 Javascript
用vue写一个日历
2020/11/02 Javascript
[02:07]2018DOTA2亚洲邀请赛主赛事第三日五佳镜头 fy极限反杀
2018/04/06 DOTA
[01:14]TI珍贵瞬间系列(六):冠军
2020/08/30 DOTA
Python中pip安装非PyPI官网第三方库的方法
2015/06/02 Python
python 获取当天凌晨零点的时间戳方法
2018/05/22 Python
解决PyCharm同目录下导入模块会报错的问题
2018/10/13 Python
python实现windows壁纸定期更换功能
2019/01/21 Python
PyQt5内嵌浏览器注入JavaScript脚本实现自动化操作的代码实例
2019/02/13 Python
Python中使用遍历在列表中添加字典遇到的坑
2019/02/27 Python
python找出因数与质因数的方法
2019/07/25 Python
Python实现随机生成任意数量车牌号
2020/01/21 Python
Python装饰器结合递归原理解析
2020/07/02 Python
HTML5 微格式和相关的属性名称
2010/02/10 HTML / CSS
畜牧兽医本科生个人的自我评价
2013/10/11 职场文书
开票员岗位职责
2015/02/12 职场文书