利用Python抓取行政区划码的方法


Posted in Python onNovember 28, 2016

前言

国家统计局网站上有相对比较齐的行政区划码,对于一些网站来说这是非常基础的数据,所以写了个Python程序将这部分数据抓取下来。

注意:抓取下来以后还要进行简单的人工的整理

示例代码:

# -*- coding:utf-8 -*-
'''
获取国家统计局上的行政区划码
'''
import requests,re
base_url = 'http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201504/t20150415_712722.html'
 
def get_xzqh():
 html_data = requests.get(base_url).content
 pattern = re.compile('<p class="MsoNormal" style=".*?"><span lang="EN-US" style=".*?">(\d+)<span>.*?</span></span><span style=".*?">(.*?)</span></p>')
 areas = re.findall(pattern,html_data)
 print "code,name,level"
 for area in areas:
  print area[0],area[1].decode('utf-8').replace(u' ',''),area[1].decode('utf-8').count(u' ')
 
if __name__=='__main__':
 get_xzqh()

注意事项:

另外,关于国家地区表的信息,还有另外一种获取渠道,那就是QQ软件自带的国家地区信息表。(文件名为LocList.xml),一般的存储位置为:C:\Program Files\Tencent\QQ\I18N\2052

如需中文版安装中文版QQ即可获取,如需英文版则安装英文版QQ。国际版在1033目录。

code都是按照ISO3166标准写的,极易导入数据库。

总结

以上就是利用Python获取行政区划码的全部内容,希望本文的内容对大家学习或者使用python能有所帮助,如果有疑问大家可以留言交流。

Python 相关文章推荐
Python简单实现安全开关文件的两种方式
Sep 19 Python
matlab中实现矩阵删除一行或一列的方法
Apr 04 Python
Python查找两个有序列表中位数的方法【基于归并算法】
Apr 20 Python
python生成ppt的方法
Jun 07 Python
tensorflow: 查看 tensor详细数值方法
Jun 13 Python
python+Splinter实现12306抢票功能
Sep 25 Python
Python中shapefile转换geojson的示例
Jan 03 Python
python读写csv文件并增加行列的实例代码
Aug 01 Python
python实现一个猜拳游戏
Apr 05 Python
解决redis与Python交互取出来的是bytes类型的问题
Jul 16 Python
Python 随机按键模拟2小时
Dec 30 Python
python+selenium实现12306模拟登录的步骤
Jan 21 Python
Python抓取手机号归属地信息示例代码
Nov 28 #Python
Python文本相似性计算之编辑距离详解
Nov 28 #Python
Python实现全角半角字符互转的方法
Nov 28 #Python
Python连接PostgreSQL数据库的方法
Nov 28 #Python
windows及linux环境下永久修改pip镜像源的方法
Nov 28 #Python
Python如何为图片添加水印
Nov 25 #Python
Python pass详细介绍及实例代码
Nov 24 #Python
You might like
一个颜色轮换的简单例子
2006/10/09 PHP
PHP 中检查或过滤IP地址的实现代码
2011/11/27 PHP
PHP中Socket连接及读写数据超时问题分析
2016/07/19 PHP
javascript延时重复执行函数 lLoopRun.js
2007/06/29 Javascript
js 分栏效果实现代码
2009/08/29 Javascript
浏览器加载、渲染和解析过程黑箱简析
2012/11/29 Javascript
使用JavaScript判断手机浏览器是横屏还是竖屏问题
2016/08/02 Javascript
微信小程序 video组件详解
2016/10/25 Javascript
bootstrap快速制作后台界面
2016/12/05 Javascript
vue.js选中动态绑定的radio的指定项
2017/06/02 Javascript
Vue用v-for给src属性赋值的方法
2018/03/03 Javascript
JavaScript中的垃圾回收与内存泄漏示例详解
2019/05/02 Javascript
解决layui table表单提示数据接口请求异常的问题
2019/09/24 Javascript
python设置windows桌面壁纸的实现代码
2013/01/28 Python
Python学习笔记_数据排序方法
2014/05/22 Python
Python的time模块中的常用方法整理
2015/06/18 Python
python压缩文件夹内所有文件为zip文件的方法
2015/06/20 Python
python计算阶乘和的方法(1!+2!+3!+...+n!)
2019/02/01 Python
jupyter 中文乱码设置编码格式 避免控制台输出的解决
2020/04/20 Python
Python中zipfile压缩文件模块的基本使用教程
2020/06/14 Python
快速一键生成Python爬虫请求头
2021/03/04 Python
css3实现椭圆轨迹旋转的示例代码
2018/10/29 HTML / CSS
介绍一下sql server的安全性
2014/08/10 面试题
怎样写好自我鉴定
2013/12/04 职场文书
教育课题研究自我鉴定范文
2013/12/28 职场文书
国培教师自我鉴定
2014/02/12 职场文书
白酒市场营销方案
2014/02/25 职场文书
接待员岗位职责
2015/02/13 职场文书
2015年度电厂个人工作总结
2015/05/13 职场文书
答辩状格式范本
2015/05/22 职场文书
同意转租证明
2015/06/24 职场文书
JS数组的常用方法整理
2021/03/31 Javascript
Python实现老照片修复之上色小技巧
2021/10/16 Python
Java中的继承、多态以及封装
2022/04/11 Java/Android
解决Vmware虚拟机安装centos8报错“Section %Packages Does Not End With %End. Pane Is Dead”
2022/06/01 Servers
html5+实现plus.io进行拍照和图片等获取
2022/06/01 HTML / CSS