使用python BeautifulSoup库抓取58手机维修信息


Posted in Python onNovember 21, 2013

直接上代码:

#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib
import os,datetime,string
import sys
from bs4 import BeautifulSoup
reload(sys)
sys.setdefaultencoding('utf-8')
__BASEURL__ = 'http://bj.58.com/'
__INITURL__ = "http://bj.58.com/shoujiweixiu/"
soup = BeautifulSoup(urllib.urlopen(__INITURL__))
lvlELements = soup.html.body.find('div','selectbarTable').find('tr').find_next_sibling('tr')('a',href=True)
f = open('data1.txt','a')
for element in lvlELements[1:]:
    f.write((element.get_text()+'\n\r' ))
    url = __BASEURL__ + element.get('href')
    print url
    soup = BeautifulSoup(urllib.urlopen(url))
    lv2ELements = soup.html.body.find('table','tblist').find_all('tr')
    for item in lv2ELements:
        addr = item.find('td','t').find('a').get_text()
        phone = item.find('td','tdl').find('b','tele').get_text()
        f.write('地址:'+addr +' 电话:'+ phone + '\r\n\r')
f.close()

直接执行后,存在 data1.txt中就会有商家的地址和电话等信息。
BeautifulSoup  api 的地址为: http://www.crummy.com/software/BeautifulSoup/bs4/doc/

Python 相关文章推荐
安装Python和pygame及相应的环境变量配置(图文教程)
Jun 04 Python
Python3使用PyQt5制作简单的画板/手写板实例
Oct 19 Python
从头学Python之编写可执行的.py文件
Nov 28 Python
PyQt5实现无边框窗口的标题拖动和窗口缩放
Apr 19 Python
Python3实现腾讯云OCR识别
Nov 27 Python
flask应用部署到服务器的方法
Jul 12 Python
Python列表删除元素del、pop()和remove()的区别小结
Sep 11 Python
python关闭占用端口方式
Dec 17 Python
Node.js 和 Python之间该选择哪个?
Aug 05 Python
Python3如何使用tabulate打印数据
Sep 25 Python
用python实现监控视频人数统计
May 21 Python
Python实现PIL图像处理库绘制国际象棋棋盘
Jul 16 Python
python BeautifulSoup使用方法详解
Nov 21 #Python
python装饰器使用方法实例
Nov 21 #Python
tornado框架blog模块分析与使用
Nov 21 #Python
python迭代器的使用方法实例
Nov 21 #Python
python生成器的使用方法
Nov 21 #Python
python单链表实现代码实例
Nov 21 #Python
python双向链表实现实例代码
Nov 21 #Python
You might like
全国FM电台频率大全 - 19 广东省
2020/03/11 无线电
php flv视频时间获取函数
2010/06/29 PHP
php中使用addslashes函数报错问题的解决方法
2013/02/06 PHP
JS 文件本身编码转换 图文教程
2009/10/12 Javascript
jQuery 获取对象 根据属性、内容匹配, 还有表单元素匹配
2010/05/31 Javascript
处理及遍历XML文档DOM元素属性及方法整理
2013/08/23 Javascript
js解析json读取List中的实体对象示例
2014/03/11 Javascript
AngularJS基础学习笔记之简单介绍
2015/05/10 Javascript
js实现分割上传大文件
2016/03/09 Javascript
基于jQuery实现仿百度首页选项卡切换效果
2016/05/29 Javascript
BootStrap 智能表单实战系列(二)BootStrap支持的类型简介
2016/06/13 Javascript
使用JS在浏览器中判断当前网络连接状态的几种方法
2017/05/05 Javascript
Angularjs验证用户输入的字符串是否为日期时间
2017/06/01 Javascript
nodejs 最新版安装npm 的使用详解
2018/01/18 NodeJs
Node.js 使用jade模板引擎的示例
2018/05/11 Javascript
详解ES6 Fetch API HTTP请求实用指南
2018/11/14 Javascript
修改layui的后台模板的左侧导航栏可以伸缩的方法
2019/09/10 Javascript
Python多线程结合队列下载百度音乐的方法
2015/07/27 Python
python实现自动解数独小程序
2019/01/21 Python
python获取时间戳的实现示例(10位和13位)
2020/09/23 Python
python 删除系统中的文件(按时间,大小,扩展名)
2020/11/19 Python
JustFab加拿大:女鞋、靴子、手袋和服装在线
2018/05/18 全球购物
Maisons du Monde德国:法国家具和装饰的市场领导者
2019/07/26 全球购物
彪马香港官方网上商店:PUMA香港
2020/12/06 全球购物
优秀员工自荐信范文
2013/10/05 职场文书
勤奋学习演讲稿
2014/05/10 职场文书
学生党员公开承诺书
2014/05/28 职场文书
安全横幅标语
2014/06/09 职场文书
安全标语大全
2014/06/10 职场文书
大学专科求职信
2014/07/02 职场文书
社区活动策划方案
2014/08/21 职场文书
公司财务会计主管应聘求职信
2014/09/26 职场文书
2016年会开场白台词
2015/06/01 职场文书
小学同学聚会感言
2015/07/30 职场文书
2016入党积极分子党课学习心得体会
2015/10/09 职场文书
古诗文之爱国名句(77句)
2019/09/24 职场文书