用python爬取租房网站信息的代码


Posted in Python onDecember 14, 2018

自己在刚学习python时写的,中途遇到很多问题,查了很多资料,下面就是我爬取租房信息的代码:

链家的房租网站
两个导入的包
1.requests 用来过去网页内容 
2.BeautifulSoup
import time
import pymssql
import requests
from bs4 import BeautifulSoup
#  https://wh.lianjia.com/zufang/
#获取url中下面的内容
def get_page(url):
  responce = requests.get(url)
  soup = BeautifulSoup(responce.text,'lxml')
  return soup
#封装成函数,作用是获取列表下的所有租房页面的链接,返回一个链接列表
def get_links(url):
  responce = requests.get(url)
  soup = BeautifulSoup(responce.text,'lxml')
  link_div = soup.find_all('div',class_ = 'pic-panel')
  links = [div.a.get('href') for div in link_div]
  return links
#收集一个房子的信息
def get_house_info(house_url):
  soup = get_page(house_url)
  price = soup.find('span',class_='total').text
  unit = soup.find('span',class_= 'unit').text[1:-1]
  area = soup.find('p', class_ = 'lf').text
  house_info= soup.find_all('p',class_ = 'lf')
  area = house_info[0].text[3:] #字符串切片工具
  layout = house_info[1].text[5:]
  info={
    '价格':price,
    '单位':unit,
    '面积':area,
    '户型':layout
    }
  return info
#链接数据库
server="192.168.xx.xx"  #换成自己的服务器信息
user="liujiepeng"
password="xxxxx"    #自己的数据库用户名和密码
conn=pymssql.connect(server,user,password,database="house")
def insert(conn,house):
  #sql_values = values.format(house['价格'],house['单位'],house['面积'],
                #house['户型'])
  sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["价格"],house["单位"],house["面积"],house["户型"])
  print(sql)
  cursor = conn.cursor() #游标,开拓新的窗口
  #cursor1 = conn.cursor()
  cursor.execute(sql) #执行sql语句
  conn.commit() #提交 ,更新sql 语句
links = get_links('https://wh.lianjia.com/zufang/')
count = 1
for link in links:
  #time.sleep(2)
  print('获取一个数据成功')
  house = get_house_info(link)
  insert(conn,house)
  print("第%s个数据,存入数据库成功!"%(count))
  count = count+1
  #print(house["价格"],end='\r')

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python中的高级数据结构详解
Mar 27 Python
Python的Tornado框架异步编程入门实例
Apr 24 Python
python Matplotlib画图之调整字体大小的示例
Nov 20 Python
python抓取文件夹的所有文件
Feb 27 Python
python利用小波分析进行特征提取的实例
Jan 09 Python
值得收藏的10道python 面试题
Apr 15 Python
django如何通过类视图使用装饰器
Jul 24 Python
python实现知乎高颜值图片爬取
Aug 12 Python
Python3搭建http服务器的实现代码
Feb 11 Python
PIL包中Image模块的convert()函数的具体使用
Feb 26 Python
python 密码学示例——凯撒密码的实现
Sep 21 Python
python实现b站直播自动发送弹幕功能
Feb 20 Python
从运行效率与开发效率比较Python和C++
Dec 14 #Python
对python产生随机的二维数组实例详解
Dec 13 #Python
详解Python with/as使用说明
Dec 13 #Python
在python中以相同顺序shuffle两个list的方法
Dec 13 #Python
对python GUI实现完美进度条的示例详解
Dec 13 #Python
PyTorch 1.0 正式版已经发布了
Dec 13 #Python
修改python plot折线图的坐标轴刻度方法
Dec 13 #Python
You might like
PHP类继承 extends使用介绍
2014/01/14 PHP
php5.2的curl-bug 服务器被php进程卡死问题排查
2016/09/19 PHP
php二维码生成以及下载实现
2017/09/28 PHP
关于jquery ajax 调用带参数的webservice返回XML数据一个小细节
2012/07/31 Javascript
使用JS 清空File控件的路径值
2013/07/08 Javascript
使用ImageMagick进行图片缩放、合成与裁剪(js+python)
2013/09/16 Javascript
jQuery如何实现点击页面获得当前点击元素的id或其他信息
2014/01/09 Javascript
页面图片浮动左右滑动效果的简单实现案例
2014/02/10 Javascript
浅谈Unicode与JavaScript的发展史
2015/01/19 Javascript
js识别uc浏览器的代码
2015/11/06 Javascript
JavaScript生成二维码图片小结
2015/12/27 Javascript
js+css简单实现网页换肤效果
2015/12/29 Javascript
WordPress中鼠标悬停显示和隐藏评论及引用按钮的实现
2016/01/12 Javascript
Ext JS动态加载JavaScript创建窗体的方法
2016/06/23 Javascript
js实现分页功能
2017/05/24 Javascript
基于vue-cli vue-router搭建底部导航栏移动前端项目
2018/02/28 Javascript
通过实例解析json与jsonp原理及使用方法
2020/09/27 Javascript
vue3.0搭配.net core实现文件上传组件
2020/10/29 Javascript
[29:23]2014 DOTA2国际邀请赛中国区预选赛 LGD-GAMING VS CIS 第一场1
2014/05/23 DOTA
[06:43]2018DOTA2国际邀请赛寻真——VGJ.Thunder
2018/08/11 DOTA
python解析json实例方法
2013/11/19 Python
windows下Python实现将pdf文件转化为png格式图片的方法
2017/07/21 Python
Selenium 模拟浏览器动态加载页面的实现方法
2018/05/16 Python
python生成特定分布数的实例
2019/12/05 Python
Python %r和%s区别代码实例解析
2020/04/03 Python
Django多数据库联用实现方法解析
2020/11/12 Python
canvas画布实现手写签名效果的示例代码
2019/04/23 HTML / CSS
html5-websocket基于远程方法调用的数据交互实现
2012/12/04 HTML / CSS
新西兰最大的天然保健及护肤品网站:HealthPost(直邮中国)
2021/02/13 全球购物
学校司机岗位职责
2013/11/14 职场文书
复兴之路展览观后感
2015/06/02 职场文书
公司车辆管理制度
2015/08/04 职场文书
教师节感想
2015/08/11 职场文书
纪律委员竞选稿
2015/11/19 职场文书
《从现在开始》教学反思
2016/02/16 职场文书
MySQL数据库事务的四大特性
2022/04/20 MySQL