用python爬取租房网站信息的代码


Posted in Python onDecember 14, 2018

自己在刚学习python时写的,中途遇到很多问题,查了很多资料,下面就是我爬取租房信息的代码:

链家的房租网站
两个导入的包
1.requests 用来过去网页内容 
2.BeautifulSoup
import time
import pymssql
import requests
from bs4 import BeautifulSoup
#  https://wh.lianjia.com/zufang/
#获取url中下面的内容
def get_page(url):
  responce = requests.get(url)
  soup = BeautifulSoup(responce.text,'lxml')
  return soup
#封装成函数,作用是获取列表下的所有租房页面的链接,返回一个链接列表
def get_links(url):
  responce = requests.get(url)
  soup = BeautifulSoup(responce.text,'lxml')
  link_div = soup.find_all('div',class_ = 'pic-panel')
  links = [div.a.get('href') for div in link_div]
  return links
#收集一个房子的信息
def get_house_info(house_url):
  soup = get_page(house_url)
  price = soup.find('span',class_='total').text
  unit = soup.find('span',class_= 'unit').text[1:-1]
  area = soup.find('p', class_ = 'lf').text
  house_info= soup.find_all('p',class_ = 'lf')
  area = house_info[0].text[3:] #字符串切片工具
  layout = house_info[1].text[5:]
  info={
    '价格':price,
    '单位':unit,
    '面积':area,
    '户型':layout
    }
  return info
#链接数据库
server="192.168.xx.xx"  #换成自己的服务器信息
user="liujiepeng"
password="xxxxx"    #自己的数据库用户名和密码
conn=pymssql.connect(server,user,password,database="house")
def insert(conn,house):
  #sql_values = values.format(house['价格'],house['单位'],house['面积'],
                #house['户型'])
  sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["价格"],house["单位"],house["面积"],house["户型"])
  print(sql)
  cursor = conn.cursor() #游标,开拓新的窗口
  #cursor1 = conn.cursor()
  cursor.execute(sql) #执行sql语句
  conn.commit() #提交 ,更新sql 语句
links = get_links('https://wh.lianjia.com/zufang/')
count = 1
for link in links:
  #time.sleep(2)
  print('获取一个数据成功')
  house = get_house_info(link)
  insert(conn,house)
  print("第%s个数据,存入数据库成功!"%(count))
  count = count+1
  #print(house["价格"],end='\r')

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python中关于时间和日期函数的常用计算总结(time和datatime)
Mar 08 Python
Python选课系统开发程序
Sep 02 Python
matplotlib设置legend图例代码示例
Dec 19 Python
Python获取二维矩阵每列最大值的方法
Apr 03 Python
numpy中实现二维数组按照某列、某行排序的方法
Apr 04 Python
python3下实现搜狗AI API的代码示例
Apr 10 Python
python利用百度AI实现文字识别功能
Nov 27 Python
python3的数据类型及数据类型转换实例详解
Aug 20 Python
tensorflow 环境变量设置方式
Feb 06 Python
pycharm中import呈现灰色原因的解决方法
Mar 04 Python
python+Selenium自动化测试——输入,点击操作
Mar 06 Python
Python 阶乘详解
Oct 05 Python
从运行效率与开发效率比较Python和C++
Dec 14 #Python
对python产生随机的二维数组实例详解
Dec 13 #Python
详解Python with/as使用说明
Dec 13 #Python
在python中以相同顺序shuffle两个list的方法
Dec 13 #Python
对python GUI实现完美进度条的示例详解
Dec 13 #Python
PyTorch 1.0 正式版已经发布了
Dec 13 #Python
修改python plot折线图的坐标轴刻度方法
Dec 13 #Python
You might like
php查询mysql大量数据造成内存不足的解决方法
2015/03/04 PHP
PHP不使用内置函数实现字符串转整型的方法示例
2017/07/03 PHP
event.keyCode键码值表 附只能输入特定的字符串代码
2009/05/15 Javascript
JQuery 图片的展开和伸缩实例讲解
2013/04/18 Javascript
javascript自启动函数的问题探讨
2013/10/05 Javascript
JS仿iGoogle自定义首页模块拖拽特效的方法
2015/02/13 Javascript
javascript字符串替换函数如何一次性全部替换掉
2015/10/30 Javascript
Bootstrap~多级导航(级联导航)的实现效果【附代码】
2016/03/08 Javascript
js原型链与继承解析(初体验)
2016/05/09 Javascript
React Native实现进度条弹框的示例代码
2017/07/17 Javascript
Cropper.js 实现裁剪图片并上传(PC端)
2017/08/20 Javascript
vue2.0之多页面的开发的示例
2018/01/30 Javascript
关于Angularjs中跨域设置白名单问题
2018/04/17 Javascript
详解vue引入子组件方法
2019/02/12 Javascript
JS实现图片轮播效果实例详解【可自动和手动】
2019/04/04 Javascript
灵活使用console让js调试更简单的方法步骤
2019/04/23 Javascript
Vue文本模糊匹配功能如何实现
2020/07/30 Javascript
vue+高德地图实现地图搜索及点击定位操作
2020/09/09 Javascript
[48:38]DOTA2亚洲邀请赛 3.31 小组赛 B组 Mineski vs Secret
2018/03/31 DOTA
9种python web 程序的部署方式小结
2014/06/30 Python
Python3.x版本中新的字符串格式化方法
2015/04/24 Python
python实现求最长回文子串长度
2018/01/22 Python
用Python分析3天破10亿的《我不是药神》到底神在哪?
2018/07/12 Python
基于Python fminunc 的替代方法
2020/02/29 Python
使用jupyter notebook将文件保存为Markdown,HTML等文件格式
2020/04/14 Python
Jupyter notebook快速入门教程(推荐)
2020/05/18 Python
PyQt5的QWebEngineView使用示例
2020/10/20 Python
通过python-pptx模块操作ppt文件的方法
2020/12/26 Python
python中添加模块导入路径的方法
2021/02/03 Python
什么造成了Java里面的异常
2016/04/24 面试题
护理自我鉴定范文
2013/10/06 职场文书
2014村务公开实施方案
2014/02/25 职场文书
实习单位评语
2014/04/26 职场文书
个人批评与自我批评总结
2014/10/17 职场文书
张家口市高新区党工委群众路线教育实践活动整改方案
2014/10/25 职场文书
小学四年级学生评语
2014/12/26 职场文书