用python爬取租房网站信息的代码


Posted in Python onDecember 14, 2018

自己在刚学习python时写的,中途遇到很多问题,查了很多资料,下面就是我爬取租房信息的代码:

链家的房租网站
两个导入的包
1.requests 用来过去网页内容 
2.BeautifulSoup
import time
import pymssql
import requests
from bs4 import BeautifulSoup
#  https://wh.lianjia.com/zufang/
#获取url中下面的内容
def get_page(url):
  responce = requests.get(url)
  soup = BeautifulSoup(responce.text,'lxml')
  return soup
#封装成函数,作用是获取列表下的所有租房页面的链接,返回一个链接列表
def get_links(url):
  responce = requests.get(url)
  soup = BeautifulSoup(responce.text,'lxml')
  link_div = soup.find_all('div',class_ = 'pic-panel')
  links = [div.a.get('href') for div in link_div]
  return links
#收集一个房子的信息
def get_house_info(house_url):
  soup = get_page(house_url)
  price = soup.find('span',class_='total').text
  unit = soup.find('span',class_= 'unit').text[1:-1]
  area = soup.find('p', class_ = 'lf').text
  house_info= soup.find_all('p',class_ = 'lf')
  area = house_info[0].text[3:] #字符串切片工具
  layout = house_info[1].text[5:]
  info={
    '价格':price,
    '单位':unit,
    '面积':area,
    '户型':layout
    }
  return info
#链接数据库
server="192.168.xx.xx"  #换成自己的服务器信息
user="liujiepeng"
password="xxxxx"    #自己的数据库用户名和密码
conn=pymssql.connect(server,user,password,database="house")
def insert(conn,house):
  #sql_values = values.format(house['价格'],house['单位'],house['面积'],
                #house['户型'])
  sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["价格"],house["单位"],house["面积"],house["户型"])
  print(sql)
  cursor = conn.cursor() #游标,开拓新的窗口
  #cursor1 = conn.cursor()
  cursor.execute(sql) #执行sql语句
  conn.commit() #提交 ,更新sql 语句
links = get_links('https://wh.lianjia.com/zufang/')
count = 1
for link in links:
  #time.sleep(2)
  print('获取一个数据成功')
  house = get_house_info(link)
  insert(conn,house)
  print("第%s个数据,存入数据库成功!"%(count))
  count = count+1
  #print(house["价格"],end='\r')

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python3+PyQt5重新实现自定义数据拖放处理
Apr 19 Python
利用python循环创建多个文件的方法
Oct 25 Python
我就是这样学习Python中的列表
Jun 02 Python
Python 实现遥感影像波段组合的示例代码
Aug 04 Python
python使用多线程编写tcp客户端程序
Sep 02 Python
python 控制台单行刷新,多行刷新实例
Feb 19 Python
浅谈Python程序的错误:变量未定义
Jun 02 Python
Tensorflow--取tensorf指定列的操作方式
Jun 30 Python
通过实例解析python and和or使用方法
Nov 14 Python
python使用正则表达式匹配txt特定字符串(有换行)
Dec 09 Python
python 爬取天气网卫星图片
Jun 07 Python
python绘制云雨图raincloud plot
Aug 05 Python
从运行效率与开发效率比较Python和C++
Dec 14 #Python
对python产生随机的二维数组实例详解
Dec 13 #Python
详解Python with/as使用说明
Dec 13 #Python
在python中以相同顺序shuffle两个list的方法
Dec 13 #Python
对python GUI实现完美进度条的示例详解
Dec 13 #Python
PyTorch 1.0 正式版已经发布了
Dec 13 #Python
修改python plot折线图的坐标轴刻度方法
Dec 13 #Python
You might like
php获取后台Job管理的实现代码
2011/06/10 PHP
PHP setcookie设置Cookie用法(及设置无效的问题)
2011/07/13 PHP
在smarty中调用php内置函数的方法
2013/02/07 PHP
PHP If Else(elsefi) 语句
2013/04/07 PHP
ThinkPHP标签制作教程
2014/07/10 PHP
php+mysqli使用预处理技术进行数据库查询的方法
2015/01/28 PHP
PHP函数实现从一个文本字符串中提取关键字的方法
2015/07/01 PHP
php中static 静态变量和普通变量的区别
2016/12/01 PHP
文本链接逐个出现的js脚本
2007/12/12 Javascript
javascript 必知必会之closure
2009/09/21 Javascript
js中巧用cssText属性批量操作样式
2011/03/13 Javascript
js中parseInt函数浅谈
2013/07/31 Javascript
jquery简单倒计时实现方法
2015/12/18 Javascript
Bootstrap每天必学之模态框(Modal)插件
2016/04/26 Javascript
Struts2+jquery.form.js实现图片与文件上传的方法
2016/05/05 Javascript
webpack开发跨域问题解决办法
2017/08/03 Javascript
jquery 一键复制到剪切板的实例
2017/09/20 jQuery
vue实现动态添加数据滚动条自动滚动到底部的示例代码
2018/07/06 Javascript
Vue 页面状态保持页面间数据传输的一种方法(推荐)
2018/11/01 Javascript
Vue封装的组件全局注册并引用
2019/07/24 Javascript
python分割文件的常用方法
2014/11/01 Python
利用python 更新ssh 远程代码 操作远程服务器的实现代码
2018/02/08 Python
python 实现图片旋转 上下左右 180度旋转的示例
2019/01/24 Python
Python字典的核心底层原理讲解
2019/01/24 Python
解决pyqt5中QToolButton无法使用的问题
2019/06/21 Python
pytorch自定义二值化网络层方式
2020/01/07 Python
Django+boostrap 美化admin后台的操作
2020/03/11 Python
教你如何用python操作摄像头以及对视频流的处理
2020/10/12 Python
Bealls Florida百货商店:生活服饰、家居装饰和鞋子
2018/02/23 全球购物
巴西24小时在线药房:Drogasil
2020/06/20 全球购物
2014年图书馆个人工作总结
2014/12/18 职场文书
试用期自我评价怎么写
2015/03/10 职场文书
公司人力资源管理制度
2015/08/05 职场文书
小学运动会开幕词
2016/03/04 职场文书
(开源)微信小程序+mqtt,esp8266温湿度读取
2021/04/02 Javascript
SpringBoot+VUE实现数据表格的实战
2021/08/02 Java/Android