用python爬取租房网站信息的代码


Posted in Python onDecember 14, 2018

自己在刚学习python时写的,中途遇到很多问题,查了很多资料,下面就是我爬取租房信息的代码:

链家的房租网站
两个导入的包
1.requests 用来过去网页内容 
2.BeautifulSoup
import time
import pymssql
import requests
from bs4 import BeautifulSoup
#  https://wh.lianjia.com/zufang/
#获取url中下面的内容
def get_page(url):
  responce = requests.get(url)
  soup = BeautifulSoup(responce.text,'lxml')
  return soup
#封装成函数,作用是获取列表下的所有租房页面的链接,返回一个链接列表
def get_links(url):
  responce = requests.get(url)
  soup = BeautifulSoup(responce.text,'lxml')
  link_div = soup.find_all('div',class_ = 'pic-panel')
  links = [div.a.get('href') for div in link_div]
  return links
#收集一个房子的信息
def get_house_info(house_url):
  soup = get_page(house_url)
  price = soup.find('span',class_='total').text
  unit = soup.find('span',class_= 'unit').text[1:-1]
  area = soup.find('p', class_ = 'lf').text
  house_info= soup.find_all('p',class_ = 'lf')
  area = house_info[0].text[3:] #字符串切片工具
  layout = house_info[1].text[5:]
  info={
    '价格':price,
    '单位':unit,
    '面积':area,
    '户型':layout
    }
  return info
#链接数据库
server="192.168.xx.xx"  #换成自己的服务器信息
user="liujiepeng"
password="xxxxx"    #自己的数据库用户名和密码
conn=pymssql.connect(server,user,password,database="house")
def insert(conn,house):
  #sql_values = values.format(house['价格'],house['单位'],house['面积'],
                #house['户型'])
  sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["价格"],house["单位"],house["面积"],house["户型"])
  print(sql)
  cursor = conn.cursor() #游标,开拓新的窗口
  #cursor1 = conn.cursor()
  cursor.execute(sql) #执行sql语句
  conn.commit() #提交 ,更新sql 语句
links = get_links('https://wh.lianjia.com/zufang/')
count = 1
for link in links:
  #time.sleep(2)
  print('获取一个数据成功')
  house = get_house_info(link)
  insert(conn,house)
  print("第%s个数据,存入数据库成功!"%(count))
  count = count+1
  #print(house["价格"],end='\r')

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python列表与元组详解实例
Nov 01 Python
python获取beautifulphoto随机某图片代码实例
Dec 18 Python
Python中tell()方法的使用详解
May 24 Python
Python中的anydbm模版和shelve模版使用指南
Jul 09 Python
python编写Logistic逻辑回归
Dec 30 Python
Python实现的径向基(RBF)神经网络示例
Feb 06 Python
Python+selenium 获取一组元素属性值的实例
Jun 22 Python
Python 字符串转换为整形和浮点类型的方法
Jul 17 Python
关于Python 的简单栅格图像边界提取方法
Jul 05 Python
用Python将Excel数据导入到SQL Server的例子
Aug 24 Python
Python基于stuck实现scoket文件传输
Apr 02 Python
python能做哪方面的工作
Jun 15 Python
从运行效率与开发效率比较Python和C++
Dec 14 #Python
对python产生随机的二维数组实例详解
Dec 13 #Python
详解Python with/as使用说明
Dec 13 #Python
在python中以相同顺序shuffle两个list的方法
Dec 13 #Python
对python GUI实现完美进度条的示例详解
Dec 13 #Python
PyTorch 1.0 正式版已经发布了
Dec 13 #Python
修改python plot折线图的坐标轴刻度方法
Dec 13 #Python
You might like
PHP与SQL注入攻击防范小技巧
2011/09/16 PHP
php中curl、fsocket、file_get_content三个函数的使用比较
2014/05/09 PHP
php使用ZipArchive提示Fatal error: Class ZipArchive not found in的解决方法
2014/11/04 PHP
PHP实现生成带背景的图形验证码功能
2016/10/03 PHP
php获取当前月与上个月月初及月末时间戳的方法
2016/12/05 PHP
PHP程序员必须知道的两种日志实例分析
2020/05/14 PHP
Firefox+FireBug使JQuery的学习更加轻松愉快
2010/01/01 Javascript
firefox插件Firebug的使用教程
2010/01/02 Javascript
无缝滚动js代码通俗易懂(自写)
2013/06/19 Javascript
js判断字符长度以及中英文数字等
2013/12/31 Javascript
chrome下jq width()方法取值为0的解决方法
2014/05/26 Javascript
jQuery中:nth-child选择器用法实例
2014/12/31 Javascript
在浏览器中打开或关闭JavaScript的方法
2015/06/03 Javascript
简单实现限制uploadify上传个数
2015/11/16 Javascript
JavaScript中常用的验证reg
2016/10/13 Javascript
JS简单获得节点元素的方法示例
2018/02/10 Javascript
小程序实现分类页
2019/07/12 Javascript
vue-cli3+typescript新建一个项目的思路分析
2019/08/06 Javascript
CountUp.js实现数字滚动增值效果
2019/10/17 Javascript
js实现无刷新监听URL的变化示例代码详解
2020/06/03 Javascript
python解析模块(ConfigParser)使用方法
2013/12/10 Python
用Python写飞机大战游戏之pygame入门(4):获取鼠标的位置及运动
2015/11/05 Python
python实现Adapter模式实例代码
2018/02/09 Python
python整小时 整天时间戳获取算法示例
2019/02/20 Python
Python3 实现串口两进程同时读写
2019/06/12 Python
Python django框架 web端视频加密的实例详解
2020/11/20 Python
CSS3动画之流彩文字效果+图片模糊效果+边框伸展效果实现代码合集
2017/08/18 HTML / CSS
UNIX文件系统分类
2014/11/11 面试题
大学生学习生活的自我评价
2013/11/01 职场文书
高中生物教学反思
2014/02/05 职场文书
母亲节感恩寄语
2014/02/21 职场文书
搞笑创意广告语
2014/03/17 职场文书
群众路线教育实践活动对照检查材料
2014/09/22 职场文书
2015年医药代表工作总结
2015/04/25 职场文书
详解CSS伪元素的妙用单标签之美
2021/05/25 HTML / CSS
Nginx图片服务器配置之后图片访问404的问题解决
2022/03/21 Servers