用python爬取租房网站信息的代码


Posted in Python onDecember 14, 2018

自己在刚学习python时写的,中途遇到很多问题,查了很多资料,下面就是我爬取租房信息的代码:

链家的房租网站
两个导入的包
1.requests 用来过去网页内容 
2.BeautifulSoup
import time
import pymssql
import requests
from bs4 import BeautifulSoup
#  https://wh.lianjia.com/zufang/
#获取url中下面的内容
def get_page(url):
  responce = requests.get(url)
  soup = BeautifulSoup(responce.text,'lxml')
  return soup
#封装成函数,作用是获取列表下的所有租房页面的链接,返回一个链接列表
def get_links(url):
  responce = requests.get(url)
  soup = BeautifulSoup(responce.text,'lxml')
  link_div = soup.find_all('div',class_ = 'pic-panel')
  links = [div.a.get('href') for div in link_div]
  return links
#收集一个房子的信息
def get_house_info(house_url):
  soup = get_page(house_url)
  price = soup.find('span',class_='total').text
  unit = soup.find('span',class_= 'unit').text[1:-1]
  area = soup.find('p', class_ = 'lf').text
  house_info= soup.find_all('p',class_ = 'lf')
  area = house_info[0].text[3:] #字符串切片工具
  layout = house_info[1].text[5:]
  info={
    '价格':price,
    '单位':unit,
    '面积':area,
    '户型':layout
    }
  return info
#链接数据库
server="192.168.xx.xx"  #换成自己的服务器信息
user="liujiepeng"
password="xxxxx"    #自己的数据库用户名和密码
conn=pymssql.connect(server,user,password,database="house")
def insert(conn,house):
  #sql_values = values.format(house['价格'],house['单位'],house['面积'],
                #house['户型'])
  sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["价格"],house["单位"],house["面积"],house["户型"])
  print(sql)
  cursor = conn.cursor() #游标,开拓新的窗口
  #cursor1 = conn.cursor()
  cursor.execute(sql) #执行sql语句
  conn.commit() #提交 ,更新sql 语句
links = get_links('https://wh.lianjia.com/zufang/')
count = 1
for link in links:
  #time.sleep(2)
  print('获取一个数据成功')
  house = get_house_info(link)
  insert(conn,house)
  print("第%s个数据,存入数据库成功!"%(count))
  count = count+1
  #print(house["价格"],end='\r')

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
numpy.std() 计算矩阵标准差的方法
Jul 11 Python
python如何制作英文字典
Jun 25 Python
对python 调用类属性的方法详解
Jul 02 Python
python爬虫模拟浏览器访问-User-Agent过程解析
Dec 28 Python
使用TensorFlow-Slim进行图像分类的实现
Dec 31 Python
python opencv 实现读取、显示、写入图像的方法
Jun 08 Python
Python+PyQt5+MySQL实现天气管理系统
Jun 16 Python
Python TestSuite生成测试报告过程解析
Jul 23 Python
Python 创建守护进程的示例
Sep 29 Python
python3中for循环踩过的坑记录
Dec 14 Python
Python 无限级分类树状结构生成算法的实现
Jan 21 Python
Python中的pprint模块
Nov 27 Python
从运行效率与开发效率比较Python和C++
Dec 14 #Python
对python产生随机的二维数组实例详解
Dec 13 #Python
详解Python with/as使用说明
Dec 13 #Python
在python中以相同顺序shuffle两个list的方法
Dec 13 #Python
对python GUI实现完美进度条的示例详解
Dec 13 #Python
PyTorch 1.0 正式版已经发布了
Dec 13 #Python
修改python plot折线图的坐标轴刻度方法
Dec 13 #Python
You might like
PHP遍历某个目录下的所有文件和子文件夹的实现代码
2013/06/28 PHP
php中get_meta_tags()、CURL与user-agent用法分析
2014/12/16 PHP
PHP中iconv函数知识汇总
2015/07/02 PHP
Laravel框架用户登陆身份验证实现方法详解
2017/09/14 PHP
js左侧三级菜单导航实例代码
2013/09/13 Javascript
深入分析jQuery的ready函数是如何工作的(工作原理)
2015/12/17 Javascript
深入解析JavaScript中函数的Currying柯里化
2016/03/19 Javascript
原生js仿jquery一些常用方法(必看篇)
2016/09/20 Javascript
深入探究angular2 UI组件之primeNG用法
2017/07/26 Javascript
详解webpack + react + react-router 如何实现懒加载
2017/11/20 Javascript
nodejs实现超简单生成二维码的方法
2018/03/17 NodeJs
bootstrap实现嵌套模态框的实例代码
2020/01/10 Javascript
解决Vue 给mapState中定义的属性赋值报错的问题
2020/06/22 Javascript
js中实现继承的五种方法
2021/01/25 Javascript
Python设计模式之工厂模式简单示例
2018/01/09 Python
Tensorflow实现卷积神经网络的详细代码
2018/05/24 Python
Python3获取拉勾网招聘信息的方法实例
2019/04/03 Python
Django返回HTML文件的实现方法
2020/09/17 Python
python 基于opencv去除图片阴影
2021/01/26 Python
Python将QQ聊天记录生成词云的示例代码
2021/02/10 Python
利用CSS3实现毛玻璃效果示例源码
2016/09/25 HTML / CSS
公务员培训自我鉴定
2013/09/19 职场文书
金融专业应届生求职信
2013/11/02 职场文书
会计专业自荐信范文
2013/12/02 职场文书
个人评价范文分享
2014/01/11 职场文书
2014庆六一活动方案
2014/03/02 职场文书
学校教研活动总结
2014/07/02 职场文书
2014年学校党建工作汇报材料
2014/11/02 职场文书
2014年学校食堂工作总结
2014/11/25 职场文书
英文慰问信
2015/02/14 职场文书
党员个人自我评价
2015/03/03 职场文书
2015大学生暑期实习报告
2015/07/13 职场文书
中职班主任培训心得体会
2016/01/07 职场文书
超级实用的公文标题大全!
2019/07/19 职场文书
JavaScript 语句之常用 for 循环详解
2021/03/29 Javascript
MySQL不使用order by实现排名的三种思路总结
2021/06/02 MySQL