编程 Python

Python爬虫之爬取二手房信息

Posted in Python onApril 27, 2021

前言

说到二手房信息，不知道你们心里最先跳出来的公司（网站）是什么，反正我心里第一个跳出来的是网站是 58 同城。哎呦，我这暴脾气，想到就赶紧去干。

但很显然，我失败了。说显然，而不是不幸，这是因为 58 同城是大公司，我这点本事爬不了数据是再正常不过的了。下面来看看 58 同城的反爬手段了。这是我爬取下来的网页源码。

Python爬虫之爬取二手房信息

我们看到爬取下来的源码有很多英文大写字母和数字是网页源码中没有的，后来我了解到 58 同城对自己的网站的源码进行了文本加密，所以就出现了我爬取到的情况。

爬取二手房信息

我打开 58 同城的 robots 协议。

Python爬虫之爬取二手房信息

好家伙，不愧是大公司，所有的动态网址都不让爬取，打扰了。我只好转头离开，去寻找可以让我这种小白爬取的二手房网站。于是我找到了c21网站,不知道是我的原因，还是别的原因，反正我是没有找到这个网站的 robots 协议。不管了，既然没找到，就默认没有吧，直接开始爬取。

我本来打算通过二手房的目录跳到一个具体信息，然后爬取二手房的一些基本信息和属性。

Python爬虫之爬取二手房信息

像我红笔圈起来的部分。但很可惜我失败了，后来我看了看红笔圈起来的部分的爬取到的源码。

Python爬虫之爬取二手房信息

好家伙，还可以这样。不过这怎么可以难倒机智的我？（其实我真不知道怎么解决它）。没关系，之前的源码里不是有类似的信息吗？我只好将就一下了。

Python爬虫之爬取二手房信息

然后是翻页。翻页问题很好解决，我们很快就发现网页都是 https://bj.c21.com.cn/ershoufang/pg2/。其中的页数和 pg 后面的数字有关。

然后就是分析这些数据源码的位置了。

Python爬虫之爬取二手房信息

首先，我们发现我们要爬取的数据全在 li 标签里，所以我们可以先获得 li 标签的列表。伪代码就像这样。

form lxml import etree
……   ……
tree = etree.HTML(源码)
li_list = tree.xpath( li 标签的路径)

这时候我们获得的就是 li 标签的 etree 的类，可以继续使用 etree 类里的函数。然后我们就可以利用 for 循环提出不同房源的 li 标签，根据自己的需要获取文本信息。

欧克，了解了这些（感觉源码前前后后就是四个字 ”我是菜鸡“ ）我们就可以开始写代码了。

import requests
from lxml import etree
import re

if __name__ == "__main__":
    # UA伪装
    header = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
        }

    for pg in range(1, 3): # 翻两页
        # 指定 url
        url = "https://bj.c21.com.cn/ershoufang/pg%s/" % str(pg)

        # 获取网页源码
        page = requests.get(url = url, headers = header).text

        # xpath 解析
        tree = etree.HTML(page)
        li_list = tree.xpath('//ul[@id="availability"]/li') 
        for li in li_list:
            title = li.xpath('div[2]/div/a/text()')[0] # 房子的名称
            # print(title[0]) # 测试
            add = li.xpath('div[2]/div/p//a/text()') # 地址
            add = add[-2: ] + add[0:1] # 地址范围由大到小
            # print(add) # 测试
            div_list = li.xpath('div[2]/div[2]/div')
            # 具体信息
            message_list = ["建筑面积", "房屋户型", "房屋朝向", "所在楼层", "装修情况", "建成时间"]
            for i in range(6):
                div = div_list[i]
                message = div.xpath('span/text()')[0]
                message = re.sub("\s", "", str(message)) # 因为发现获取的文本有很多换行符和空格，所以需要去掉
                message = re.sub("\\n", "", str(message))
                message_list[i] = message_list[i] + "：" + message
            # print(message_list) # 测试
            # 交通情况
            traffic = li.xpath('div[2]/div[4]//text()')
            # print(traffic) # 测试
            # 价格情况
            price = li.xpath('div[2]/div[3]//text()')
            price = price[0] + price[1]
            # print(price) # 测试
            with open("C:\\Users\\ASUS\\Desktop\\CSDN\\数据解析\\xpath\\二手房\\" + "二手房.txt", "a", encoding = "utf-8") as fp:
                fp.write(title + "\n")
                for message in message_list:
                    fp.write(message + "\n")
                if traffic == []:
                    fp.write("交通情况：无介绍" + "\n")
                else:
                    fp.write("交通情况：" + traffic[0] + "\n")
                fp.write("价格：" + price + "\n\n")
            print(title, "下载完成！！！")

    print("over!!!")

爬取结果

最后的运行结果就像这样

Python爬虫之爬取二手房信息

到此这篇关于Python爬虫之爬取二手房信息的文章就介绍到这了,更多相关Python爬取二手房信息内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python爬虫之爬取二手房信息

- Author -

世界的隐喻

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python使用scrapy抓取网站sitemap信息的方法

Apr 08 Python

python中使用%与.format格式化文本方法解析

Dec 27 Python

Python cookbook（数据结构与算法）实现优先级队列的方法示例

Feb 18 Python

详解python如何在django中为用户模型添加自定义权限

Oct 15 Python

python2和python3的输入和输出区别介绍

Nov 20 Python

python爬虫模拟登录人人网过程解析

Jul 31 Python

对Django 转发和重定向的实例详解

Aug 06 Python

Django ForeignKey与数据库的FOREIGN KEY约束详解

May 20 Python

Python爬虫防封ip的一些技巧

Aug 06 Python

python 如何停止一个死循环的线程

Nov 24 Python

Python+DeOldify实现老照片上色功能

Jun 21 Python

python如何利用cv2.rectangle()绘制矩形框

Dec 24 Python

七个Python必备的GUI库

Python实战之用tkinter库做一个鼠标模拟点击器

Python基础之pandas数据合并

上手简单,功能强大的Python爬虫框架——feapder

python绘制箱型图

基于Python实现的购物商城管理系统

Apr 27 #Python

详解用Python把PDF转为Word方法总结

You might like

PHP4和PHP5共存于一系统

2006/11/17 PHP

php empty()与isset()区别的详细介绍

2013/06/17 PHP

Yii2超好用的日期和时间组件(值得收藏)

2016/05/05 PHP

tp5(thinkPHP5)操作mongoDB数据库的方法

2018/01/20 PHP

js实现的跟随鼠标移动的时钟效果(中英文日期显示)

2011/01/17 Javascript

js实现连个数字相加而不是拼接的方法

2014/02/23 Javascript

JavaScript实现文本框中默认显示背景图片在获得焦点后消失的方法

2015/07/01 Javascript

Bootstrap实现input控件失去焦点时验证

2016/08/04 Javascript

js将table的每个td的内容自动赋值给其title属性的方法

2016/10/13 Javascript

jquery 仿锚点跳转到页面指定位置的实例

2017/02/14 Javascript

微信小程序开发之相册选择和拍照详解及实例代码

2017/02/22 Javascript

表格展示利器 Bootstrap Table实例代码

2017/09/06 Javascript

详解node.js 下载图片的 2 种方式

2018/03/02 Javascript

vue基础之模板和过滤器用法实例分析

2019/03/12 Javascript

JavaScript中this用法学习笔记

2019/03/17 Javascript

vue双向绑定数据限制长度的方法

2019/11/04 Javascript

跟老齐学Python之关于循环的小伎俩

2014/10/02 Python

python模拟鼠标拖动操作的方法

2015/03/11 Python

Python实现多线程抓取网页功能实例详解

2017/06/08 Python

Tensorflow中的placeholder和feed_dict的使用

2018/07/09 Python

python 将list转成字符串,中间用符号分隔的方法

2018/10/23 Python

Python3 Post登录并且保存cookie登录其他页面的方法

2018/12/28 Python

Anaconda之conda常用命令介绍(安装、更新、删除)

2019/10/06 Python

python将图片转base64,实现前端显示

2020/01/09 Python

Python 炫技操作之合并字典的七种方法

2020/04/10 Python

浅谈pytorch中的BN层的注意事项

2020/06/23 Python

如何用Python 实现全连接神经网络（Multi-layer Perceptron）

2020/10/15 Python

个人银行贷款担保书

2014/04/01 职场文书

师德师风承诺书

2014/05/23 职场文书

学习考察心得体会

2014/09/04 职场文书

2015年监理个人工作总结

2015/05/23 职场文书

欠款证明

2015/06/24 职场文书

2015年征兵工作总结

2015/07/23 职场文书

求职信如何撰写？

2019/05/22 职场文书

Java中PriorityQueue实现最小堆和最大堆的用法

2021/06/27 Java/Android

JavaScript组合继承详解

2021/11/07 Javascript