Python爬虫 scrapy框架爬取某招聘网存入mongodb解析


Posted in Python onJuly 31, 2019

创建项目

scrapy startproject zhaoping

创建爬虫

cd zhaoping
scrapy genspider hr zhaopingwang.com

目录结构

Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

items.py

title = scrapy.Field()
  position = scrapy.Field()
  publish_date = scrapy.Field()

pipelines.py

from pymongo import MongoClient

mongoclient = MongoClient(host='192.168.226.150',port=27017)
collection = mongoclient['zhaoping']['hr']

class TencentPipeline(object):
  def process_item(self, item, spider):
    print(item)
    # 需要转换为 dict
    collection.insert(dict(item))
    return item

spiders/hr.py

def parse(self, response):
    # 不要第一个 和最后一个
    tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]
    for tr in tr_list:
      item = TencentItem()
      # xpath 从1 开始数起
      item["title"] = tr.xpath("./td[1]/a/text()").extract_first()
      item["position"] = tr.xpath("./td[2]/text()").extract_first()
      item["publish_date"] = tr.xpath("./td[5]/text()").extract_first()
      yield item

    next_url = response.xpath("//a[@id='next']/@href").extract_first()
    # 构造url
    if next_url != "javascript:;":
      print(next_url)
      next_url = "https://hr.tencent.com/" + next_url
      yield scrapy.Request(url=next_url,callback=self.parse,)

就是这么简单,就获取到数据

Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python编程语言的35个与众不同之处(语言特征和使用技巧)
Jul 07 Python
python的re模块应用实例
Sep 26 Python
通过Python来使用七牛云存储的方法详解
Aug 07 Python
Python遍历文件夹和读写文件的实现方法
May 10 Python
使用python编写监听端
Apr 12 Python
解决django前后端分离csrf验证的问题
Feb 03 Python
使用Python实现跳帧截取视频帧
May 31 Python
Python中的引用和拷贝实例解析
Nov 14 Python
Python+numpy实现矩阵的行列扩展方式
Nov 29 Python
Django通过json格式收集主机信息
May 29 Python
Python趣味入门教程之循环语句while
Aug 26 Python
Python实现像awk一样分割字符串
Sep 15 Python
python爬虫 模拟登录人人网过程解析
Jul 31 #Python
Python爬虫 bilibili视频弹幕提取过程详解
Jul 31 #Python
Django实现跨域的2种方法
Jul 31 #Python
Django CSRF跨站请求伪造防护过程解析
Jul 31 #Python
在VS2017中用C#调用python脚本的实现
Jul 31 #Python
使用pip安装python库的多种方式
Jul 31 #Python
python实现几种归一化方法(Normalization Method)
Jul 31 #Python
You might like
星际争霸秘籍
2020/03/04 星际争霸
php 获取本地IP代码
2013/06/23 PHP
ThinkPHP3.1新特性之多层MVC的支持
2014/06/19 PHP
使用PHP uniqid函数生成唯一ID
2015/11/18 PHP
用php和jQuery来实现“顶”和“踩”的投票功能
2016/10/13 PHP
利用PHP访问MySql数据库的逻辑操作以及增删改查的实例讲解
2017/08/30 PHP
50个优秀经典PHP算法大集合 附源码
2020/08/26 PHP
JS 实现双色表格实现代码
2009/11/24 Javascript
js中符号转意问题示例探讨
2013/08/19 Javascript
javascript实现通过表格绘制颜色填充矩形的方法
2015/04/21 Javascript
微信小程序  http请求封装详解及实例代码
2017/02/15 Javascript
angularjs中使用ng-bind-html和ng-include的实例
2017/04/28 Javascript
轻松理解vue的双向数据绑定问题
2017/10/30 Javascript
JavaScript数据结构与算法之队列原理与用法实例详解
2017/11/22 Javascript
js使用ajax传值给后台,后台返回字符串处理方法
2018/08/08 Javascript
JavaScript实现背景自动切换小案例
2019/09/27 Javascript
JavaScript图片旋转效果实现方法详解
2020/06/28 Javascript
js实现特别简单的钟表效果
2020/09/14 Javascript
Nuxt 嵌套路由nuxt-child组件用法(父子页面组件的传值)
2020/11/05 Javascript
Python实现以时间换空间的缓存替换算法
2016/02/19 Python
python如何重载模块实例解析
2018/01/25 Python
Python Tkinter实现简易计算器功能
2018/01/30 Python
利用Python将每日一句定时推送至微信的实现方法
2018/08/13 Python
python将字符串转换成json的方法小结
2019/07/09 Python
Python numpy数组转置与轴变换
2019/11/15 Python
Python实现AES加密,解密的两种方法
2020/10/03 Python
中国专业的综合网上购物商城:京东
2016/08/02 全球购物
匡威帆布鞋美国官网:Converse美国
2016/08/22 全球购物
英国家庭珠宝商:T. H. Baker
2018/02/08 全球购物
杭州时比特电子有限公司SQL
2013/08/22 面试题
党的群众路线教育实践活动心得体会
2014/03/03 职场文书
个人股份转让协议书范本
2014/10/26 职场文书
2014年建筑工程工作总结
2014/12/03 职场文书
Oracle 数据仓库ETL技术之多表插入语句的示例详解
2021/04/12 Oracle
浅谈mysql哪些情况会导致索引失效
2021/11/20 MySQL
Python jiaba库的使用详解
2021/11/23 Python