Python爬虫 scrapy框架爬取某招聘网存入mongodb解析


Posted in Python onJuly 31, 2019

创建项目

scrapy startproject zhaoping

创建爬虫

cd zhaoping
scrapy genspider hr zhaopingwang.com

目录结构

Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

items.py

title = scrapy.Field()
  position = scrapy.Field()
  publish_date = scrapy.Field()

pipelines.py

from pymongo import MongoClient

mongoclient = MongoClient(host='192.168.226.150',port=27017)
collection = mongoclient['zhaoping']['hr']

class TencentPipeline(object):
  def process_item(self, item, spider):
    print(item)
    # 需要转换为 dict
    collection.insert(dict(item))
    return item

spiders/hr.py

def parse(self, response):
    # 不要第一个 和最后一个
    tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]
    for tr in tr_list:
      item = TencentItem()
      # xpath 从1 开始数起
      item["title"] = tr.xpath("./td[1]/a/text()").extract_first()
      item["position"] = tr.xpath("./td[2]/text()").extract_first()
      item["publish_date"] = tr.xpath("./td[5]/text()").extract_first()
      yield item

    next_url = response.xpath("//a[@id='next']/@href").extract_first()
    # 构造url
    if next_url != "javascript:;":
      print(next_url)
      next_url = "https://hr.tencent.com/" + next_url
      yield scrapy.Request(url=next_url,callback=self.parse,)

就是这么简单,就获取到数据

Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 查找文件夹下所有文件 实现代码
Jul 01 Python
python执行系统命令后获取返回值的几种方式集合
May 12 Python
Linux 修改Python命令的方法示例
Dec 03 Python
对Xpath 获取子标签下所有文本的方法详解
Jan 02 Python
Python代码使用 Pyftpdlib实现FTP服务器功能
Jul 22 Python
Python实用库 PrettyTable 学习笔记
Aug 06 Python
python爬虫学习笔记之Beautifulsoup模块用法详解
Apr 09 Python
Selenium常见异常解析及解决方案示范
Apr 10 Python
pandas中read_csv、rolling、expanding用法详解
Apr 21 Python
jupyter notebook中新建cell的方法与快捷键操作
Apr 22 Python
django 外键创建注意事项说明
May 20 Python
Flask中jinja2的继承实现方法及实例
Mar 03 Python
python爬虫 模拟登录人人网过程解析
Jul 31 #Python
Python爬虫 bilibili视频弹幕提取过程详解
Jul 31 #Python
Django实现跨域的2种方法
Jul 31 #Python
Django CSRF跨站请求伪造防护过程解析
Jul 31 #Python
在VS2017中用C#调用python脚本的实现
Jul 31 #Python
使用pip安装python库的多种方式
Jul 31 #Python
python实现几种归一化方法(Normalization Method)
Jul 31 #Python
You might like
YII Framework教程之异常处理详解
2016/03/14 PHP
使用ThinkPHP生成缩略图及显示
2017/04/27 PHP
JavaScript中的History历史对象
2008/01/16 Javascript
Javascript this 的一些学习总结
2012/08/31 Javascript
jQuery插件-jRating评分插件源码分析及使用方法
2012/12/28 Javascript
js不能跳转到上一页面的问题解决方法
2013/03/01 Javascript
基于jQuery实现简单的折叠菜单效果
2015/11/23 Javascript
关于javascript的一些知识以及循环详解
2016/09/12 Javascript
JavaScript实现自动切换图片代码
2016/10/11 Javascript
基于Phantomjs生成PDF的实现方法
2016/11/07 Javascript
AngularJS Select(选择框)使用详解
2017/01/18 Javascript
js监听input输入框值的实时变化实例
2017/01/26 Javascript
angularjs+bootstrap菜单的使用示例代码
2017/03/07 Javascript
基于jQuery的表单填充实例
2017/08/22 jQuery
移动前端图片压缩上传的实例
2017/12/06 Javascript
Vue.js组件间的循环引用方法示例
2017/12/27 Javascript
Vue实现点击时间获取时间段查询功能
2020/08/21 Javascript
JS window对象简单操作完整示例
2020/01/14 Javascript
微信小程序去除左上角返回键的实现方法
2020/03/06 Javascript
新手该如何学python怎么学好python?
2008/10/07 Python
python转换摩斯密码示例
2014/02/16 Python
Python实现抓取网页并且解析的实例
2014/09/20 Python
python清除字符串里非数字字符的方法
2015/07/02 Python
python数据类型_字符串常用操作(详解)
2017/05/30 Python
PYQT5实现控制台显示功能的方法
2019/06/25 Python
python爬虫selenium和phantomJs使用方法解析
2019/08/08 Python
PyQt5如何将.ui文件转换为.py文件的实例代码
2020/05/26 Python
Python-for循环的内部机制
2020/06/12 Python
PyChon中关于Jekins的详细安装(推荐)
2020/12/28 Python
ALDO英国官网:加拿大女鞋品牌
2018/02/19 全球购物
入股协议书范本
2014/04/14 职场文书
查摆问题对照检查材料
2014/08/28 职场文书
党员教师四风问题对照检查材料
2014/09/26 职场文书
黄山导游词
2015/01/31 职场文书
仙境之桥观后感
2015/06/16 职场文书
少儿励志名言(80句)
2019/08/14 职场文书