Python爬虫 scrapy框架爬取某招聘网存入mongodb解析


Posted in Python onJuly 31, 2019

创建项目

scrapy startproject zhaoping

创建爬虫

cd zhaoping
scrapy genspider hr zhaopingwang.com

目录结构

Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

items.py

title = scrapy.Field()
  position = scrapy.Field()
  publish_date = scrapy.Field()

pipelines.py

from pymongo import MongoClient

mongoclient = MongoClient(host='192.168.226.150',port=27017)
collection = mongoclient['zhaoping']['hr']

class TencentPipeline(object):
  def process_item(self, item, spider):
    print(item)
    # 需要转换为 dict
    collection.insert(dict(item))
    return item

spiders/hr.py

def parse(self, response):
    # 不要第一个 和最后一个
    tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]
    for tr in tr_list:
      item = TencentItem()
      # xpath 从1 开始数起
      item["title"] = tr.xpath("./td[1]/a/text()").extract_first()
      item["position"] = tr.xpath("./td[2]/text()").extract_first()
      item["publish_date"] = tr.xpath("./td[5]/text()").extract_first()
      yield item

    next_url = response.xpath("//a[@id='next']/@href").extract_first()
    # 构造url
    if next_url != "javascript:;":
      print(next_url)
      next_url = "https://hr.tencent.com/" + next_url
      yield scrapy.Request(url=next_url,callback=self.parse,)

就是这么简单,就获取到数据

Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用python代码做configure文件
Jul 20 Python
python3实现基于用户的协同过滤
May 31 Python
查看python下OpenCV版本的方法
Aug 03 Python
TensorFlow卷积神经网络之使用训练好的模型识别猫狗图片
Mar 14 Python
python五子棋游戏的设计与实现
Jun 18 Python
使用python实现unix2dos和dos2unix命令的例子
Aug 13 Python
django-rest-swagger的优化使用方法
Aug 29 Python
Python笔试面试题小结
Sep 07 Python
Python os模块常用方法和属性总结
Feb 20 Python
最小二乘法及其python实现详解
Feb 24 Python
Python爬虫获取页面所有URL链接过程详解
Jun 04 Python
python中pyplot基础图标函数整理
Nov 10 Python
python爬虫 模拟登录人人网过程解析
Jul 31 #Python
Python爬虫 bilibili视频弹幕提取过程详解
Jul 31 #Python
Django实现跨域的2种方法
Jul 31 #Python
Django CSRF跨站请求伪造防护过程解析
Jul 31 #Python
在VS2017中用C#调用python脚本的实现
Jul 31 #Python
使用pip安装python库的多种方式
Jul 31 #Python
python实现几种归一化方法(Normalization Method)
Jul 31 #Python
You might like
递归列出所有文件和目录
2006/10/09 PHP
php 生成自动创建文件夹并上传文件的示例代码
2014/03/07 PHP
PHP根据传来的16进制颜色代码自动改变背景颜色
2014/06/13 PHP
PHP自带函数给数字或字符串自动补齐位数
2014/07/29 PHP
wampserver改变默认网站目录的办法
2015/08/05 PHP
PHP中header用法小结
2016/05/23 PHP
总结PHP中DateTime的常用方法
2016/08/11 PHP
PHP的PDO事务与自动提交
2019/01/24 PHP
jquery 锁定弹出层实现代码
2010/02/23 Javascript
写给想学习Javascript的朋友一点学习经验小结
2010/11/23 Javascript
javascript 事件绑定问题
2011/01/01 Javascript
图片翻转效果具体实现代码
2014/01/09 Javascript
Ext GridPanel加载完数据后进行操作示例代码
2014/06/17 Javascript
js实现tab切换效果实例
2015/09/16 Javascript
this,this,再次讨论javascript中的this,超全面(经典)
2016/01/05 Javascript
用js屏蔽被http劫持的浮动广告实现方法
2017/08/10 Javascript
微信小程序项目总结之点赞 删除列表 分享功能
2018/06/25 Javascript
angular中子控制器向父控制器传值的实例
2018/10/08 Javascript
微信小程序自定义底部导航带跳转功能
2018/11/27 Javascript
详解Vue2 添加对scss的支持
2019/01/02 Javascript
百度小程序自定义通用toast组件
2019/07/17 Javascript
JS数组扁平化、去重、排序操作实例详解
2020/02/24 Javascript
解决vue单页面多个组件嵌套监听浏览器窗口变化问题
2020/07/30 Javascript
python正则表达式re之compile函数解析
2017/10/25 Python
python爬虫 使用真实浏览器打开网页的两种方法总结
2018/04/21 Python
Python3.5实现的三级菜单功能示例
2019/03/25 Python
对python while循环和双重循环的实例详解
2019/08/23 Python
Python closure闭包解释及其注意点详解
2019/08/28 Python
python中设置超时跳过,超时退出的方式
2019/12/13 Python
Python调用钉钉自定义机器人的实现
2020/01/03 Python
Python 使用SFTP和FTP实现对服务器的文件下载功能
2020/12/17 Python
Autopep8的使用(python自动编排工具)
2021/03/02 Python
航空大学应届生求职信
2013/11/10 职场文书
上班上网检讨书
2014/01/29 职场文书
餐厅周年庆活动方案
2014/08/25 职场文书
党的群众路线教育实践活动个人对照检查材料(校长)
2014/11/05 职场文书