Python爬虫 scrapy框架爬取某招聘网存入mongodb解析


Posted in Python onJuly 31, 2019

创建项目

scrapy startproject zhaoping

创建爬虫

cd zhaoping
scrapy genspider hr zhaopingwang.com

目录结构

Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

items.py

title = scrapy.Field()
  position = scrapy.Field()
  publish_date = scrapy.Field()

pipelines.py

from pymongo import MongoClient

mongoclient = MongoClient(host='192.168.226.150',port=27017)
collection = mongoclient['zhaoping']['hr']

class TencentPipeline(object):
  def process_item(self, item, spider):
    print(item)
    # 需要转换为 dict
    collection.insert(dict(item))
    return item

spiders/hr.py

def parse(self, response):
    # 不要第一个 和最后一个
    tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]
    for tr in tr_list:
      item = TencentItem()
      # xpath 从1 开始数起
      item["title"] = tr.xpath("./td[1]/a/text()").extract_first()
      item["position"] = tr.xpath("./td[2]/text()").extract_first()
      item["publish_date"] = tr.xpath("./td[5]/text()").extract_first()
      yield item

    next_url = response.xpath("//a[@id='next']/@href").extract_first()
    # 构造url
    if next_url != "javascript:;":
      print(next_url)
      next_url = "https://hr.tencent.com/" + next_url
      yield scrapy.Request(url=next_url,callback=self.parse,)

就是这么简单,就获取到数据

Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python splitlines使用技巧
Sep 06 Python
Python 的 Socket 编程
Mar 24 Python
Python实现设置windows桌面壁纸代码分享
Mar 28 Python
Python基于smtplib实现异步发送邮件服务
May 28 Python
python提取字典key列表的方法
Jul 11 Python
使用python爬虫获取黄金价格的核心代码
Jun 13 Python
python 在屏幕上逐字显示一行字的实例
Dec 24 Python
Python学习笔记之字符串和字符串方法实例详解
Aug 22 Python
python中的数组赋值与拷贝的区别详解
Nov 26 Python
pytorch 利用lstm做mnist手写数字识别分类的实例
Jan 10 Python
Python爬虫入门有哪些基础知识点
Jun 02 Python
Python实现位图分割的效果
Nov 20 Python
python爬虫 模拟登录人人网过程解析
Jul 31 #Python
Python爬虫 bilibili视频弹幕提取过程详解
Jul 31 #Python
Django实现跨域的2种方法
Jul 31 #Python
Django CSRF跨站请求伪造防护过程解析
Jul 31 #Python
在VS2017中用C#调用python脚本的实现
Jul 31 #Python
使用pip安装python库的多种方式
Jul 31 #Python
python实现几种归一化方法(Normalization Method)
Jul 31 #Python
You might like
PHP接收App端发送文件流的方法
2016/09/23 PHP
PHP实现的简单组词算法示例
2018/04/10 PHP
破解Session cookie的方法
2006/07/28 Javascript
锋利的jQuery 要点归纳(一) jQuery选择器
2010/03/21 Javascript
js中switch case循环实例代码
2013/12/30 Javascript
JavaScript获取XML数据附示例截图
2014/03/05 Javascript
JavaScript验证18位身份证号码最后一位正确性的实现代码
2014/08/07 Javascript
jQuery获取checkbox选中的值
2016/01/28 Javascript
javascript图片预览和上传(兼容IE)
2017/03/15 Javascript
vue2.0 elementUI制作面包屑导航栏
2018/02/22 Javascript
js实现下拉框二级联动
2018/12/04 Javascript
JavaScript模板引擎应用场景及实现原理详解
2018/12/14 Javascript
VUE+Element环境搭建与安装的方法步骤
2019/01/24 Javascript
Vue使用zTree插件封装树组件操作示例
2019/04/25 Javascript
微信小程序+腾讯地图开发实现路径规划绘制
2019/05/22 Javascript
微信小程序图片加载失败时替换为默认图片的方法
2019/12/09 Javascript
[56:14]Fnatic vs OG 2018国际邀请赛小组赛BO2 第二场 8.18
2018/08/19 DOTA
Selenium定时刷新网页的实现代码
2018/10/31 Python
python算法与数据结构之冒泡排序实例详解
2019/06/22 Python
Python项目 基于Scapy实现SYN泛洪攻击的方法
2019/07/23 Python
Python列表元素常见操作简单示例
2019/10/25 Python
Python元组 tuple的概念与基本操作详解【定义、创建、访问、计数、推导式等】
2019/10/30 Python
python3反转字符串的3种方法(小结)
2019/11/07 Python
Python 过滤错误log并导出的实例
2019/12/26 Python
完美解决pycharm导入自己写的py文件爆红问题
2020/02/12 Python
实例讲解Python 迭代器与生成器
2020/07/08 Python
html5的localstorage详解
2017/05/09 HTML / CSS
夜不归宿检讨书
2014/02/25 职场文书
喜之郎果冻广告词
2014/03/20 职场文书
踏青活动策划方案
2014/08/19 职场文书
大学拉赞助协议书范文
2014/09/26 职场文书
2014年销售员工作总结
2014/12/01 职场文书
大学军训决心书
2015/02/05 职场文书
五四青年节活动总结
2015/02/10 职场文书
校长新学期寄语2016
2015/12/04 职场文书
《7的乘法口诀》教学反思
2016/02/18 职场文书