Python爬虫爬取新闻资讯案例详解


Posted in Python onJuly 14, 2020

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

一个简单的Python资讯采集案例,列表页到详情页,到数据保存,保存为txt文档,网站网页结构算是比较规整,简单清晰明了,资讯新闻内容的采集和保存!

Python爬虫爬取新闻资讯案例详解

应用到的库

requests,time,re,UserAgent,etree

import requests,time,re
from fake_useragent import UserAgent
from lxml import etree

列表页面

Python爬虫爬取新闻资讯案例详解

列表页,链接xpath解析

href_list=req.xpath('//ul[@class="news-list"]/li/a/@href')

详情页

Python爬虫爬取新闻资讯案例详解

Python爬虫爬取新闻资讯案例详解

内容xpath解析

h2=req.xpath('//div[@class="title-box"]/h2/text()')[0]
author=req.xpath('//div[@class="title-box"]/span[@class="news-from"]/text()')[0]
details=req.xpath('//div[@class="content-l detail"]/p/text()')

内容格式化处理

detail='\n'.join(details)

标题格式化处理,替换非法字符

pattern = r"[\/\\\:\*\?\"\<\>\|]"
new_title = re.sub(pattern, "_", title) # 替换为下划线

保存数据,保存为txt文本

def save(self,h2, author, detail):
with open(f'{h2}.txt','w',encoding='utf-8') as f:
f.write('%s%s%s%s%s'%(h2,'\n',detail,'\n',author))

print(f"保存{h2}.txt文本成功!")

遍历数据采集,yield处理

def get_tasks(self):
data_list = self.parse_home_list(self.url)
for item in data_list:
yield item

程序运行效果

Python爬虫爬取新闻资讯案例详解

程序采集效果

Python爬虫爬取新闻资讯案例详解

附源码参考:

# -*- coding: UTF-8 -*-

import requests,time,re
from fake_useragent import UserAgent
from lxml import etree

class RandomHeaders(object):
  ua=UserAgent()
  @property
  def random_headers(self):
    return {
      'User-Agent': self.ua.random,
    }

class Spider(RandomHeaders):
  def __init__(self,url):
    self.url=url


  def parse_home_list(self,url):
    response=requests.get(url,headers=self.random_headers).content.decode('utf-8')
    req=etree.HTML(response)
    href_list=req.xpath('//ul[@class="news-list"]/li/a/@href')
    print(href_list)
    for href in href_list:
      item = self.parse_detail(f'https://yz.chsi.com.cn{href}')
      yield item


  def parse_detail(self,url):
    print(f">>正在爬取{url}")
    try:
      response = requests.get(url, headers=self.random_headers).content.decode('utf-8')
      time.sleep(2)
    except Exception as e:
      print(e.args)
      self.parse_detail(url)
    else:
      req = etree.HTML(response)
      try:
        h2=req.xpath('//div[@class="title-box"]/h2/text()')[0]
        h2=self.validate_title(h2)
        author=req.xpath('//div[@class="title-box"]/span[@class="news-from"]/text()')[0]
        details=req.xpath('//div[@class="content-l detail"]/p/text()')
        detail='\n'.join(details)
        print(h2, author, detail)
        self.save(h2, author, detail)
        return h2, author, detail
      except IndexError:
        print(">>>采集出错需延时,5s后重试..")
        time.sleep(5)
        self.parse_detail(url)


  @staticmethod
  def validate_title(title):
    pattern = r"[\/\\\:\*\?\"\<\>\|]"
    new_title = re.sub(pattern, "_", title) # 替换为下划线
    return new_title



  def save(self,h2, author, detail):
    with open(f'{h2}.txt','w',encoding='utf-8') as f:
      f.write('%s%s%s%s%s'%(h2,'\n',detail,'\n',author))

    print(f"保存{h2}.txt文本成功!")
  def get_tasks(self):
    data_list = self.parse_home_list(self.url)
    for item in data_list:
      yield item
if __name__=="__main__":
  url="https://yz.chsi.com.cn/kyzx/jyxd/"
  spider=Spider(url)
  for data in spider.get_tasks():
    print(data)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中使用PyHook监听鼠标和键盘事件实例
Jul 18 Python
Python用 KNN 进行验证码识别的实现方法
Feb 06 Python
Python3.6日志Logging模块简单用法示例
Jun 14 Python
pygame实现打字游戏
Feb 19 Python
python调用c++返回带成员指针的类指针实例
Dec 12 Python
使用pyqt5 tablewidget 单元格设置正则表达式
Dec 13 Python
将自己的数据集制作成TFRecord格式教程
Feb 17 Python
django admin管理工具自定义时间区间筛选器DateRangeFilter介绍
May 19 Python
安装Anaconda3及使用Jupyter的方法
Oct 27 Python
快速解决pymongo操作mongodb的时区问题
Dec 05 Python
Python爬虫基础讲解之请求
May 13 Python
python爬虫之selenium库的安装及使用教程
May 23 Python
Win10下配置tensorflow-gpu的详细教程(无VS2015/2017)
Jul 14 #Python
Python实现图片查找轮廓、多边形拟合、最小外接矩形代码
Jul 14 #Python
python操作微信自动发消息的实现(微信聊天机器人)
Jul 14 #Python
python如何写try语句
Jul 14 #Python
Python操作MySQL数据库的示例代码
Jul 13 #Python
Python基于正则表达式实现计算器功能
Jul 13 #Python
python输出结果刷新及进度条的实现操作
Jul 13 #Python
You might like
PHP 图片上传实现代码 带详细注释
2010/04/29 PHP
详解YII关联查询
2016/01/10 PHP
Laravel框架实现多个视图共享相同数据的方法详解
2019/07/09 PHP
使用PHP+Redis实现延迟任务,实现自动取消订单功能
2019/11/21 PHP
解决 FireFox 下[使用event很麻烦] 的问题.
2006/08/22 Javascript
sina的lightbox效果。
2007/01/09 Javascript
JQuery团队打造的javascript单元测试工具QUnit介绍
2010/02/26 Javascript
基于jQuery选择器的整理集合
2013/04/26 Javascript
JS比较两个时间大小的简单示例代码
2013/12/20 Javascript
JavaScript中获取高度和宽度函数总结
2014/10/08 Javascript
jQuery源码分析之Callbacks详解
2015/03/13 Javascript
JS实现具备延时功能的滑动门菜单效果
2015/09/17 Javascript
JavaScript深度复制(deep clone)的实现方法
2016/02/19 Javascript
利用JQuery写一个简单的异步分页插件
2016/03/07 Javascript
jQuery代码性能优化的10种方法
2016/06/21 Javascript
浅谈JavaScript中面向对象的的深拷贝和浅拷贝
2016/08/01 Javascript
详解微信小程序入门从这里出发(登录注册、开发工具、文件及结构介绍)
2020/07/21 Javascript
用python实现的可以拷贝或剪切一个文件列表中的所有文件
2009/04/30 Python
python人人网登录应用实例
2014/09/26 Python
python使用Image处理图片常用技巧分析
2015/06/01 Python
从局部变量和全局变量开始全面解析Python中变量的作用域
2016/06/16 Python
python matplotlib中文显示参数设置解析
2017/12/15 Python
Linux下多个Python版本安装教程
2018/08/15 Python
Django xadmin开启搜索功能的实现
2019/11/15 Python
python实现图片插入文字
2019/11/26 Python
在Python中预先初始化列表内容和长度的实现
2019/11/28 Python
3分钟看懂Python后端必须知道的Django的信号机制
2020/07/26 Python
卡西欧B级产品官方网站:Casio Outlet
2018/05/22 全球购物
高中班长自我鉴定
2013/12/20 职场文书
大学生求职自我评价
2014/01/16 职场文书
腾讯广告词
2014/03/19 职场文书
五一劳动节活动记录
2014/03/23 职场文书
酒店周年庆活动方案
2014/08/21 职场文书
2015年领班工作总结
2015/04/29 职场文书
户外拓展训练感想
2015/08/07 职场文书
阿里云服务器部署mongodb的详细过程
2021/09/04 MongoDB