Python爬虫爬取新闻资讯案例详解


Posted in Python onJuly 14, 2020

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

一个简单的Python资讯采集案例,列表页到详情页,到数据保存,保存为txt文档,网站网页结构算是比较规整,简单清晰明了,资讯新闻内容的采集和保存!

Python爬虫爬取新闻资讯案例详解

应用到的库

requests,time,re,UserAgent,etree

import requests,time,re
from fake_useragent import UserAgent
from lxml import etree

列表页面

Python爬虫爬取新闻资讯案例详解

列表页,链接xpath解析

href_list=req.xpath('//ul[@class="news-list"]/li/a/@href')

详情页

Python爬虫爬取新闻资讯案例详解

Python爬虫爬取新闻资讯案例详解

内容xpath解析

h2=req.xpath('//div[@class="title-box"]/h2/text()')[0]
author=req.xpath('//div[@class="title-box"]/span[@class="news-from"]/text()')[0]
details=req.xpath('//div[@class="content-l detail"]/p/text()')

内容格式化处理

detail='\n'.join(details)

标题格式化处理,替换非法字符

pattern = r"[\/\\\:\*\?\"\<\>\|]"
new_title = re.sub(pattern, "_", title) # 替换为下划线

保存数据,保存为txt文本

def save(self,h2, author, detail):
with open(f'{h2}.txt','w',encoding='utf-8') as f:
f.write('%s%s%s%s%s'%(h2,'\n',detail,'\n',author))

print(f"保存{h2}.txt文本成功!")

遍历数据采集,yield处理

def get_tasks(self):
data_list = self.parse_home_list(self.url)
for item in data_list:
yield item

程序运行效果

Python爬虫爬取新闻资讯案例详解

程序采集效果

Python爬虫爬取新闻资讯案例详解

附源码参考:

# -*- coding: UTF-8 -*-

import requests,time,re
from fake_useragent import UserAgent
from lxml import etree

class RandomHeaders(object):
  ua=UserAgent()
  @property
  def random_headers(self):
    return {
      'User-Agent': self.ua.random,
    }

class Spider(RandomHeaders):
  def __init__(self,url):
    self.url=url


  def parse_home_list(self,url):
    response=requests.get(url,headers=self.random_headers).content.decode('utf-8')
    req=etree.HTML(response)
    href_list=req.xpath('//ul[@class="news-list"]/li/a/@href')
    print(href_list)
    for href in href_list:
      item = self.parse_detail(f'https://yz.chsi.com.cn{href}')
      yield item


  def parse_detail(self,url):
    print(f">>正在爬取{url}")
    try:
      response = requests.get(url, headers=self.random_headers).content.decode('utf-8')
      time.sleep(2)
    except Exception as e:
      print(e.args)
      self.parse_detail(url)
    else:
      req = etree.HTML(response)
      try:
        h2=req.xpath('//div[@class="title-box"]/h2/text()')[0]
        h2=self.validate_title(h2)
        author=req.xpath('//div[@class="title-box"]/span[@class="news-from"]/text()')[0]
        details=req.xpath('//div[@class="content-l detail"]/p/text()')
        detail='\n'.join(details)
        print(h2, author, detail)
        self.save(h2, author, detail)
        return h2, author, detail
      except IndexError:
        print(">>>采集出错需延时,5s后重试..")
        time.sleep(5)
        self.parse_detail(url)


  @staticmethod
  def validate_title(title):
    pattern = r"[\/\\\:\*\?\"\<\>\|]"
    new_title = re.sub(pattern, "_", title) # 替换为下划线
    return new_title



  def save(self,h2, author, detail):
    with open(f'{h2}.txt','w',encoding='utf-8') as f:
      f.write('%s%s%s%s%s'%(h2,'\n',detail,'\n',author))

    print(f"保存{h2}.txt文本成功!")
  def get_tasks(self):
    data_list = self.parse_home_list(self.url)
    for item in data_list:
      yield item
if __name__=="__main__":
  url="https://yz.chsi.com.cn/kyzx/jyxd/"
  spider=Spider(url)
  for data in spider.get_tasks():
    print(data)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现根据主机名字获得所有ip地址的方法
Jun 28 Python
python的unittest测试类代码实例
Dec 07 Python
Python 查找字符在字符串中的位置实例
May 02 Python
python读取文本绘制动态速度曲线
Jun 21 Python
Django 限制用户访问频率的中间件的实现
Aug 23 Python
python使用epoll实现服务端的方法
Oct 16 Python
在python里协程使用同步锁Lock的实例
Feb 19 Python
Python面向对象程序设计之私有属性及私有方法示例
Apr 08 Python
python绘制已知点的坐标的直线实例
Jul 04 Python
Python的互斥锁与信号量详解
Sep 12 Python
你需要学会的8个Python列表技巧
Jun 24 Python
python如何实现图片压缩
Sep 11 Python
Win10下配置tensorflow-gpu的详细教程(无VS2015/2017)
Jul 14 #Python
Python实现图片查找轮廓、多边形拟合、最小外接矩形代码
Jul 14 #Python
python操作微信自动发消息的实现(微信聊天机器人)
Jul 14 #Python
python如何写try语句
Jul 14 #Python
Python操作MySQL数据库的示例代码
Jul 13 #Python
Python基于正则表达式实现计算器功能
Jul 13 #Python
python输出结果刷新及进度条的实现操作
Jul 13 #Python
You might like
PHP中数组定义的几种方法
2013/09/01 PHP
php中的filesystem文件系统函数介绍及使用示例
2014/02/13 PHP
PHP实现websocket通信的方法示例
2018/08/28 PHP
javascript URL锚点取值方法
2009/02/25 Javascript
jQuery 数据缓存data(name, value)详解及实现
2010/01/04 Javascript
Ext JS 4实现带week(星期)的日期选择控件(实战二)
2013/08/21 Javascript
HTML页面弹出居中可拖拽的自定义窗口层
2014/05/07 Javascript
JavaScript中的console.assert()函数介绍
2014/12/29 Javascript
JavaScript中通过prototype属性共享属性和方法的技巧实例
2015/03/13 Javascript
JavaScript中获取纯正的undefined的方法
2016/03/06 Javascript
JS随机洗牌算法之数组随机排序
2016/03/23 Javascript
jQuery实现导航高亮的方法【附demo源码下载】
2016/11/09 Javascript
JS中用childNodes获取子元素换行会产生一个子元素
2016/12/08 Javascript
AngularJS路由切换实现方法分析
2017/03/17 Javascript
Vue SPA单页应用首屏优化实践
2018/06/28 Javascript
TypeScript中的方法重载详解
2019/04/12 Javascript
vue双向绑定数据限制长度的方法
2019/11/04 Javascript
[02:56]DOTA2上海特锦赛小组赛解说FreeAgain采访花絮
2016/02/27 DOTA
[00:14]PWL:老朋友Mushi拍VLOG与中国玩家问好
2020/11/04 DOTA
Python和Ruby中each循环引用变量问题(一个隐秘BUG?)
2014/06/04 Python
Python中处理unchecked未捕获异常实例
2015/01/17 Python
对python中的pop函数和append函数详解
2018/05/04 Python
Python装饰器的执行过程实例分析
2018/06/04 Python
python实现屏保计时器的示例代码
2018/08/08 Python
在Pandas中处理NaN值的方法
2019/06/25 Python
python实现批量处理将图片粘贴到另一张图片上并保存
2019/12/12 Python
python连接PostgreSQL过程解析
2020/02/09 Python
在 Linux/Mac 下为Python函数添加超时时间的方法
2020/02/20 Python
纯CSS3实现的井字棋游戏
2020/11/25 HTML / CSS
澳大利亚在线生活方式商店:Mytopia
2018/07/08 全球购物
英国美术用品购物网站:Cass Art
2019/10/08 全球购物
现金出纳岗位职责
2014/03/15 职场文书
求职信结尾怎么写
2014/05/26 职场文书
校外活动方案
2014/08/28 职场文书
nginx限制并发连接请求数的方法
2021/04/01 Servers
python神经网络学习 使用Keras进行回归运算
2022/05/04 Python