Python爬虫将爬取的图片写入world文档的方法


Posted in Python onNovember 07, 2018

作为初学爬虫的我,无论是爬取文字还是图片,都可以游刃有余的做到,但是爬虫所爬取的内容往往不是单独的图片或者文字,于是我就想是否可以将图文保存至world文档里,一开始使用了如下方法保存图片:

with open('123.doc','wb')as file:
  file.write(response.content)
  file.close()

结果就是,world文档里出现了一堆乱码,此法不同,我就开始另寻他法,找了很久也没有找到,只找到了关于Python操作world的方法。

于是我就开始了新的思路:使用原来的方法将图片保存下来,再将图片添加到world文档里,最后将图片删除。这里使用的是python-dox库,代码如下:

import requests
from bs4 import BeautifulSoup
import os
import docx
from docx import Document
from docx.shared import Inches

url = 'https://www.qiushibaike.com/article/119757360'
html = requests.get(url).content
soup = BeautifulSoup(html,'html.parser')
wen = soup.find('div',{"class":"content"}).text
img = str(soup.find('div',{"class":"thumb"})).split('src="')[1].split('"/')[0]
tu = 'https:' + img
img_name = img.split('/')[-1]

#保存图片至本地
with open(img_name,'wb')as f:
 response = requests.get(tu).content
 f.write(response)
 f.close()

document = Document()
document.add_paragraph(wen)#向文档里添加文字
document.add_picture(img_name)#向文档里添加图片
document.save('tuwen.doc')#保存文档
os.remove(img_name)#删除保存在本地的图片

最后,还是实现了将图文保存在了world文档里,尽管方法有些笨……

以上这篇Python爬虫将爬取的图片写入world文档的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中优化NumPy包使用性能的教程
Apr 23 Python
Python实现简单截取中文字符串的方法
Jun 15 Python
Python调用SQLPlus来操作和解析Oracle数据库的方法
Apr 09 Python
Python中.join()和os.path.join()两个函数的用法详解
Jun 11 Python
在python tkinter中Canvas实现进度条显示的方法
Jun 14 Python
一篇文章搞定Python操作文件与目录
Aug 13 Python
使用tensorflow根据输入更改tensor shape
Jun 23 Python
python 实现压缩和解压缩的示例
Sep 22 Python
4款Python 类型检查工具,你选择哪个呢?
Oct 30 Python
使用python将微信image下.dat文件解密为.png的方法
Nov 30 Python
Django+Django-Celery+Celery的整合实战
Jan 20 Python
Python数据可视化之用Matplotlib绘制常用图形
Jun 03 Python
使用python批量读取word文档并整理关键信息到excel表格的实例
Nov 07 #Python
使用PM2+nginx部署python项目的方法示例
Nov 07 #Python
python读取word文档,插入mysql数据库的示例代码
Nov 07 #Python
pandas.DataFrame删除/选取含有特定数值的行或列实例
Nov 07 #Python
python 返回列表中某个值的索引方法
Nov 07 #Python
pandas 根据列的值选取所有行的示例
Nov 07 #Python
Pandas过滤dataframe中包含特定字符串的数据方法
Nov 07 #Python
You might like
一个图形显示IP的PHP程序代码
2007/10/19 PHP
PHPnow安装服务[apache_pn]失败的问题的解决方法
2010/09/10 PHP
解析使用ThinkPHP应该掌握的调试手段
2013/06/20 PHP
php实现cookie加密的方法
2015/03/10 PHP
Yii 2.0在Grid中格式化时间方法示例
2017/06/06 PHP
PHP的new static和new self的区别与使用
2019/11/27 PHP
PHP之header函数详解
2021/03/02 PHP
javascript 设置某DIV区域内的checkbox复选框
2009/11/30 Javascript
IE下双击checkbox反应延迟问题的解决方法
2014/03/27 Javascript
小程序开发实战:实现九宫格界面的导航的代码实现
2017/01/19 Javascript
DOM事件探秘篇
2017/02/15 Javascript
jQuery实现table表格checkbox全选的方法分析
2018/07/04 jQuery
详解Angular-ui-BootStrap组件的解释以及使用
2018/07/13 Javascript
vue中如何实现后台管理系统的权限控制的方法示例
2018/09/19 Javascript
浅谈小程序 setData学问多
2019/02/20 Javascript
linux服务器快速卸载安装node环境(简单上手)
2021/02/22 Javascript
[00:12]2018DOTA2亚洲邀请赛 sylar表现SOLO技艺
2018/04/06 DOTA
Python判断变量是否已经定义的方法
2014/08/18 Python
python基于右递归解决八皇后问题的方法
2015/05/25 Python
Python二叉搜索树与双向链表转换实现方法
2016/04/29 Python
将Dataframe数据转化为ndarry数据的方法
2018/06/28 Python
详解python 注释、变量、类型
2018/08/10 Python
python打造爬虫代理池过程解析
2019/08/15 Python
利用python在大量数据文件下删除某一行的例子
2019/08/21 Python
利用python控制Autocad:pyautocad方式
2020/06/01 Python
python和php哪个更适合写爬虫
2020/06/22 Python
基于HTML5的WebGL实现json和echarts图表展现在同一个界面
2017/10/26 HTML / CSS
施华洛世奇美国官网:SWAROVSKI美国
2018/02/08 全球购物
韩国最大的购物网站:Gmarket
2019/06/20 全球购物
保加利亚手表、香水、化妆品和珠宝购物网站:Brasty.bg
2020/04/22 全球购物
外企C语言笔试题
2013/11/10 面试题
《夹竹桃》教学反思
2014/04/20 职场文书
清明节网上祭英烈活动总结
2014/04/30 职场文书
干部职工纪律作风整改措施思想汇报
2014/10/11 职场文书
2014年机关作风建设工作总结
2014/10/23 职场文书
Nginx安装完成没有生成sbin目录的解决方法
2021/03/31 Servers