Python爬虫将爬取的图片写入world文档的方法


Posted in Python onNovember 07, 2018

作为初学爬虫的我,无论是爬取文字还是图片,都可以游刃有余的做到,但是爬虫所爬取的内容往往不是单独的图片或者文字,于是我就想是否可以将图文保存至world文档里,一开始使用了如下方法保存图片:

with open('123.doc','wb')as file:
  file.write(response.content)
  file.close()

结果就是,world文档里出现了一堆乱码,此法不同,我就开始另寻他法,找了很久也没有找到,只找到了关于Python操作world的方法。

于是我就开始了新的思路:使用原来的方法将图片保存下来,再将图片添加到world文档里,最后将图片删除。这里使用的是python-dox库,代码如下:

import requests
from bs4 import BeautifulSoup
import os
import docx
from docx import Document
from docx.shared import Inches

url = 'https://www.qiushibaike.com/article/119757360'
html = requests.get(url).content
soup = BeautifulSoup(html,'html.parser')
wen = soup.find('div',{"class":"content"}).text
img = str(soup.find('div',{"class":"thumb"})).split('src="')[1].split('"/')[0]
tu = 'https:' + img
img_name = img.split('/')[-1]

#保存图片至本地
with open(img_name,'wb')as f:
 response = requests.get(tu).content
 f.write(response)
 f.close()

document = Document()
document.add_paragraph(wen)#向文档里添加文字
document.add_picture(img_name)#向文档里添加图片
document.save('tuwen.doc')#保存文档
os.remove(img_name)#删除保存在本地的图片

最后,还是实现了将图文保存在了world文档里,尽管方法有些笨……

以上这篇Python爬虫将爬取的图片写入world文档的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python处理图片之PIL模块简单使用方法
May 11 Python
Python中字典创建、遍历、添加等实用操作技巧合集
Jun 02 Python
python的pdb调试命令的命令整理及实例
Jul 12 Python
用python 批量更改图像尺寸到统一大小的方法
Mar 31 Python
pandas.DataFrame.to_json按行转json的方法
Jun 05 Python
浅谈python中对于json写入txt文件的编码问题
Jun 07 Python
python简易远程控制单线程版
Jun 20 Python
python中dict使用方法详解
Jul 17 Python
python 并发编程 多路复用IO模型详解
Aug 20 Python
python 将视频 通过视频帧转换成时间实例
Apr 23 Python
在keras中model.fit_generator()和model.fit()的区别说明
Jun 17 Python
python实现简单遗传算法
Sep 18 Python
使用python批量读取word文档并整理关键信息到excel表格的实例
Nov 07 #Python
使用PM2+nginx部署python项目的方法示例
Nov 07 #Python
python读取word文档,插入mysql数据库的示例代码
Nov 07 #Python
pandas.DataFrame删除/选取含有特定数值的行或列实例
Nov 07 #Python
python 返回列表中某个值的索引方法
Nov 07 #Python
pandas 根据列的值选取所有行的示例
Nov 07 #Python
Pandas过滤dataframe中包含特定字符串的数据方法
Nov 07 #Python
You might like
中国的第一台收音机
2021/03/01 无线电
织梦sitemap地图实时推送给百度的教程
2015/08/03 PHP
PHP加密解密函数详解
2015/10/28 PHP
Javascript !!的作用
2008/12/04 Javascript
My Desktop :) 桌面式代码
2008/12/29 Javascript
jQuery对象数据缓存Cache原理及jQuery.data方法区别介绍
2013/04/07 Javascript
处理文本部分内容的TextRange对象应用实例
2014/07/29 Javascript
浅谈document.write()输出样式
2015/05/07 Javascript
jquery地址栏链接与a标签链接匹配之特效代码总结
2015/08/24 Javascript
jQuery 中的 DOM 操作
2016/04/26 Javascript
JSON与JS对象的区别与对比
2017/03/01 Javascript
Angular之toDoList的实现代码示例
2017/12/02 Javascript
Webpack 之 babel-loader文件预处理器详解
2018/03/23 Javascript
详解webpack自定义loader初探
2018/08/29 Javascript
使用watch在微信小程序中实现全局状态共享
2019/06/03 Javascript
用Vue.js在浏览器中实现裁剪图像功能
2019/06/18 Javascript
[40:50]2014 DOTA2国际邀请赛中国区预选赛 5 23 CIS VS LGD第四场
2014/05/24 DOTA
[02:09]2018DOTA2亚洲邀请赛TNC赛前采访
2018/04/04 DOTA
Tensorflow使用支持向量机拟合线性回归
2018/09/07 Python
python dict 相同key 合并value的实例
2019/01/21 Python
Python的条件表达式和lambda表达式实例
2019/01/31 Python
用什么库写 Python 命令行程序(示例代码详解)
2020/02/20 Python
解决Jupyter无法导入已安装的 module问题
2020/04/17 Python
如何在django中运行scrapy框架
2020/04/22 Python
Python结合百度语音识别实现实时翻译软件的实现
2021/01/18 Python
css3 transform过渡抖动问题解决
2020/10/23 HTML / CSS
不开辟用于交换数据的临时空间,如何完成字符串的逆序
2012/12/02 面试题
《每逢佳节倍思亲》教后反思
2014/04/19 职场文书
经济信息系毕业生自荐信
2014/06/02 职场文书
心得体会的写法
2014/09/05 职场文书
群众路线自查报告及整改措施
2014/11/04 职场文书
质量保证书格式
2015/02/27 职场文书
幼儿园小班教育随笔
2015/08/14 职场文书
python_tkinter弹出对话框创建
2022/03/20 Python
Python实战之大鱼吃小鱼游戏的实现
2022/04/01 Python
Django框架模板用法详解
2022/06/10 Python