Python爬虫将爬取的图片写入world文档的方法


Posted in Python onNovember 07, 2018

作为初学爬虫的我,无论是爬取文字还是图片,都可以游刃有余的做到,但是爬虫所爬取的内容往往不是单独的图片或者文字,于是我就想是否可以将图文保存至world文档里,一开始使用了如下方法保存图片:

with open('123.doc','wb')as file:
  file.write(response.content)
  file.close()

结果就是,world文档里出现了一堆乱码,此法不同,我就开始另寻他法,找了很久也没有找到,只找到了关于Python操作world的方法。

于是我就开始了新的思路:使用原来的方法将图片保存下来,再将图片添加到world文档里,最后将图片删除。这里使用的是python-dox库,代码如下:

import requests
from bs4 import BeautifulSoup
import os
import docx
from docx import Document
from docx.shared import Inches

url = 'https://www.qiushibaike.com/article/119757360'
html = requests.get(url).content
soup = BeautifulSoup(html,'html.parser')
wen = soup.find('div',{"class":"content"}).text
img = str(soup.find('div',{"class":"thumb"})).split('src="')[1].split('"/')[0]
tu = 'https:' + img
img_name = img.split('/')[-1]

#保存图片至本地
with open(img_name,'wb')as f:
 response = requests.get(tu).content
 f.write(response)
 f.close()

document = Document()
document.add_paragraph(wen)#向文档里添加文字
document.add_picture(img_name)#向文档里添加图片
document.save('tuwen.doc')#保存文档
os.remove(img_name)#删除保存在本地的图片

最后,还是实现了将图文保存在了world文档里,尽管方法有些笨……

以上这篇Python爬虫将爬取的图片写入world文档的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 包含汉字的文件读写之每行末尾加上特定字符
Dec 12 Python
django admin添加数据自动记录user到表中的实现方法
Jan 05 Python
详解Python中的type和object
Aug 15 Python
python Django的web开发实例(入门)
Jul 31 Python
python批量将excel内容进行翻译写入功能
Oct 10 Python
flask 使用 flask_apscheduler 做定时循环任务的实现
Dec 10 Python
Python *args和**kwargs用法实例解析
Mar 02 Python
keras和tensorflow使用fit_generator 批次训练操作
Jul 03 Python
python实现批处理文件
Jul 28 Python
Pycharm制作搞怪弹窗的实现代码
Feb 19 Python
python基于selenium爬取斗鱼弹幕
Feb 20 Python
python数据可视化JupyterLab实用扩展程序Mito
Nov 20 Python
使用python批量读取word文档并整理关键信息到excel表格的实例
Nov 07 #Python
使用PM2+nginx部署python项目的方法示例
Nov 07 #Python
python读取word文档,插入mysql数据库的示例代码
Nov 07 #Python
pandas.DataFrame删除/选取含有特定数值的行或列实例
Nov 07 #Python
python 返回列表中某个值的索引方法
Nov 07 #Python
pandas 根据列的值选取所有行的示例
Nov 07 #Python
Pandas过滤dataframe中包含特定字符串的数据方法
Nov 07 #Python
You might like
在“咖啡之国”感受咖啡文化
2021/03/03 咖啡文化
php生成短网址示例
2014/05/05 PHP
PHP使用header()输出图片缓存实例
2014/12/09 PHP
PHP模拟http请求的方法详解
2016/11/09 PHP
PHP+MySQL实现输入页码跳转到指定页面功能示例
2018/06/01 PHP
Javascript实例教程(19) 使用HoTMetal(6)
2006/12/23 Javascript
javascript网页关键字高亮代码
2008/07/30 Javascript
用js代码改变单选框选中状态的简单实例
2013/12/18 Javascript
简单的jQuery入门指引
2015/07/28 Javascript
Javascript实现图片不间断滚动的代码
2016/06/22 Javascript
javascript运算符——逻辑运算符全面解析
2016/06/27 Javascript
使用Curl命令查看请求响应时间方法
2016/11/04 Javascript
基于node.js依赖express解析post请求四种数据格式
2017/02/13 Javascript
Vue-cli proxyTable 解决开发环境的跨域问题详解
2017/05/18 Javascript
vue.js数据绑定的方法(单向、双向和一次性绑定)
2017/07/13 Javascript
在Node.js下运用MQTT协议实现即时通讯及离线推送的方法
2019/01/24 Javascript
vue-router两种模式区别及使用注意事项详解
2019/08/01 Javascript
Nest.js 授权验证的方法示例
2021/02/22 Javascript
Python基于property实现类的特性操作示例
2018/06/15 Python
详解python列表生成式和列表生成式器区别
2019/03/27 Python
利用Python模拟登录pastebin.com的实现方法
2019/07/12 Python
Python 共享变量加锁、释放详解
2019/08/28 Python
开启Django博客的RSS功能的实现方法
2020/02/17 Python
Python数据可视化实现多种图例代码详解
2020/07/14 Python
纯CSS3实现给头像加个光芒四射且旋转的背景动画效果
2014/05/07 HTML / CSS
OSPF有什么优点?为什么OSPF比RIP收敛快?
2013/02/13 面试题
介绍下java.util.Arrays类
2012/10/16 面试题
文明寄语大全
2014/04/11 职场文书
省级优秀班集体申报材料
2014/05/25 职场文书
团党委领导干部党的群众路线教育实践活动个人对照检查材料思想汇
2014/10/05 职场文书
公司仓库管理制度
2015/08/04 职场文书
2016年度继续教育学习心得体会
2016/01/19 职场文书
python引入其他文件夹下的py文件具体方法
2021/05/23 Python
Python还能这么玩之用Python做个小游戏的外挂
2021/06/04 Python
使用ORM新增数据在Mysql中的操作步骤
2021/07/26 MySQL
用Python仅20行代码编写一个简单的端口扫描器
2022/04/08 Python