从0到1使用python开发一个半自动答题小程序的实现


Posted in Python onMay 12, 2020

前言

最近每天都有玩微信读书上面的每日一答的答题游戏,完全答对12题后,可以瓜分无限阅读卡。但是从小就不太爱看书的我,很难连续答对12道题,由此,产生了写一个半自动答题小程序的想法。我们先看一张效果图吧(ps 这里主要是我电脑有点卡,点击左边地选项有延迟)

项目GIthub地址:微信读书答题python小程序

觉得对你有帮助的请点个⭐来支持一下吧。

演示图:

从0到1使用python开发一个半自动答题小程序的实现

做前准备

  • mumu模拟器 因为手边没有安卓手机,所以只能在模拟器上进行模拟,如果手上有安卓手机地,可以适当地修改一下程序。需要安装微信和微信读书这两个软件
  • python工具包:BeautifulSoup4、Pillow、urllib、requests、re、base64、time

思路

  • 截屏含有题目和答案的图片(范围可以自己指定)
  • 使用百度的图片识别技术将图片转化为文字,并进行一系列处理,分别将题目和答案进行存储
  • 调动百度知道搜索接口,将题目作为搜索关键字进行答案搜索
  • 将搜索出来的内容使用BeautifulSoup4进行答案提取,这里可以设置答案提取数量
  • 将搜索结果进行输出显示

附:这里我还加了一个自动推荐答案,利用百度短文本相似接口和选项是否出现在答案中这两种验证方法进行验证,推荐相似度最高的答案。准确度还可以,但是比较耗时间,比正常情况下时间要多上一倍。

开始写代码

1. 导入工具包

import requests #访问网站
import re		#正则表达式匹配
import base64	#编码
from bs4 import BeautifulSoup #处理页面数据
from urllib import parse #进行url编码
import time #统计时间
from PIL import ImageGrab #处理图片

2. 编写类和初始化方法

class autogetanswer():
  def __init__(self,StartAutoRecomment=True,answernumber=5):
    self.StartAutoRecomment=StartAutoRecomment 
    self.APIKEY=['BICrxxxxxxxxNNI','CrHGxxxxxxxx3C']
    self.SECRETKEY=['BgL4jxxxxxxxxxGj9','1xo0jxxxxxx90cx']
    self.accesstoken=[]
    self.baiduzhidao='http://zhidao.baidu.com/search?'
    self.question=''
    self.answer=[]
    self.answernumber=answernumber
    self.searchanswer=[]
    self.answerscore=[]
    self.reanswerindex=0
    self.imageurl='answer.jpg'
    self.position=(35,155,355,680)
    self.titleregular1=r'(10题|共10|12题|共12|翻倍)'
    self.titleregular2=r'(\?|\?)'
    self.answerregular1=r'(这题|问题|跳题|换题|题卡|换卡|跳卡|这有)'
  • self.StartAutoRecomment 是否开启自动推荐答案,默认为True
  • self.APIKEY 百度图像转文字、百度短文本相似度分析 这两个接口的apikey
  • self.SECRETKEY 百度图像转文字、百度短文本相似度分析 这两个接口的secretkey

这两个key值我就没法提供给大家了,大家可以自己去百度云官方申请,免费额度大概有5万,足够我们使用了。

申请过程大家可以参考这个博客,很简单的如何申请百度文字识别apikey和Secret Key

  • self.accesstoken 存储申请使用接口的accesstoken值
  • self.baiduzhidao 百度知道搜索接口地址
  • self.imageurl 图片地址
  • self.position 截图方位信息,依次分别是左间距、上间距、右间距、下间距
  • self.titleregular1、.titleregular2、answerregular1 这些是进行题目和答案处理的条件

3. 获得accesstoken值

def GetAccseetoken(self):
    for i in range(len(self.APIKEY)):
      host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id={}&client_secret={}'.format(self.APIKEY[i],self.SECRETKEY[i])
      response = requests.get(host)
      jsondata = response.json()
      self.accesstoken.append(jsondata['access_token'])

这是官方提供的获取accesstoken的摸板,大家直接使用就行了。

4. 图像转文字以及相关处理

def OCR(self,filename):
    request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic"
    # 二进制方式打开图片文件
    f = open(filename, 'rb')
    img = base64.b64encode(f.read())
    params = {"image":img}
    access_token = self.accesstoken[0]
    request_url = request_url + "?access_token=" + access_token
    headers = {'content-type': 'application/x-www-form-urlencoded'}
    response = requests.post(request_url, data=params, headers=headers)
    #===上面是使用百度图片转文字接口转化,返回格式为json
    if response:
      result = response.json()
      questionstart=0
      answerstart=0
      self.question=''
      self.answer=[]
      #确定题目和答案所在的位置
      for i in range(result['words_result_num']):
        if(re.search(self.titleregular1,result['words_result'][i]['words'])!=None):
          questionstart=i+1
        if(re.search(self.titleregular2,result['words_result'][i]['words'])!=None):
          answerstart=i+1
       #下面是进行题目和答案的处理
      if(answerstart!=0):
        for title in result['words_result'][questionstart:answerstart]:
          if(re.search(self.answerregular1,title['words'])!=None):
            pass
          else:
            self.question+=title['words']
        for answer in result['words_result'][answerstart:]:
          if(re.search(self.answerregular1,answer['words'])!=None):
            pass
          else:
            if(str(answer['words']).find('.')>0):
              answer2 = str(answer['words']).split('.')[-1]
            else:
              answer2=answer['words']
            self.answer.append(answer2)
      else:
        for title in result['words_result'][questionstart:]:
          if(re.search(self.answerregular1,title['words'])!=None):
            pass
          else:
            self.question+=title['words']
      print("本题问题:",self.question)
      print("本题答案:",self.answer)
    return response.json()#可有可无

此方法是将图片转化为文字,进行图片中的文字识别,格式如下:

{
  "log_id": 2471272194, 
  "words_result_num": 2,
  "words_result": 
	  [
		  {"words": " TSINGTAO"}, 
		  {"words": "青?u睥酒"}
	  ]
}

下面我们以下面的图为例,我们是如何去除掉干扰信息的:

从0到1使用python开发一个半自动答题小程序的实现

上图就是程序在实际运行中的情况,黄色框内就是程序截取的图像(这个通过初始化方法的参数中的position可以进行设置),

我们需要的是红色框内的信息,这包含题目和答案选项。文字识别后,白色框里面的字也会和红色框里的字一同被识别,并以json形式输出,这些信息对我们就是干扰信息,所以,我通过建立了初始化方法里titleregular1、titleregular2、answerregular1 这三个标准进行判定,白色框里的文字与对应,如果判断包含的话,就不添加到题目中或者答案中。

5. 百度知道进行答案搜索

def BaiduAnswer(self):
    request = requests.session()
    headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'}
    data = {"word":self.question}
    url=self.baiduzhidao+'lm=0&rn=10&pn=0&fr=search&ie=gbk&'+parse.urlencode(data,encoding='GB2312')
    ress = request.get(url,headers=headers)
    ress.encoding='gbk'
    if ress:
      soup = BeautifulSoup(ress.text,'lxml')
      result = soup.find_all("dd",class_="dd answer")
      if(len(result)!=0 and len(result)>self.answernumber):
        length=5
      else:
        length=len(result)
      for i in range(length):
        self.searchanswer.append(result[i].text)

这里是模拟浏览器进行百度知道搜索答案,将返回的文本交给BeautifulSoup进行处理,提取出我们需要的部分。后面最后几句有一个判定,如果查询到的答案数量超过我们设置的答案数,比如是5,那么就将前5个答案放入searchanswer列表中,如果查询到的答案数量要少于我们设置的,返回所有答案。

6. 短文本相似度分析

def CalculateSimilarity(self,text1,text2):
    access_token = self.accesstoken[1]
    request_url="https://aip.baidubce.com/rpc/2.0/nlp/v2/simnet"
    request_url = request_url + "?access_token=" + access_token
    headers = {'Content-Type': 'application/json'}
    data={"text_1":text1,"text_2":text2,"model":"GRNN"}
    response = requests.post(request_url, json=data, headers=headers)
    response.encoding='gbk'
    if response:
      try:
        result = response.json()
        return result['score']
      except:
        return 0

这里调用的是百度短文本相似度分析的接口,用于分析选项与查询到的答案的相似度,以此来推荐一个参考答案。这个是官方给的摸板,直接调用,更换一下参数即可。

7. 自动给出一个参考答案

def AutoRecomment(self):
    if(len(self.answer)==0):
      return
    for i in range(len(self.answer)):
      scores=[]
      flag=0
      for j in range(len(self.searchanswer)):
        if(j!=0and (j%2==0)):
          time.sleep(0.1)
        score = tools.CalculateSimilarity(tools.answer[i],tools.searchanswer[j])
        if(tools.answer[i] in tools.searchanswer[j]):
          score=1
        scores.append(score)
        if(score>0.8):
          flag=1
          self.answerscore.append(score)
          break
      if(flag==0):
        self.answerscore.append(max(scores))
    self.reanswerindex = self.answerscore.index(max(self.answerscore))

这里调用了咱们第六步的CalculateSimilarity()方法,统计每一个选项与搜索到的答案相似度,取最高的存入answerscore列表中。这里我又加了一个操作,我发现这个相似度匹配有时正确率比较低,所以这里加了一个判定,若选项在搜索到的答案中出现,给予一个最大相似值,也就是1,这就大大提高了推荐的准确度。

8. 初始化参数

def IniParam(self):
    self.accesstoken=[]
    self.question=''
    self.answer=[]
    self.searchanswer=[]
    self.answerscore=[]
    self.reanswerindex=0

相关参数的初始化,因为每进行完一道题,要对存储题和答案以及相关信息的数组进行清空,否则会对后面题的显示产生影响。

9. 主方法

def MainMethod(self):
    while(True):
      try:
        order = input('请输入指令(1=开始,2=结束):')
        if(int(order)==1):
          start = time.time()
          self.GetAccseetoken()
          img = ImageGrab.grab(self.position)#左、上、右、下
          img.save(self.imageurl)
          self.OCR(self.imageurl)
          self.BaiduAnswer()
          if(self.StartAutoRecomment):
            self.AutoRecomment()
          print("======================答案区======================\n")
          for i in range(len(self.searchanswer)):
            print("{}.{}".format(i,self.searchanswer[i]))
          end = time.time()
          print(self.answerscore)
          if(self.StartAutoRecomment and len(self.answer)>0):
            print("\n推荐答案:",self.answer[self.reanswerindex])
          print("\n======================答案区======================")
          print("总用时:",end-start,end="\n\n")
          self.IniParam()
        else:
          break
      except:
        print("识别失败,请重新尝试")
        self.IniParam()
        pass

这里主要是一个while循环,通过输入指定来判断是否结束循环。

这里说一下下面这两个语句:

img = ImageGrab.grab(self.position)#左、上、右、下
img.save(self.imageurl)

这两个语句是用来截取我们指定位置的图片,然后进行图片的保存。

总结

上述呢,就是整个项目完成的流程,整体运行是几乎每什么问题,但是还是存在许多可优化的空间。也欢迎大家对此感兴趣的留言,说说你的改进意见,我会非常感谢,并认真考虑进去。期待与大家的讨论!?

到此这篇关于从0到1使用python开发一个半自动答题小程序的实现的文章就介绍到这了,更多相关python 半自动答题小程序内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python脚本完成post接口测试的实例
Dec 17 Python
详解Python中的内建函数,可迭代对象,迭代器
Apr 29 Python
Python实现报警信息实时发送至邮箱功能(实例代码)
Nov 11 Python
Django中使用MySQL5.5的教程
Dec 18 Python
通过实例了解Python str()和repr()的区别
Jan 17 Python
解决TensorFlow GPU版出现OOM错误的问题
Feb 03 Python
Python + selenium + crontab实现每日定时自动打卡功能
Mar 31 Python
keras 读取多标签图像数据方式
Jun 12 Python
小结Python的反射机制
Sep 28 Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 Python
Python实现七个基本算法的实例代码
Oct 08 Python
Python可视化神器pyecharts绘制地理图表
Jul 07 Python
Python列表去重复项的N种方法(实例代码)
May 12 #Python
python3中的logging记录日志实现过程及封装成类的操作
May 12 #Python
Pycharm激活方法及详细教程(详细且实用)
May 12 #Python
PyTorch在Windows环境搭建的方法步骤
May 12 #Python
pycharm 2018 激活码及破解补丁激活方式
Sep 21 #Python
pycharm 激活码及使用方式的详细教程
May 12 #Python
Python-jenkins模块之folder相关操作介绍
May 12 #Python
You might like
php中判断一个字符串包含另一个字符串的方法
2007/03/19 PHP
php文章内容分页并生成相应的htm静态页面代码
2010/06/07 PHP
用PHP编写和读取XML的几种方式
2013/01/12 PHP
php实现求相对时间函数
2015/06/15 PHP
利用PHP访问MySql数据库的逻辑操作以及增删改查的实例讲解
2017/08/30 PHP
javascript延时加载之defer测试
2012/12/28 Javascript
JavaScript插件化开发教程(五)
2015/02/01 Javascript
在JavaScript中操作时间之getUTCDate()方法的使用
2015/06/10 Javascript
详解JavaScript的Polymer框架中的通知交互
2015/07/29 Javascript
asp.net+jquery.form实现图片异步上传的方法(附jquery.form.js下载)
2016/05/05 Javascript
全面解析JavaScript中apply和call以及bind(推荐)
2016/06/15 Javascript
使用vue编写一个点击数字计时小游戏
2016/08/31 Javascript
Node.js连接postgreSQL并进行数据操作
2016/12/18 Javascript
JS中如何实现点击a标签返回页面顶部的问题
2017/01/19 Javascript
Js利用prototype自定义数组方法示例
2017/10/20 Javascript
JS实现DOM删除节点操作示例
2018/04/04 Javascript
security.js实现的RSA加密功能示例
2018/06/06 Javascript
用 js 写一个 js 解释器过程详解
2019/08/02 Javascript
js删除对象中的某一个字段的方法实现
2021/01/11 Javascript
[03:43]2014DOTA2西雅图国际邀请赛 newbee战队巡礼
2014/07/07 DOTA
Python 拷贝对象(深拷贝deepcopy与浅拷贝copy)
2008/09/06 Python
使用Python编写Prometheus监控的方法
2018/10/15 Python
python使用pygame模块实现坦克大战游戏
2020/03/25 Python
python二分法查找算法实现方法【递归与非递归】
2019/12/06 Python
pandas 强制类型转换 df.astype实例
2020/04/09 Python
Python性能测试工具Locust安装及使用
2020/12/01 Python
Python plt 利用subplot 实现在一张画布同时画多张图
2021/02/26 Python
CSS3的 fit-content实现水平居中
2017/09/07 HTML / CSS
美国巧克力喷泉品牌:Sephra
2019/05/05 全球购物
网上常见的一份Linux面试题(多项选择部分)
2015/02/07 面试题
婚前协议书范本
2014/04/15 职场文书
公司行政主管岗位职责
2015/04/09 职场文书
教师个人师德工作总结2015
2015/05/12 职场文书
Keras在mnist上的CNN实践,并且自定义loss函数曲线图操作
2021/05/25 Python
python可视化之颜色映射详解
2021/09/15 Python
CSS元素定位之通过元素的标签或者元素的id、class属性定位详解
2022/09/23 HTML / CSS