编程 Python

Python3实现的爬虫爬取数据并存入mysql数据库操作示例

Posted in Python onJune 06, 2018

本文实例讲述了Python3实现的爬虫爬取数据并存入mysql数据库操作。分享给大家供大家参考，具体如下：

爬一个电脑客户端的订单。罗总推荐，抓包工具用的是HttpAnalyzerStdV7，与chrome自带的F12类似。客户端有接单大厅，罗列所有订单的简要信息。当单子被接了，就不存在了。我要做的是新出订单就爬取记录到我的数据库zyc里。

设置每10s爬一次。

抓包工具页面如图：

Python3实现的爬虫爬取数据并存入mysql数据库操作示例

首先是爬虫，先找到数据存储的页面，再用正则爬出。

# -*- coding:utf-8 -*-
import re
import requests
import pymysql #Python3的mysql模块，Python2 是mysqldb
import datetime
import time
def GetResults():
  requests.adapters.DEFAULT_RETRIES = 5 #有时候报错，我在网上找的不知道啥意思，好像也没用。
  reg = [r'"id":(.*?),',
      r'"order_no":"(.*?)",',
      r'"order_title":"(.*?)",',
      r'"publish_desc":"(.*?)",',
      r'"game_area":"(.*?)\\/(.*?)\\/(.*?)",',
      r'"order_current":"(.*?)",',
      r'"order_content":"(.*?)",',
      r'"order_hours":(.*?),',
      r'"order_price":"(.*?)",',
      r'"add_price":"(.*?)",',
      r'"safe_money":"(.*?)",',
      r'"speed_money":"(.*?)",',
      r'"order_status_desc":"(.*?)",',
      r'"order_lock_desc":"(.*?)",',
      r'"cancel_type_desc":"(.*?)",',
      r'"kf_status_desc":"(.*?)",',
      r'"is_show_pwd":(.*?),',
      r'"game_pwd":"(.*?)",',
      r'"game_account":"(.*?)",',
      r'"game_actor":"(.*?)",',
      r'"left_hours":"(.*?)",',
      r'"created_at":"(.*?)",',
      r'"account_id":"(.*?)",',
      r'"mobile":"(.*?)",',
      r'"contact":"(.*?)",',
      r'"qq":"(.*?)"},']
  results=[]
  try:
    for l in range(1,2):   #页码
      proxy = {'HTTP':'61.135.155.82:443'} #代理ip
      html = requests.get('https://www.dianjingbaozi.com/api/dailian/soldier/hall?access_token=3ef3abbea1f6cf16b2420eb962cf1c9a&dan_end=&dan_start=&game_id=2&kw=&order=price_desc&page=%d'%l+'&pagesize=30&price_end=0&price_start=0&server_code=000200000000&sign=ca19072ea0acb55a2ed2486d6ff6c5256c7a0773×tamp=1511235791&type=public&type_id=%20HTTP/1.1',proxies=proxy) # 用get的方式访问。网页解码成中文。接单大厅页。
      #
      html=html.content.decode('utf-8')
      outcome_reg_order_no = re.findall(r'"order_no":"(.*?)","game_area"', html)  #获取订单编号，因为订单详情页url与订单编号有关。
      for j in range(len(outcome_reg_order_no)):
        html_order = requests.get('http://www.lpergame.com/api/dailian/order/detail?access_token=eb547a14bad97e1ee5d835b32cb83ff1&order_no=' +outcome_reg_order_no[j] + '&sign=c9b503c0e4e8786c2945dc0dca0fabfa1ca4a870×tamp=1511146154 HTTP/1.1',proxies=proxy)  #订单详细页
        html_order=html_order.content.decode('utf-8')
        # print(html_order)
        outcome_reg = []
        for i in range(len(reg)):#每条订单
          outcome = re.findall(reg[i], html_order)
          if i == 4:
            for k in range(len(outcome)):
              outcome_reg.extend(outcome[k])
          else:
            outcome_reg.extend(outcome)
        results.append(outcome_reg) #结果集
    return results
  except:
    time.sleep(5)  #有时太频繁会报错。
    print("失败")
    pass

根据爬虫结果建表，这里变量名要准确。并且要设置唯一索引，使每次爬的只有新订单入库。

def mysql_create():
  mysql_host = ''
  mysql_db = 'zyc'
  mysql_user = 'zyc'
  mysql_password = ''
  mysql_port = 3306
  db = pymysql.connect(host=mysql_host, port=mysql_port, user=mysql_user, password=mysql_password, db=mysql_db,charset='utf8') # 连接数据库编码注意是utf8，不然中文结果输出会乱码
  sql_create = "CREATE TABLE DUMPLINGS (id CHAR(10),order_no CHAR(50),order_title VARCHAR(265),publish_desc VARCHAR(265),game_name VARCHAR(265),"\
         "game_area VARCHAR(265),game_area_distinct VARCHAR(265),order_current VARCHAR(3908),order_content VARCHAR(3908),order_hours CHAR(10)," \
         "order_price FLOAT(10),add_price FLOAT(10),safe_money FLOAT(10),speed_money FLOAT(10),order_status_desc VARCHAR(265),"\
         "order_lock_desc VARCHAR(265),cancel_type_desc VARCHAR(265),kf_status_desc VARCHAR(265),is_show_pwd TINYINT,game_pwd CHAR(50),"\
         "game_account VARCHAR(265),game_actor VARCHAR(265),left_hours VARCHAR(265),created_at VARCHAR(265),account_id CHAR(50),"\
         "mobile VARCHAR(265),mobile2 VARCHAR(265),contact VARCHAR(265),contact2 VARCHAR(265),qq VARCHAR(265),"\
         "PRIMARY KEY (`id`),UNIQUE KEY `no`(`order_no`))ENGINE=InnoDB AUTO_INCREMENT=12 DEFAULT CHARSET=utf8"
  sql_key="CREATE UNIQUE INDEX id ON DUMPLINGS(id)"
  cursor = db.cursor()
  cursor.execute("DROP TABLE IF EXISTS DUMPLINGS")
  cursor.execute(sql_create)# 执行SQL语句
  cursor.execute(sql_key)
  db.close() # 关闭数据库连

把数据导入Mysql，注意编码和字段之间的匹配。

def IntoMysql(results):
  mysql_host = ''
  mysql_db = 'zyc'
  mysql_user = 'zyc'
  mysql_password = ''
  mysql_port = 3306
  db = pymysql.connect(host=mysql_host, port=mysql_port, user=mysql_user, password=mysql_password, db=mysql_db,charset='utf8') # 连接数据库编码注意是utf8，不然中文结果输出会乱码
  cursor = db.cursor()
  for j in range(len(results)):
    try:
      sql = "INSERT INTO DUMPLINGS(id,order_no,order_title,publish_desc ,game_name," \
         "game_area,game_area_distinct,order_current,order_content,order_hours," \
         "order_price,add_price,safe_money,speed_money,order_status_desc," \
         "order_lock_desc,cancel_type_desc,kf_status_desc,is_show_pwd,game_pwd," \
         "game_account,game_actor,left_hours,created_at,account_id," \
         "mobile,mobile2,contact,contact2,qq) VALUES ("
      for i in range(len(results[j])):
        sql = sql + "'" + results[j][i] + "',"
      sql = sql[:-1] + ")"
      sql = sql.encode('utf-8')
      cursor.execute(sql)
      db.commit()
    except:pass
  db.close()

每十秒运行一次。

mysql_create()
i=0
while True:
  results = GetResults()
  IntoMysql(results)
  i=i+1
  print("爬虫次数:",i)
  time.sleep(10)

结果如图：

Python3实现的爬虫爬取数据并存入mysql数据库操作示例

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python+MySQL数据库程序设计入门教程》及《Python常见数据库操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python3实现的爬虫爬取数据并存入mysql数据库操作示例

- Author -

mysql

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

推荐下python/ironpython:从入门到精通

Oct 02 Python

Python获取远程文件大小的函数代码分享

May 13 Python

Python 创建子进程模块subprocess详解

Apr 08 Python

python实现批量下载新浪博客的方法

Jun 15 Python

Python中Iterator迭代器的使用杂谈

Jun 20 Python

简单的python后台管理程序

Apr 13 Python

浅谈Python处理PDF的方法

Nov 10 Python

详细解读tornado协程(coroutine)原理

Jan 15 Python

使用python对文件中的数值进行累加的实例

Nov 28 Python

Python终端输出彩色字符方法详解

Feb 11 Python

如何解决安装python3.6.1失败

Jul 01 Python

Python中使用Selenium环境安装的方法步骤

Feb 22 Python

利用python如何处理百万条数据(适用java新手)

Jun 06 #Python

Python3实现的Mysql数据库操作封装类

Jun 06 #Python

python操作redis方法总结

Jun 06 #Python

目前最全的python的就业方向

Jun 05 #Python

python多进程提取处理大量文本的关键词方法

Jun 05 #Python

使用python进行文本预处理和提取特征的实例

Jun 05 #Python

python 用正则表达式筛选文本信息的实例

Jun 05 #Python

You might like

一拳超人中怪人协会钦定! S级别最强四人!

2020/03/02 日漫

动漫定律：眯眯眼都是怪物！这些角色狠话不多~

2020/03/03 日漫

DC动画很好看？新作烂得令人发指，名叫《红色之子》

2020/04/09 欧美动漫

深入php数据采集的详解

2013/06/02 PHP

PHP中多维数组的foreach遍历示例

2014/06/13 PHP

老生常谈文本文件和二进制文件的区别

2017/02/27 PHP

Yii2数据库操作常用方法小结

2017/05/04 PHP

PHP实现文字写入图片功能

2019/02/18 PHP

Laravel-添加后台模板AdminLte的实现方法

2019/10/08 PHP

使用laravel的Eloquent模型如何获取数据库的指定列

2019/10/17 PHP

php+iframe 实现上传文件功能示例

2020/03/04 PHP

PHP中abstract(抽象)、final(最终)和static(静态)原理与用法详解

2020/06/05 PHP

js创建对象的几种常用方式小结(推荐)

2010/10/24 Javascript

js给dropdownlist添加选项的小例子

2013/03/04 Javascript

判断文件是否正在被使用的JS代码

2013/12/21 Javascript

js对象基础实例分析

2015/01/13 Javascript

全面解析JavaScript中“&&”和“||”操作符(总结篇)

2016/07/18 Javascript

简单实现jQuery轮播效果

2017/08/18 jQuery

node.js中路由，中间件，ge请求和post请求的参数详解

2017/12/26 Javascript

Vue利用canvas实现移动端手写板的方法

2018/05/03 Javascript

JS中的模糊查询功能

2019/12/08 Javascript

[42:24]完美世界DOTA2联赛PWL S2 LBZS vs FTD.C 第三场 11.27

2020/12/01 DOTA

python实现的udp协议Server和Client代码实例

2014/06/04 Python

Python 基础教程之str和repr的详解

2017/08/20 Python

python 定时器,轮询定时器的实例

2019/02/20 Python

Python脚本导出为exe程序的方法

2020/03/25 Python

python可以用哪些数据库

2020/06/22 Python

如何在Python3中使用telnetlib模块连接网络设备

2020/09/21 Python

html table呈现个人简历以及单元格宽度失效的问题解决

2021/01/22 HTML / CSS

英国领先的酒类网上商城：TheDrinkShop

2017/03/16 全球购物

什么造成了Java里面的异常

2016/04/24 面试题

最新销售员个人自荐信

2013/09/21 职场文书

新学期红领巾广播稿

2014/01/14 职场文书

促销活动总结模板

2014/07/01 职场文书

汽车销售员岗位职责

2015/04/11 职场文书

美容院管理规章制度

2015/08/05 职场文书