python3爬取数据至mysql的方法


Posted in Python onJune 26, 2018

本文实例为大家分享了python3爬取数据至mysql的具体代码,供大家参考,具体内容如下

直接贴代码

#!/usr/local/bin/python3.5 
# -*- coding:UTF-8 -*- 
from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 
import datetime 
import random 
import pymysql 
 
connect = pymysql.connect(host='192.168.10.142', unix_socket='/tmp/mysql.sock', user='root', passwd='1234', db='scraping', charset='utf8') 
cursor = connect.cursor() 
cursor.execute('USE scraping') 
 
random.seed(datetime.datetime.now()) 
 
 
def store(title, content): 
 
  execute = cursor.execute("select * from pages WHERE `title` = %s", title) 
  if execute <= 0: 
    cursor.execute("insert into pages(`title`, `content`) VALUES(%s, %s)", (title, content)) 
    cursor.connection.commit() 
  else: 
    print('This content is already exist.') 
 
 
def get_links(acticle_url): 
  html = urlopen('http://en.wikipedia.org' + acticle_url) 
  soup = BeautifulSoup(html, 'html.parser') 
  title = soup.h1.get_text() 
  content = soup.find('div', {'id': 'mw-content-text'}).find('p').get_text() 
  store(title, content) 
  return soup.find('div', {'id': 'bodyContent'}).findAll('a', href=re.compile("^(/wiki/)(.)*$")) 
 
links = get_links('') 
 
try: 
  while len(links) > 0: 
    newActicle = links[random.randint(0, len(links) - 1)].attrs['href'] 
    links = get_links(newActicle) 
    print(links) 
finally: 
  cursor.close() 
  connect.close()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现的简单发送邮件脚本分享
Nov 07 Python
Python中使用PDB库调试程序
Apr 05 Python
Python3.x对JSON的一些操作示例
Sep 01 Python
Python + selenium自动化环境搭建的完整步骤
May 19 Python
详解python中的index函数用法
Aug 06 Python
使用TensorFlow对图像进行随机旋转的实现示例
Jan 20 Python
Python unittest工作原理和使用过程解析
Feb 24 Python
django model object序列化实例
Mar 13 Python
django模型动态修改参数,增加 filter 字段的方式
Mar 16 Python
Django中使用Json返回数据的实现方法
Jun 03 Python
python map比for循环快在哪
Sep 21 Python
使用python创建股票的时间序列可视化分析
Mar 03 Python
python清除函数占用的内存方法
Jun 25 #Python
Python IDLE清空窗口的实例
Jun 25 #Python
Python设置在shell脚本中自动补全功能的方法
Jun 25 #Python
PyCharm代码整体缩进,反向缩进的方法
Jun 25 #Python
Python代码块批量添加Tab缩进的方法
Jun 25 #Python
对python中for、if、while的区别与比较方法
Jun 25 #Python
详解Django+Uwsgi+Nginx的生产环境部署
Jun 25 #Python
You might like
PHP 编程的 5个良好习惯
2009/02/20 PHP
php数组函数序列之sort() 对数组的元素值进行升序排序
2011/11/02 PHP
深入php之规范编程命名小结
2013/05/15 PHP
解析PHP中的unset究竟会不会释放内存
2013/07/18 PHP
php保存二进制原始数据为图片的程序代码
2014/10/14 PHP
php中的登陆login实例代码
2016/06/20 PHP
PHP实现可添加水印与生成缩略图的图片处理工具类
2018/01/16 PHP
深入理解javascript的getTime()方法
2017/02/16 Javascript
angularjs+bootstrap实现自定义分页的实例代码
2017/06/19 Javascript
vue-cli项目中使用echarts图表实例
2018/10/22 Javascript
vue-cli3+typescript新建一个项目的思路分析
2019/08/06 Javascript
[01:06:26]全国守擂赛第二周 Team Coach vs DeMonsTer
2020/04/28 DOTA
python操作MySQL数据库具体方法
2013/10/28 Python
python统计一个文本中重复行数的方法
2014/11/19 Python
Python+django实现文件上传
2016/01/17 Python
Python操作csv文件实例详解
2017/07/31 Python
Python实现中一次读取多个值的方法
2018/04/22 Python
Python加载带有注释的Json文件实例
2018/05/23 Python
Python实现的绘制三维双螺旋线图形功能示例
2018/06/23 Python
Windows 64位下python3安装nltk模块
2018/09/19 Python
Django基础知识 web框架的本质详解
2019/07/18 Python
Django多数据库的实现过程详解
2019/08/01 Python
Django框架序列化与反序列化操作详解
2019/11/01 Python
python+tifffile之tiff文件读写方式
2020/01/13 Python
python实现ftp文件传输功能
2020/03/20 Python
基于python的opencv图像处理实现对斑马线的检测示例
2020/11/29 Python
非凡女性奢华谦虚风格:The Modist
2017/10/28 全球购物
在线购买廉价折扣书籍和小说:BookOutlet.com
2018/02/19 全球购物
自我评价优秀范文分享
2013/11/30 职场文书
DIY手工制作经营店创业计划书
2014/02/01 职场文书
班主任对学生的评语
2014/04/26 职场文书
学校宣传标语
2014/06/18 职场文书
贪污检举信范文
2015/03/02 职场文书
公司行政主管岗位职责
2015/04/09 职场文书
公司管理制度范本
2015/08/03 职场文书
Python爬虫数据的分类及json数据使用小结
2021/03/29 Python