编程 Python

python3爬取数据至mysql的方法

Posted in Python onJune 26, 2018

本文实例为大家分享了python3爬取数据至mysql的具体代码，供大家参考，具体内容如下

直接贴代码

#!/usr/local/bin/python3.5 
# -*- coding:UTF-8 -*- 
from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 
import datetime 
import random 
import pymysql 
 
connect = pymysql.connect(host='192.168.10.142', unix_socket='/tmp/mysql.sock', user='root', passwd='1234', db='scraping', charset='utf8') 
cursor = connect.cursor() 
cursor.execute('USE scraping') 
 
random.seed(datetime.datetime.now()) 
 
 
def store(title, content): 
 
  execute = cursor.execute("select * from pages WHERE `title` = %s", title) 
  if execute <= 0: 
    cursor.execute("insert into pages(`title`, `content`) VALUES(%s, %s)", (title, content)) 
    cursor.connection.commit() 
  else: 
    print('This content is already exist.') 
 
 
def get_links(acticle_url): 
  html = urlopen('http://en.wikipedia.org' + acticle_url) 
  soup = BeautifulSoup(html, 'html.parser') 
  title = soup.h1.get_text() 
  content = soup.find('div', {'id': 'mw-content-text'}).find('p').get_text() 
  store(title, content) 
  return soup.find('div', {'id': 'bodyContent'}).findAll('a', href=re.compile("^(/wiki/)(.)*$")) 
 
links = get_links('') 
 
try: 
  while len(links) > 0: 
    newActicle = links[random.randint(0, len(links) - 1)].attrs['href'] 
    links = get_links(newActicle) 
    print(links) 
finally: 
  cursor.close() 
  connect.close()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python3爬取数据至mysql的方法

- Author -

lcjasas

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现的简单发送邮件脚本分享

Nov 07 Python

Python中使用PDB库调试程序

Apr 05 Python

Python3.x对JSON的一些操作示例

Sep 01 Python

Python + selenium自动化环境搭建的完整步骤

May 19 Python

详解python中的index函数用法

Aug 06 Python

使用TensorFlow对图像进行随机旋转的实现示例

Jan 20 Python

Python unittest工作原理和使用过程解析

Feb 24 Python

django model object序列化实例

Mar 13 Python

django模型动态修改参数,增加 filter 字段的方式

Mar 16 Python

Django中使用Json返回数据的实现方法

Jun 03 Python

python map比for循环快在哪

Sep 21 Python

使用python创建股票的时间序列可视化分析

Mar 03 Python

python清除函数占用的内存方法

Jun 25 #Python

Python IDLE清空窗口的实例

Jun 25 #Python

Python设置在shell脚本中自动补全功能的方法

Jun 25 #Python

PyCharm代码整体缩进,反向缩进的方法

Jun 25 #Python

Python代码块批量添加Tab缩进的方法

Jun 25 #Python

对python中for、if、while的区别与比较方法

Jun 25 #Python

详解Django+Uwsgi+Nginx的生产环境部署

Jun 25 #Python

You might like

PHP 编程的 5个良好习惯

2009/02/20 PHP

php数组函数序列之sort() 对数组的元素值进行升序排序

2011/11/02 PHP

深入php之规范编程命名小结

2013/05/15 PHP

解析PHP中的unset究竟会不会释放内存

2013/07/18 PHP

php保存二进制原始数据为图片的程序代码

2014/10/14 PHP

php中的登陆login实例代码

2016/06/20 PHP

PHP实现可添加水印与生成缩略图的图片处理工具类

2018/01/16 PHP

深入理解javascript的getTime()方法

2017/02/16 Javascript

angularjs+bootstrap实现自定义分页的实例代码

2017/06/19 Javascript

vue-cli项目中使用echarts图表实例

2018/10/22 Javascript

vue-cli3+typescript新建一个项目的思路分析

2019/08/06 Javascript

[01:06:26]全国守擂赛第二周 Team Coach vs DeMonsTer

2020/04/28 DOTA

python操作MySQL数据库具体方法

2013/10/28 Python

python统计一个文本中重复行数的方法

2014/11/19 Python

Python+django实现文件上传

2016/01/17 Python

Python操作csv文件实例详解

2017/07/31 Python

Python实现中一次读取多个值的方法

2018/04/22 Python

Python加载带有注释的Json文件实例

2018/05/23 Python

Python实现的绘制三维双螺旋线图形功能示例

2018/06/23 Python

Windows 64位下python3安装nltk模块

2018/09/19 Python

Django基础知识 web框架的本质详解

2019/07/18 Python

Django多数据库的实现过程详解

2019/08/01 Python

Django框架序列化与反序列化操作详解

2019/11/01 Python

python+tifffile之tiff文件读写方式

2020/01/13 Python

python实现ftp文件传输功能

2020/03/20 Python

基于python的opencv图像处理实现对斑马线的检测示例

2020/11/29 Python

非凡女性奢华谦虚风格：The Modist

2017/10/28 全球购物

在线购买廉价折扣书籍和小说：BookOutlet.com

2018/02/19 全球购物

自我评价优秀范文分享

2013/11/30 职场文书

DIY手工制作经营店创业计划书

2014/02/01 职场文书

班主任对学生的评语

2014/04/26 职场文书

学校宣传标语

2014/06/18 职场文书

贪污检举信范文

2015/03/02 职场文书

公司行政主管岗位职责

2015/04/09 职场文书

公司管理制度范本

2015/08/03 职场文书

Python爬虫数据的分类及json数据使用小结

2021/03/29 Python