python爬取豆瓣电影TOP250数据


Posted in Python onMay 23, 2021

在执行程序前,先在MySQL中创建一个数据库"pachong"。

import pymysql
import requests
import re


#获取资源并下载
def resp(listURL):
    #连接数据库
    conn = pymysql.connect(
        host = '127.0.0.1',
        port = 3306,
        user = 'root',
        password = '******',  #数据库密码请根据自身实际密码输入
        database = 'pachong', 
        charset = 'utf8'
    )

    #创建数据库游标
    cursor = conn.cursor()

    #创建列表t_movieTOP250(执行sql语句)
    cursor.execute('create table t_movieTOP250(id INT PRIMARY KEY 												auto_increment NOT NULL ,movieName VARCHAR(20) NOT NULL 									,pictrue_address VARCHAR(100))')

    try:
        # 爬取数据
        for urlPath in listURL:
            # 获取网页源代码
            response = requests.get(urlPath)
            html = response.text

            # 正则表达式
            namePat = r'alt="(.*?)" src='
            imgPat = r'src="(.*?)" class='

            # 匹配正则(排名【用数据库中id代替,自动生成及排序】、电影名、电影海报(图片地址))
            res2 = re.compile(namePat)
            res3 = re.compile(imgPat)
            textList2 = res2.findall(html)
            textList3 = res3.findall(html)

            # 遍历列表中元素,并将数据存入数据库
            for i in range(len(textList3)):
                cursor.execute('insert into t_movieTOP250(movieName,pictrue_address) 									VALUES("%s","%s")' % (textList2[i],textList3[i]))

        #从游标中获取结果
        cursor.fetchall()

        #提交结果
        conn.commit()
        print("结果已提交")

    except Exception as e:
        #数据回滚
        conn.rollback()
        print("数据已回滚")

    #关闭数据库
    conn.close()

#top250所有网页网址
def page(url):
    urlList = []
    for i in range(10):
        num = str(25*i)
        pagePat = r'?start=' + num + '&filter='
        urL = url+pagePat
        urlList.append(urL)
    return urlList


if __name__ == '__main__':
    url = r"https://movie.douban.com/top250"
    listURL = page(url)
    resp(listURL)

结果如下图:

python爬取豆瓣电影TOP250数据

python爬取豆瓣电影TOP250数据

以上就是我的分享,如果有什么不足之处请指出,多交流,谢谢!

以上就是python爬取豆瓣电影TOP250数据的详细内容,更多关于python爬取豆瓣电影的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python正则表达式修复网站文章字体不统一的解决方法
Feb 21 Python
Python3实现爬取指定百度贴吧页面并保存页面数据生成本地文档的方法
Apr 22 Python
Python3编码问题 Unicode utf-8 bytes互转方法
Oct 26 Python
django配置连接数据库及原生sql语句的使用方法
Mar 03 Python
python 根据字典的键值进行排序的方法
Jul 24 Python
Python交互式图形编程的实现
Jul 25 Python
Python绘图实现显示中文
Dec 04 Python
pytorch获取模型某一层参数名及参数值方式
Dec 30 Python
Python使用Tkinter实现转盘抽奖器的步骤详解
Jan 06 Python
Python如何使用bokeh包和geojson数据绘制地图
Mar 21 Python
Python 使用生成器代替线程的方法
Aug 04 Python
Python 添加文件注释和函数注释操作
Aug 09 Python
基于Python绘制子图及子图刻度的变换等的问题
聊聊pytorch测试的时候为何要加上model.eval()
May 23 #Python
PyTorch 如何自动计算梯度
May 23 #Python
解决numpy和torch数据类型转化的问题
May 23 #Python
Python 用户输入和while循环的操作
May 23 #Python
解决Tkinter中button按钮未按却主动执行command函数的问题
May 23 #Python
python tkinter Entry控件的焦点移动操作
May 22 #Python
You might like
PHP网站安装程序制作的原理、步骤、注意事项和示例代码
2010/08/01 PHP
PHP正则提取不包含指定网址的图片地址的例子
2014/04/21 PHP
thinkphp中memcache的用法实例
2014/11/29 PHP
php中二维数组排序问题方法详解
2015/08/28 PHP
PHP读取并输出XML文件数据的简单实现方法
2017/12/22 PHP
使用prototype.js进行异步操作
2007/02/07 Javascript
JS删除数组元素的函数介绍
2013/03/27 Javascript
JavaScript中的onerror事件概述及使用
2013/04/01 Javascript
中止javascript执行的方法
2014/02/14 Javascript
jQuery验证插件validate使用详解
2016/05/11 Javascript
jQuery验证表单格式的使用方法
2017/01/10 Javascript
angularjs封装$http为factory的方法
2017/05/18 Javascript
网页爬虫之cookie自动获取及过期自动更新的实现方法
2018/03/06 Javascript
基于vue.js实现的分页
2018/03/13 Javascript
使用json-server简单完成CRUD模拟后台数据的方法
2018/07/12 Javascript
微信小程序实现搜索历史功能
2020/03/26 Javascript
JavaScript链式调用原理与实现方法详解
2020/05/16 Javascript
Python的Django框架下管理站点的基本方法
2015/07/17 Python
详解python单例模式与metaclass
2016/01/15 Python
如何在Python函数执行前后增加额外的行为
2016/10/20 Python
python用模块zlib压缩与解压字符串和文件的方法
2016/12/16 Python
Python爬虫中urllib库的进阶学习
2018/01/05 Python
python模拟表单提交登录图书馆
2018/04/27 Python
Python在Matplotlib图中显示中文字体的操作方法
2019/07/29 Python
Python学习笔记之迭代器和生成器用法实例详解
2019/08/08 Python
浅谈对pytroch中torch.autograd.backward的思考
2019/12/27 Python
浅谈numpy中np.array()与np.asarray的区别以及.tolist
2020/06/03 Python
HTML5的结构和语义(1):前言
2008/10/17 HTML / CSS
欧洲第一中国智能手机和平板电脑网上商店:CECT-SHOP
2018/01/08 全球购物
医院办公室主任职责
2013/12/29 职场文书
计算机应用应届生求职信
2014/07/12 职场文书
2014年学校国庆主题活动方案
2014/09/16 职场文书
党的群众路线个人对照检查材料
2014/09/23 职场文书
2014年幼儿园安全工作总结
2014/11/10 职场文书
求职导师推荐信范文
2015/03/27 职场文书
2016年小学生寒假总结
2015/10/10 职场文书