python爬取豆瓣电影TOP250数据


Posted in Python onMay 23, 2021

在执行程序前,先在MySQL中创建一个数据库"pachong"。

import pymysql
import requests
import re


#获取资源并下载
def resp(listURL):
    #连接数据库
    conn = pymysql.connect(
        host = '127.0.0.1',
        port = 3306,
        user = 'root',
        password = '******',  #数据库密码请根据自身实际密码输入
        database = 'pachong', 
        charset = 'utf8'
    )

    #创建数据库游标
    cursor = conn.cursor()

    #创建列表t_movieTOP250(执行sql语句)
    cursor.execute('create table t_movieTOP250(id INT PRIMARY KEY 												auto_increment NOT NULL ,movieName VARCHAR(20) NOT NULL 									,pictrue_address VARCHAR(100))')

    try:
        # 爬取数据
        for urlPath in listURL:
            # 获取网页源代码
            response = requests.get(urlPath)
            html = response.text

            # 正则表达式
            namePat = r'alt="(.*?)" src='
            imgPat = r'src="(.*?)" class='

            # 匹配正则(排名【用数据库中id代替,自动生成及排序】、电影名、电影海报(图片地址))
            res2 = re.compile(namePat)
            res3 = re.compile(imgPat)
            textList2 = res2.findall(html)
            textList3 = res3.findall(html)

            # 遍历列表中元素,并将数据存入数据库
            for i in range(len(textList3)):
                cursor.execute('insert into t_movieTOP250(movieName,pictrue_address) 									VALUES("%s","%s")' % (textList2[i],textList3[i]))

        #从游标中获取结果
        cursor.fetchall()

        #提交结果
        conn.commit()
        print("结果已提交")

    except Exception as e:
        #数据回滚
        conn.rollback()
        print("数据已回滚")

    #关闭数据库
    conn.close()

#top250所有网页网址
def page(url):
    urlList = []
    for i in range(10):
        num = str(25*i)
        pagePat = r'?start=' + num + '&filter='
        urL = url+pagePat
        urlList.append(urL)
    return urlList


if __name__ == '__main__':
    url = r"https://movie.douban.com/top250"
    listURL = page(url)
    resp(listURL)

结果如下图:

python爬取豆瓣电影TOP250数据

python爬取豆瓣电影TOP250数据

以上就是我的分享,如果有什么不足之处请指出,多交流,谢谢!

以上就是python爬取豆瓣电影TOP250数据的详细内容,更多关于python爬取豆瓣电影的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python 字符串操作方法大全
Mar 11 Python
Python语言实现获取主机名根据端口杀死进程
Mar 31 Python
使用Python+Splinter自动刷新抢12306火车票
Jan 03 Python
python+opencv打开摄像头,保存视频、拍照功能的实现方法
Jan 08 Python
pytorch 共享参数的示例
Aug 17 Python
Python 实现一个手机号码获取妹子名字的功能
Sep 25 Python
python代码如何实现余弦相似性计算
Feb 09 Python
python3中的logging记录日志实现过程及封装成类的操作
May 12 Python
VSCode配合pipenv搞定虚拟环境的实现方法
May 17 Python
详解Python多线程下的list
Jul 03 Python
Python自动化操作实现图例绘制
Jul 09 Python
Python 如何实现数据库表结构同步
Sep 29 Python
基于Python绘制子图及子图刻度的变换等的问题
聊聊pytorch测试的时候为何要加上model.eval()
May 23 #Python
PyTorch 如何自动计算梯度
May 23 #Python
解决numpy和torch数据类型转化的问题
May 23 #Python
Python 用户输入和while循环的操作
May 23 #Python
解决Tkinter中button按钮未按却主动执行command函数的问题
May 23 #Python
python tkinter Entry控件的焦点移动操作
May 22 #Python
You might like
深入理解PHP原理之异常机制
2010/08/21 PHP
php设计模式 Mediator (中介者模式)
2011/06/26 PHP
phpmyadmin安装时提示:Warning: require_once(./libraries/common.inc.php)错误解决办法
2011/08/18 PHP
PHP和Shell实现检查SAMBA与NFS Server是否存在
2015/01/07 PHP
PHP+MySQL修改记录的方法
2015/01/21 PHP
php结合ACCESS的跨库查询功能
2015/06/12 PHP
PHP转换文本框内容为HTML格式的方法
2016/07/20 PHP
Laravel获取当前请求的控制器和方法以及中间件的例子
2019/10/11 PHP
laravel 5.5 关闭token的3种实现方式
2019/10/24 PHP
laravel开发环境homestead搭建过程详解
2020/07/03 PHP
bcastr2.0 通用的图片浏览器
2006/11/22 Javascript
JavaScript Cookie显示用户上次访问的时间和次数
2009/12/08 Javascript
JQuery筛选器全系列介绍
2013/08/27 Javascript
javascript实例--教你实现扑克牌洗牌功能
2014/05/15 Javascript
js实现获取当前时间是本月第几周的方法
2015/08/11 Javascript
jQuery插件 Jqplot图表实例
2016/06/18 Javascript
微信小程序 生命周期和页面的生命周期详细介绍
2017/01/19 Javascript
jquery实现异步加载图片(懒加载图片一种方式)
2017/04/24 jQuery
Egg.js 中 AJax 上传文件获取参数的方法
2018/10/10 Javascript
Javascript之高级数组API的使用实例
2019/03/08 Javascript
vue解决使用$http获取数据时报错的问题
2019/10/30 Javascript
使用Python的Supervisor进行进程监控以及自动启动
2014/05/29 Python
Python中文件操作简明介绍
2015/04/13 Python
python类继承用法实例分析
2015/05/27 Python
Python 绘图库 Matplotlib 入门教程
2018/04/19 Python
详解PANDAS 数据合并与重塑(join/merge篇)
2019/07/09 Python
python Jupyter运行时间实例过程解析
2019/12/13 Python
使用Python-OpenCV消除图像中孤立的小区域操作
2020/07/05 Python
python基于openpyxl生成excel文件
2020/12/23 Python
详解css3 mask遮罩实现一些特效
2018/10/24 HTML / CSS
英国美发和美容产品商城:HQhair
2019/02/08 全球购物
护士个人简历自荐信
2013/10/18 职场文书
六查六看个人剖析材料
2014/10/14 职场文书
自我推荐信格式模板
2015/03/24 职场文书
详解CSS不定宽溢出文本适配滚动
2021/05/24 HTML / CSS
Python os和os.path模块详情
2022/04/02 Python