编程 Python

python多线程抓取天涯帖子内容示例

Posted in Python onApril 03, 2014

使用re, urllib, threading　多线程抓取天涯帖子内容，设置url为需抓取的天涯帖子的第一页，设置file_name为下载后的文件名

#coding:utf-8
import urllib
import re
import threading
import os, time
class Down_Tianya(threading.Thread):
    """多线程下载"""
    def __init__(self, url, num, dt):
        threading.Thread.__init__(self)
        self.url = url
        self.num = num
        self.txt_dict = dt
    def run(self):
        print 'downling from %s' % self.url
        self.down_text()
    def down_text(self):
        """根据传入的url抓出各页内容，按页数做键存入字典"""
        html_content =urllib.urlopen(self.url).read()
        text_pattern = re.compile('<span>时间：(.*?)</span>.*?<!-- <div class="host-ico">楼主</div> -->.*?<div class="bbs-content.*?>\s*(.*?)</div>', re.DOTALL)
        text = text_pattern.findall(html_content)
        text_join = ['\r\n\r\n\r\n\r\n'.join(item) for item in text]
        self.txt_dict[self.num] = text_join
 

def page(url):
    """根据第一页地址抓取总页数"""
    html_page = urllib.urlopen(url).read()
    page_pattern = re.compile(r'<a href="\S*?">(\d*)</a>\s*<a href="\S*?" class="\S*?">下页</a>')
    page_result = page_pattern.search(html_page)
    if page_result:
        page_num = int(page_result.group(1))
        return page_num
 
def write_text(dict, fn):
    """把字典内容按键（页数）写入文本，每个键值为每页内容的list列表"""
    tx_file = open(fn, 'w+')
    pn = len(dict)
    for i in range(1, pn+1):
        tx_list = dict[i]
        for tx in tx_list:
            tx = tx.replace('<br>', '\r\n').replace('<br />', '\r\n').replace(' ', '')
            tx_file.write(tx.strip()+'\r\n'*4)
    tx_file.close()

def main():
    url = 'http://bbs.tianya.cn/post-16-996521-1.shtml'
    file_name ='abc.txt'
    my_page = page(url)
    my_dict = {}
    print 'page num is : %s' % my_page
    threads = []
    """根据页数构造urls进行多线程下载"""
    for num in range(1, my_page+1):
        myurl = '%s%s.shtml' % (url[:-7], num)
        downlist = Down_Tianya(myurl, num, my_dict)
        downlist.start()
        threads.append(downlist)
    """检查下载完成后再进行写入"""
    for t in threads:
        t.join()
    write_text(my_dict, file_name)
    print 'All download finished. Save file at directory: %s' % os.getcwd()
if __name__ == '__main__':
    main()

down_tianya.py

#coding:utf-8
import urllib
import re
import threading
import os
class Down_Tianya(threading.Thread):
    """多线程下载"""
    def __init__(self, url, num, dt):
        threading.Thread.__init__(self)
        self.url = url
        self.num = num
        self.txt_dict = dt
    def run(self):
        print 'downling from %s' % self.url
        self.down_text()
    def down_text(self):
        """根据传入的url抓出各页内容，按页数做键存入字典"""
        html_content =urllib.urlopen(self.url).read()
        text_pattern = re.compile('<div class="atl-item".*?<span>时间：(.*?)</span>.*?<!-- <div class="host-ico">楼主</div> -->.*?<div class="bbs-content.*?>\s*(.*?)</div>', re.DOTALL)
        text = text_pattern.findall(html_content)
        text_join = ['\r\n\r\n\r\n\r\n'.join(item) for item in text]
        self.txt_dict[self.num] = text_join
 

def page(url):
    """根据第一页地址抓取总页数"""
    html_page = urllib.urlopen(url).read()
    page_pattern = re.compile(r'<a href="\S*?">(\d*)</a>\s*<a href="\S*?" class="\S*?">下页</a>')
    page_result = page_pattern.search(html_page)
    if page_result:
        page_num = int(page_result.group(1))
        return page_num
 
def write_text(dict, fn):
    """把字典内容按键（页数）写入文本，每个键值为每页内容的list列表"""
    tx_file = open(fn, 'w+')
    pn = len(dict)
    for i in range(1, pn+1):
        tx_list = dict[i]
        for tx in tx_list:
            tx = tx.replace('<br>', '\r\n').replace('<br />', '\r\n').replace(' ', '')
            tx_file.write(tx.strip()+'\r\n'*4)
    tx_file.close()

def main():
    url = 'http://bbs.tianya.cn/post-16-996521-1.shtml'
    file_name ='abc.txt'
    my_page = page(url)
    my_dict = {}
    print 'page num is : %s' % my_page
    threads = []
    """根据页数构造urls进行多线程下载"""
    for num in range(1, my_page+1):
        myurl = '%s%s.shtml' % (url[:-7], num)
        downlist = Down_Tianya(myurl, num, my_dict)
        downlist.start()
        threads.append(downlist)
    """检查下载完成后再进行写入"""
    for t in threads:
        t.join()
    write_text(my_dict, file_name)
    print 'All download finished. Save file at directory: %s' % os.getcwd()
if __name__ == '__main__':
    main()

python多线程抓取天涯帖子内容示例

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

安装Python的教程-Windows

Jul 22 Python

Python实现读取字符串按列分配后按行输出示例

Apr 17 Python

numpy实现合并多维矩阵、list的扩展方法

May 08 Python

python的pytest框架之命令行参数详解（上）

Jun 27 Python

对python 调用类属性的方法详解

Jul 02 Python

基于python调用psutil模块过程解析

Dec 20 Python

python 正则表达式参数替换实例详解

Jan 17 Python

Python3标准库之dbm UNIX键-值数据库问题

Mar 24 Python

python如何调用java类

Jul 05 Python

使用django自带的user做外键的方法

Nov 30 Python

python制作微博图片爬取工具

Jan 16 Python

Python爬虫实战之爬取京东商品数据并实实现数据可视化

Jun 07 Python

python局域网ip扫描示例分享

Apr 03 #Python

python实现数通设备tftp备份配置文件示例

Apr 02 #Python

python实现巡检系统(solaris)示例

Apr 02 #Python

python实现apahce网站日志分析示例

Apr 02 #Python

python实现数通设备端口监控示例

Apr 02 #Python

使用python解析xml成对应的html示例分享

Apr 02 #Python

Python爬虫框架Scrapy安装使用步骤

Apr 01 #Python

You might like

PHP通过header实现文本文件下载的代码

2010/08/08 PHP

Laravel框架中VerifyCsrfToken报错问题的解决

2017/08/30 PHP

JavaScript窗口功能指南之在窗口中书写内容

2006/07/21 Javascript

javascript 对象的定义方法

2007/01/10 Javascript

详解jquery中$.ajax方法提交表单

2014/11/03 Javascript

JavaScript中的原型链prototype介绍

2014/12/30 Javascript

推荐一款jQuery插件模板

2015/01/09 Javascript

Bootstrap 附加导航（Affix）插件实例详解

2016/06/01 Javascript

Javascript将数值转换为金额格式（分隔千分位和自动增加小数点）

2016/06/22 Javascript

jQuery 的 ready()的纯js替代方法

2016/11/20 Javascript

利用Javascript实现一套自定义事件机制

2017/12/14 Javascript

浅谈mvvm-simple双向绑定简单实现

2018/04/18 Javascript

vue配置font-awesome5的方法步骤

2019/01/27 Javascript

vue2.0 实现富文本编辑器功能

2019/05/26 Javascript

使用vant的地域控件追加全部选项

2020/11/03 Javascript

[01:04:01]2014 DOTA2华西杯精英邀请赛5 24 DK VS VG

2014/05/25 DOTA

[41:08]TNC vs VG 2018国际邀请赛小组赛BO2 第一场 8.16

2018/08/17 DOTA

王纯业的Python学习笔记下载

2007/02/10 Python

Python模拟登录的多种方法(四种)

2018/06/01 Python

numpy数组做图片拼接的实现（concatenate、vstack、hstack）

2019/11/08 Python

django有哪些好处和优点

2020/09/01 Python

python中K-means算法基础知识点

2021/01/25 Python

修复iPhone的safari浏览器上submit按钮圆角bug

2012/12/24 HTML / CSS

伦敦最有品味的百货：Liberty London

2016/11/12 全球购物

美国网上眼镜商城：Zenni Optical

2016/11/20 全球购物

英国女性时尚鞋类的潮流制造者：Koi Footwear

2018/10/19 全球购物

一加手机美国官方网站：OnePlus美国

2019/09/19 全球购物

Java如何调用外部Exe程序

2015/07/04 面试题

商场中秋节广播稿

2014/01/17 职场文书

教师学习三严三实心得体会

2014/10/13 职场文书

优秀大学生事迹材料

2014/12/24 职场文书

品牌形象定位，全面分析

2019/07/23 职场文书

创业计划书之冷饮店

2019/09/27 职场文书

MySQL8.0.24版本Release Note的一些改进点

2021/04/22 MySQL

golang如何去除多余空白字符(含制表符)

2021/04/25 Golang

MySQL 数据表操作

2022/05/04 MySQL