python采集百度搜索结果带有特定URL的链接代码实例


Posted in Python onAugust 30, 2019

这篇文章主要介绍了python采集百度搜索结果带有特定URL的链接代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

#coding utf-8
import requests
from bs4 import BeautifulSoup as bs
import re
from Queue import Queue
import threading
from argparse import ArgumentParser

arg = ArgumentParser(description='baidu_url_collet py-script by xiaoye')
arg.add_argument('keyword',help='keyword like inurl:?id=for searching sqli site')
arg.add_argument('-p','--page',help='page count',dest='pagecount',type=int)
arg.add_argument('-t','--thread',help='the thread_count',dest='thread_count',type=int,default=10)
arg.add_argument('-o','--outfile',help='the file save result',dest='oufile',type=int,default='result.txt')
result = arg.parse_args()
headers = {'User-Agent':'Mozilla/5.0(windows NT 10.0 WX64;rv:50.0) Gecko/20100101 Firefox/50.0'}

class Bg_url(threading.Thread):
  def __init__(self,que):
    threading.Thread.__init__(self)
    self._que = que
  def run(self):
    while not self._que.empty():
      URL = self._que.get()
      try:
        self.bd_url_collet(URL)
      except Exception,e:
        print(e)
        pass
  def bd_url_collect(self, url):
    r = requests.get(url, headers=headers, timeout=3)
    soup = bs(r.content, 'lxml', from_encoding='utf-8')
    bqs = soup.find_all(name='a', attrs={‘data-click‘:re.compile(r'.'), 'class':None})#获得从百度搜索出来的a标签的链接
    for bq in bqs:
      r = requests.get(bq['href'], headers=headers, timeout=3)#获取真实链接
      if r.status_code == 200:#如果状态码为200
        print r.url
        with open(result.outfile, 'a') as f:
          f.write(r.url + '\n')
def main():
  thread = []
  thread_count = result.thread_count
  que = Queue()
  for i in range(0,(result.pagecount-1)*10,10):
  que.put('https://www.baidu.com/s?wd=' + result.keyword + '&pn=' + str(i))
  or i in range(thread_count):
  thread.append(Bd_url(que))
  for i in thread:
    i.start()
  for i in thread:
    i.join()    
if __name__ == '__main__':
  main()  
#执行格式
python aaaaa.py "inurl:asp?id=" -p 30 -t 30

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python选择排序算法的实现代码
Nov 21 Python
对于Python的框架中一些会话程序的管理
Apr 20 Python
使用Django和Python创建Json response的方法
Mar 26 Python
浅谈Python Opencv中gamma变换的使用详解
Apr 02 Python
Pycharm 操作Django Model的简单运用方法
May 23 Python
PyQt5 QListWidget选择多项并返回的实例
Jun 17 Python
python3 mmh3安装及使用方法
Oct 09 Python
解决python彩色螺旋线绘制引发的问题
Nov 23 Python
解决python调用自己文件函数/执行函数找不到包问题
Jun 01 Python
PyCharm最新激活码PyCharm2020.2.3有效
Nov 18 Python
Numpy中np.max的用法及np.maximum区别
Nov 27 Python
Python MNIST手写体识别详解与试练
Nov 07 Python
python获取Linux发行版名称
Aug 30 #Python
python实现ip地址查询经纬度定位详解
Aug 30 #Python
Django 对IP访问频率进行限制的例子
Aug 30 #Python
关于Python3 类方法、静态方法新解
Aug 30 #Python
Python 获取指定文件夹下的目录和文件的实现
Aug 30 #Python
简单的Python调度器Schedule详解
Aug 30 #Python
详解在Python中以绝对路径或者相对路径导入文件的方法
Aug 30 #Python
You might like
PHP与MySQL开发中页面乱码的产生与解决
2008/03/27 PHP
php 文件上传代码(限制jpg文件)
2010/01/05 PHP
php实现mysql数据库连接操作及用户管理
2015/11/08 PHP
PHP实现执行外部程序的方法详解
2017/08/17 PHP
基于PHP的加载类操作以及其他两种魔术方法的应用实例
2017/08/28 PHP
window.parent调用父框架时 ie跟火狐不兼容问题
2009/07/30 Javascript
JS定时刷新页面及跳转页面的方法
2013/07/04 Javascript
js实现幻灯片播放图片示例代码
2013/11/07 Javascript
JS之Date对象和获取系统当前时间详解
2014/01/13 Javascript
使用JavaScript链式编程实现模拟Jquery函数
2014/12/21 Javascript
JS实现太极旋转思路分析
2016/12/09 Javascript
JavaScript中从setTimeout与setInterval到AJAX异步
2017/02/13 Javascript
jQueryeasyui 中如何使用datetimebox 取两个日期间相隔的天数
2017/06/13 jQuery
详解Vue整合axios的实例代码
2017/06/21 Javascript
angular4自定义组件详解
2017/09/28 Javascript
Bootstrap 3多级下拉菜单实例
2017/11/23 Javascript
jQuery插件实现非常实用的tab栏切换功能【案例】
2019/02/18 jQuery
vue实现带复选框的树形菜单
2019/05/27 Javascript
怎么使用javascript深度拷贝一个数组
2019/06/06 Javascript
vue实现顶部菜单栏
2020/11/08 Javascript
[10:34]DOTA2上海特级锦标赛全纪录
2016/03/25 DOTA
整理Python最基本的操作字典的方法
2015/04/24 Python
Python使用pickle模块储存对象操作示例
2018/08/15 Python
Python Tornado批量上传图片并显示功能
2020/03/26 Python
python中threading和queue库实现多线程编程
2021/02/06 Python
Pycharm制作搞怪弹窗的实现代码
2021/02/19 Python
基于canvas使用贝塞尔曲线平滑拟合折线段的方法
2018/01/10 HTML / CSS
HTML5获取当前地理位置并在百度地图上展示的实例
2020/07/10 HTML / CSS
RUIFIER官网:英国奢侈高级珠宝品牌
2020/06/12 全球购物
优秀员工表扬信
2014/01/17 职场文书
大学生求职信例文
2014/06/29 职场文书
社区爱国卫生月活动总结
2014/06/30 职场文书
贷款委托书怎么写
2014/08/02 职场文书
乡镇八一建军节活动方案
2014/08/24 职场文书
催款函范本大全
2015/06/24 职场文书
2016大学生求职自荐信范文
2016/01/28 职场文书