python网络爬虫采集联想词示例


Posted in Python onFebruary 11, 2014

python爬虫_采集联想词代码

#coding:utf-8
import urllib2
import urllib
import re
import time
from random import choice
#特别提示,下面这个list中的代理ip可能失效,请换上有效的代理ip
iplist  = ['27.24.158.153:81','46.209.70.74:8080','60.29.255.88:8888']
list1 = ["集团","科技"]
for item in list1:
    ip= choice(iplist)
    gjc = urllib.quote(item)
    url = "http://sug.so.360.cn/suggest/word?callback=suggest_so&encodein=utf-8&encodeout=utf-8&word="+gjc
    headers = {
                "GET":url,
                "Host":"sug.so.360.cn",
                "Referer":"http://www.so.com/",
                "User-Agent":"sMozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.56 Safari/537.17",
                }
    proxy_support = urllib2.ProxyHandler({'http':'http://'+ip})
    opener = urllib2.build_opener(proxy_support)
    urllib2.install_opener( opener )
    req = urllib2.Request(url)
    for key in headers:
        req.add_header(key,headers[key])
    html = urllib2.urlopen(req).read()
    ss = re.findall("\"(.*?)\"",html)
    for item in ss:
        print item
    time.sleep(2)
Python 相关文章推荐
python将unicode转为str的方法
Jun 21 Python
Python xlwt设置excel单元格字体及格式
Apr 18 Python
基于python神经卷积网络的人脸识别
May 24 Python
Python中list查询及所需时间计算操作示例
Jun 21 Python
django session完成状态保持的方法
Nov 27 Python
正则给header的冒号两边参数添加单引号(Python请求用)
Aug 09 Python
Python如何应用cx_Oracle获取oracle中的clob字段问题
Aug 27 Python
Python并发concurrent.futures和asyncio实例
May 04 Python
Python configparser模块操作代码实例
Jun 08 Python
python 匿名函数与三元运算学习笔记
Oct 23 Python
Pandas数据结构之Series的使用
Mar 31 Python
python处理json数据文件
Apr 11 Python
python基础教程之实现石头剪刀布游戏示例
Feb 11 #Python
python使用递归解决全排列数字示例
Feb 11 #Python
python基础教程之popen函数操作其它程序的输入和输出示例
Feb 10 #Python
python基础教程之python消息摘要算法使用示例
Feb 10 #Python
go和python调用其它程序并得到程序输出
Feb 10 #Python
python实现socket端口重定向示例
Feb 10 #Python
python访问sqlserver示例
Feb 10 #Python
You might like
PHP实现PDO的mysql数据库操作类
2014/12/12 PHP
php 伪造HTTP_REFERER页面URL来源的三种方法
2016/09/22 PHP
php检查函数必传参数是否存在的实例详解
2017/08/28 PHP
YII框架常用技巧总结
2019/04/27 PHP
PHP单元测试配置与使用方法详解
2019/12/27 PHP
jquery ui resizable bug解决方法
2010/10/26 Javascript
显示今天的日期js代码(阳历和农历)
2014/09/30 Javascript
node.js require() 源码解读
2015/12/13 Javascript
通过设置CSS中的position属性来固定层的位置
2015/12/14 Javascript
jQuery.ajax实现根据不同的Content-Type做出不同的响应
2016/11/03 Javascript
jQuery焦点图左右转换效果
2016/12/12 Javascript
微信小程序 生命周期函数详解
2017/05/24 Javascript
详谈AngularJs 控制器、数据绑定、作用域
2017/07/09 Javascript
vue项目中v-model父子组件通信的实现详解
2017/12/10 Javascript
vue中进入详情页记住滚动位置的方法(keep-alive)
2018/09/21 Javascript
解决node-sass偶尔安装失败的方法小结
2018/12/05 Javascript
jQuery插件实现非常实用的tab栏切换功能【案例】
2019/02/18 jQuery
详解ng-alain动态表单SF表单项设置必填和正则校验
2019/06/11 Javascript
vue动态子组件的两种实现方式
2019/09/01 Javascript
python中django框架通过正则搜索页面上email地址的方法
2015/03/21 Python
Python基于smtplib实现异步发送邮件服务
2015/05/28 Python
Python自动化部署工具Fabric的简单上手指南
2016/04/19 Python
Pytorch 实现权重初始化
2019/12/31 Python
python 装饰器重要在哪
2021/02/14 Python
CSS3网格的三个新特性详解
2014/04/04 HTML / CSS
潘多拉珠宝英国官方网上商店:PANDORA英国
2018/06/12 全球购物
大学毕业生自我鉴定
2013/11/05 职场文书
后勤工作职责
2013/12/22 职场文书
活动总结报告怎么写
2014/07/03 职场文书
社区党的群众路线教育实践活动领导班子对照检查材料
2014/09/25 职场文书
2014年爱国卫生工作总结
2014/11/22 职场文书
描写九月优美句子(39条)
2019/09/11 职场文书
instantclient客户端 连接oracle数据库
2022/04/26 Oracle
mysql字段为NULL索引是否会失效实例详解
2022/05/30 MySQL
在windows server 2012 r2中安装mysql的详细步骤
2022/07/23 Servers
使用Cargo工具高效创建Rust项目
2022/08/14 Javascript