Python探索之爬取电商售卖信息代码示例


Posted in Python onOctober 27, 2017

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

下面有一个示例代码,分享给大家:

#! /usr/bin/env python

#
encoding = 'utf-8'#
Filename: spider_58center_sth.py
from bs4
import BeautifulSoup
import time
import requests
url_58 = 'http://nj.58.com/?PGTID=0d000000-0000-0c5c-ffba-71f8f3f7039e&ClickID=1'
''
'
用于爬取电商售卖信息: 例为58同城电脑售卖信息 ''
'
def get_url_list(url):
  web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
url = soup.select('td.t > a[class="t"]')
url_list = ''
for link in url:
  link_n = link.get('href')
if 'zhuanzhuan' in link_n:
  pass
else :
  if 'jump' in link_n:
  pass
else :
  url_list = url_list + '\n' + link_n
print('url_list: %s' % url_list)
return url_list# 分类获取目标信息
def get_url_info():
  url_list = get_url_list(url_58)
for url in url_list.split():
  time.sleep(1)
web_datas = requests.get(url)
soup = BeautifulSoup(web_datas.text, 'lxml')
type = soup.select('#head > div.breadCrumb.f12 > span:nth-of-type(3) > a')
title = soup.select(' div.col_sub.mainTitle > h1')
date = soup.select('li.time')
price = soup.select('div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.summary > ul > '
  'li:nth-of-type(1) > div.su_con > span.price.c_f50')
fineness = soup.select('div.col_sub.summary > u1 > li:nth-of-type(2) > div.su_con > span')
area = soup.select('div.col_sub.summary > u1 > li:nth-of-type(3) > div.su_con > span')
for typei, titlei, datei, pricei, finenessi, areai in zip(type, title, date, price, fineness, area): #做字典
data = {
  'type': typei.get_text(),
  'title': titlei.get_text(),
  'date': datei.get_text(),
  'price': pricei.get_text(),
  'fineness': (finenessi.get_text()).strip(),
  'area': list(areai.stripped_strings)
}
print(data)
get_url_info()

爬取商城商品售卖信息

总结

以上就是本文关于Python探索之爬取电商售卖信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:Python探索之自定义实现线程池、Python探索之ModelForm代码详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
Python-基础-入门 简介
Aug 09 Python
Python中3种内建数据结构:列表、元组和字典
Nov 30 Python
简介二分查找算法与相关的Python实现示例
Aug 26 Python
python脚本设置系统时间的两种方法
Feb 21 Python
编写Python小程序来统计测试脚本的关键字
Mar 12 Python
独特的python循环语句
Nov 20 Python
关于Django外键赋值问题详解
Aug 13 Python
numpy中索引和切片详解
Dec 15 Python
django解决跨域请求的问题
Nov 11 Python
详解在python操作数据库中游标的使用方法
Nov 12 Python
Django之腾讯云短信的实现
Jun 12 Python
PyCharm配置KBEngine快速处理代码提示冲突、配置命令问题
Apr 03 Python
Python 列表理解及使用方法
Oct 27 #Python
Python算法之求n个节点不同二叉树个数
Oct 27 #Python
Python探索之自定义实现线程池
Oct 27 #Python
python音频处理用到的操作的示例代码
Oct 27 #Python
彻底理解Python list切片原理
Oct 27 #Python
Python在不同目录下导入模块的实现方法
Oct 27 #Python
Django视图之ORM数据库查询操作API的实例
Oct 27 #Python
You might like
建立文件交换功能的脚本(二)
2006/10/09 PHP
php xml常用函数的集合(比较详细)
2013/06/06 PHP
json的键名为数字时的调用方式(示例代码)
2013/11/15 PHP
PHP产生不重复随机数的5个方法总结
2014/11/12 PHP
php提取字符串中网站url地址的方法
2014/12/03 PHP
Laravel 5框架学习之模型、控制器、视图基础流程
2015/04/08 PHP
解决form中action属性后面?传递参数 获取不到的问题
2017/07/21 PHP
PHP中使用jQuery+Ajax实现分页查询多功能操作(示例讲解)
2017/09/17 PHP
显示今天的日期js代码(阳历和农历)
2014/09/30 Javascript
jquery使用ul模拟select实现表单美化的方法
2015/08/18 Javascript
jQuery实现MSN中文网滑动Tab菜单效果代码
2015/09/09 Javascript
jquery采用oop模式class类的使用示例
2016/01/22 Javascript
javascript使用btoa和atob来进行Base64转码和解码
2017/03/20 Javascript
jquery点赞功能实现代码 点个赞吧!
2020/05/29 jQuery
vue init失败简单解决方法(终极版)
2017/12/22 Javascript
VSCode配置react开发环境的步骤
2017/12/27 Javascript
安装Node.js并启动本地服务的操作教程
2018/05/12 Javascript
vue监听键盘事件的快捷方法【推荐】
2018/07/11 Javascript
详解Express笔记之动态渲染HTML(新手入坑)
2018/12/13 Javascript
vue项目中使用vue-layer弹框插件的方法
2020/03/11 Javascript
[49:42]DOTA2上海特级锦标赛主赛事日 - 3 胜者组第二轮#2Secret VS EG第一局
2016/03/04 DOTA
[42:32]完美世界DOTA2联赛PWL S2 LBZS vs FTD.C 第二场 11.27
2020/12/01 DOTA
Python搭建代理IP池实现存储IP的方法
2019/10/27 Python
python使用布隆过滤器的实现示例
2020/08/20 Python
师范应届生求职信
2013/11/15 职场文书
《长江之歌》教学反思
2014/04/17 职场文书
校园安全演讲稿
2014/05/09 职场文书
人事行政经理岗位职责
2014/06/18 职场文书
化学专业毕业生求职信
2014/07/28 职场文书
内科护士节演讲稿
2014/09/11 职场文书
2014年幼儿园园务工作总结
2014/12/05 职场文书
2014小学年度工作总结
2014/12/20 职场文书
乡镇党建工作总结2015
2015/05/19 职场文书
矛盾论读书笔记
2015/06/29 职场文书
公司员工宿舍管理制度
2015/08/03 职场文书
《认识年月日》教学反思
2016/02/19 职场文书