Python探索之爬取电商售卖信息代码示例


Posted in Python onOctober 27, 2017

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

下面有一个示例代码,分享给大家:

#! /usr/bin/env python

#
encoding = 'utf-8'#
Filename: spider_58center_sth.py
from bs4
import BeautifulSoup
import time
import requests
url_58 = 'http://nj.58.com/?PGTID=0d000000-0000-0c5c-ffba-71f8f3f7039e&ClickID=1'
''
'
用于爬取电商售卖信息: 例为58同城电脑售卖信息 ''
'
def get_url_list(url):
  web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
url = soup.select('td.t > a[class="t"]')
url_list = ''
for link in url:
  link_n = link.get('href')
if 'zhuanzhuan' in link_n:
  pass
else :
  if 'jump' in link_n:
  pass
else :
  url_list = url_list + '\n' + link_n
print('url_list: %s' % url_list)
return url_list# 分类获取目标信息
def get_url_info():
  url_list = get_url_list(url_58)
for url in url_list.split():
  time.sleep(1)
web_datas = requests.get(url)
soup = BeautifulSoup(web_datas.text, 'lxml')
type = soup.select('#head > div.breadCrumb.f12 > span:nth-of-type(3) > a')
title = soup.select(' div.col_sub.mainTitle > h1')
date = soup.select('li.time')
price = soup.select('div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.summary > ul > '
  'li:nth-of-type(1) > div.su_con > span.price.c_f50')
fineness = soup.select('div.col_sub.summary > u1 > li:nth-of-type(2) > div.su_con > span')
area = soup.select('div.col_sub.summary > u1 > li:nth-of-type(3) > div.su_con > span')
for typei, titlei, datei, pricei, finenessi, areai in zip(type, title, date, price, fineness, area): #做字典
data = {
  'type': typei.get_text(),
  'title': titlei.get_text(),
  'date': datei.get_text(),
  'price': pricei.get_text(),
  'fineness': (finenessi.get_text()).strip(),
  'area': list(areai.stripped_strings)
}
print(data)
get_url_info()

爬取商城商品售卖信息

总结

以上就是本文关于Python探索之爬取电商售卖信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:Python探索之自定义实现线程池、Python探索之ModelForm代码详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
Python 冒泡,选择,插入排序使用实例
Feb 05 Python
Python中tell()方法的使用详解
May 24 Python
用Python写一个无界面的2048小游戏
May 24 Python
Python中Collections模块的Counter容器类使用教程
May 31 Python
Mac 上切换Python多版本
Jun 17 Python
Python对列表去重的多种方法(四种方法)
Dec 05 Python
Python爬虫实例_城市公交网络站点数据的爬取方法
Jan 10 Python
np.newaxis 实现为 numpy.ndarray(多维数组)增加一个轴
Nov 30 Python
浅谈pandas.cut与pandas.qcut的使用方法及区别
Mar 03 Python
scrapy redis配置文件setting参数详解
Nov 18 Python
一文带你掌握Pyecharts地理数据可视化的方法
Feb 06 Python
python 机器学习的标准化、归一化、正则化、离散化和白化
Apr 16 Python
Python 列表理解及使用方法
Oct 27 #Python
Python算法之求n个节点不同二叉树个数
Oct 27 #Python
Python探索之自定义实现线程池
Oct 27 #Python
python音频处理用到的操作的示例代码
Oct 27 #Python
彻底理解Python list切片原理
Oct 27 #Python
Python在不同目录下导入模块的实现方法
Oct 27 #Python
Django视图之ORM数据库查询操作API的实例
Oct 27 #Python
You might like
php 文件缓存函数
2011/10/08 PHP
PHP实现采集抓取淘宝网单个商品信息
2015/01/08 PHP
PHP匿名函数和use子句用法实例
2016/03/16 PHP
利用JS重写Cognos右键菜单的实现代码
2010/04/11 Javascript
一个网马的tips实现分析
2010/11/28 Javascript
Javascript实现的类似Google的Div拖动效果代码
2011/08/09 Javascript
javascript实现控制浏览器全屏
2015/03/30 Javascript
JavaScript实现图片DIV竖向滑动的方法
2015/04/25 Javascript
jQuery表单元素选择器代码实例
2017/02/06 Javascript
详解node.js搭建代理服务器请求数据
2017/04/08 Javascript
JavaScript函数中的this四种绑定形式
2017/08/15 Javascript
利用three.js画一个3D立体的正方体示例代码
2017/11/19 Javascript
解决vue单页使用keep-alive页面返回不刷新的问题
2018/03/13 Javascript
JavaScript简单实现关键字文本搜索高亮显示功能示例
2018/07/25 Javascript
小程序实现列表多个批量倒计时
2021/01/29 Javascript
layui实现数据分页功能
2019/07/27 Javascript
使用vscode快速建立vue模板过程详解
2019/10/10 Javascript
vue项目中在可编辑div光标位置插入内容的实现代码
2020/01/07 Javascript
浅谈vue中使用编辑器vue-quill-editor踩过的坑
2020/08/03 Javascript
[56:46]Liquid vs IG 2018国际邀请赛小组赛BO2 第二场 8.17
2018/08/18 DOTA
Python变量和数据类型详解
2017/02/15 Python
Python学习入门之区块链详解
2017/07/25 Python
python2.7实现复制大量文件及文件夹资料
2019/08/31 Python
Python如何截图保存的三种方法(小结)
2020/09/01 Python
CSS3中伪元素::before和::after的用法示例
2017/09/18 HTML / CSS
HTML5之SVG 2D入门7—SVG元素的重用与引用
2013/01/30 HTML / CSS
Application Cache未缓存文件无法访问无法加载问题
2014/05/31 HTML / CSS
加拿大时尚床上用品零售商:QE Home | Quilts Etc
2018/01/22 全球购物
彪马加拿大官网:PUMA加拿大
2018/10/04 全球购物
FC-Moto英国:欧洲最大的摩托车服装和头盔商店之一
2019/08/25 全球购物
年终自我鉴定
2013/10/09 职场文书
小学生安全保证书
2014/02/01 职场文书
《两个铁球同时着地》教学反思
2014/02/13 职场文书
党的群众路线教育实践活动党员个人整改措施
2014/10/27 职场文书
教师个人师德工作总结2015
2015/05/12 职场文书
Python爬虫爬取全球疫情数据并存储到mysql数据库的步骤
2021/03/29 Python