Python探索之爬取电商售卖信息代码示例


Posted in Python onOctober 27, 2017

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

下面有一个示例代码,分享给大家:

#! /usr/bin/env python

#
encoding = 'utf-8'#
Filename: spider_58center_sth.py
from bs4
import BeautifulSoup
import time
import requests
url_58 = 'http://nj.58.com/?PGTID=0d000000-0000-0c5c-ffba-71f8f3f7039e&ClickID=1'
''
'
用于爬取电商售卖信息: 例为58同城电脑售卖信息 ''
'
def get_url_list(url):
  web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
url = soup.select('td.t > a[class="t"]')
url_list = ''
for link in url:
  link_n = link.get('href')
if 'zhuanzhuan' in link_n:
  pass
else :
  if 'jump' in link_n:
  pass
else :
  url_list = url_list + '\n' + link_n
print('url_list: %s' % url_list)
return url_list# 分类获取目标信息
def get_url_info():
  url_list = get_url_list(url_58)
for url in url_list.split():
  time.sleep(1)
web_datas = requests.get(url)
soup = BeautifulSoup(web_datas.text, 'lxml')
type = soup.select('#head > div.breadCrumb.f12 > span:nth-of-type(3) > a')
title = soup.select(' div.col_sub.mainTitle > h1')
date = soup.select('li.time')
price = soup.select('div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.summary > ul > '
  'li:nth-of-type(1) > div.su_con > span.price.c_f50')
fineness = soup.select('div.col_sub.summary > u1 > li:nth-of-type(2) > div.su_con > span')
area = soup.select('div.col_sub.summary > u1 > li:nth-of-type(3) > div.su_con > span')
for typei, titlei, datei, pricei, finenessi, areai in zip(type, title, date, price, fineness, area): #做字典
data = {
  'type': typei.get_text(),
  'title': titlei.get_text(),
  'date': datei.get_text(),
  'price': pricei.get_text(),
  'fineness': (finenessi.get_text()).strip(),
  'area': list(areai.stripped_strings)
}
print(data)
get_url_info()

爬取商城商品售卖信息

总结

以上就是本文关于Python探索之爬取电商售卖信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:Python探索之自定义实现线程池、Python探索之ModelForm代码详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
基于Django的python验证码(实例讲解)
Oct 23 Python
Python格式化输出字符串方法小结【%与format】
Oct 29 Python
python 调用有道api接口的方法
Jan 03 Python
使用python判断jpeg图片的完整性实例
Jun 10 Python
django数据关系一对多、多对多模型、自关联的建立
Jul 24 Python
详解用python生成随机数的几种方法
Aug 04 Python
在pycharm中显示python画的图方法
Aug 31 Python
python可视化实现KNN算法
Oct 16 Python
vim自动补全插件YouCompleteMe(YCM)安装过程解析
Oct 21 Python
Python利用逻辑回归分类实现模板
Feb 15 Python
python自动点赞功能的实现思路
Feb 26 Python
Django集成富文本编辑器summernote的实现步骤
May 31 Python
Python 列表理解及使用方法
Oct 27 #Python
Python算法之求n个节点不同二叉树个数
Oct 27 #Python
Python探索之自定义实现线程池
Oct 27 #Python
python音频处理用到的操作的示例代码
Oct 27 #Python
彻底理解Python list切片原理
Oct 27 #Python
Python在不同目录下导入模块的实现方法
Oct 27 #Python
Django视图之ORM数据库查询操作API的实例
Oct 27 #Python
You might like
php断点续传之文件分割合并详解
2016/12/13 PHP
javascript 学习之旅 (3)
2009/02/05 Javascript
JQUERY 浏览器判断实现函数
2009/08/20 Javascript
js parentElement和offsetParent之间的区别
2010/03/23 Javascript
一个js拖拽的效果类和dom-drag.js浅析
2010/07/17 Javascript
再分享70+免费的jquery 图片滑块效果插件和教程
2014/12/15 Javascript
jQuery源码分析之jQuery.fn.each与jQuery.each用法
2015/01/23 Javascript
jQuery幻灯片带缩略图轮播效果代码分享
2015/08/17 Javascript
js实现带缓冲效果的仿QQ面板折叠菜单代码
2015/09/06 Javascript
JavaScript提高性能知识点汇总
2016/01/15 Javascript
AngularJS中实现用户访问的身份认证和表单验证功能
2016/04/21 Javascript
AngularJS基础 ng-options 指令详解
2016/08/02 Javascript
jQuery实现在新增加的元素上添加事件方法案例分析
2017/02/09 Javascript
AngularJS表格样式简单设置方法示例
2017/03/03 Javascript
jQuery实现鼠标经过显示动画边框特效
2017/03/24 jQuery
使用RN Animated做一个“添加购物车”动画的方法
2018/09/12 Javascript
vue回到顶部监听滚动事件详解
2019/08/02 Javascript
js prototype深入理解及应用实例分析
2019/11/25 Javascript
echarts实现获取datazoom的起始值(包括x轴和y轴)
2020/07/20 Javascript
maptalks+three.js+vue webpack实现二维地图上贴三维模型操作
2020/08/10 Javascript
解决iView Table组件宽度只变大不变小的问题
2020/11/13 Javascript
python的类方法和静态方法
2014/12/13 Python
python爬虫实现教程转换成 PDF 电子书
2017/02/19 Python
Python设置matplotlib.plot的坐标轴刻度间隔以及刻度范围
2019/06/25 Python
python 等差数列末项计算方式
2020/05/03 Python
Python 找出出现次数超过数组长度一半的元素实例
2020/05/11 Python
详解Python高阶函数
2020/08/15 Python
利用Opencv实现图片的油画特效实例
2021/02/28 Python
使用css实现android系统的loading加载动画
2019/07/25 HTML / CSS
澳大利亚领先的在线美容商城:Adore Beauty
2017/04/14 全球购物
30岁生日感言
2014/01/25 职场文书
小学生成绩单评语
2014/12/31 职场文书
团代会邀请函
2015/02/02 职场文书
2015年教师学期工作总结
2015/04/30 职场文书
2016优秀护士先进个人事迹材料
2016/02/25 职场文书
用几道面试题来看JavaScript执行机制
2021/04/30 Javascript