Python探索之爬取电商售卖信息代码示例


Posted in Python onOctober 27, 2017

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

下面有一个示例代码,分享给大家:

#! /usr/bin/env python

#
encoding = 'utf-8'#
Filename: spider_58center_sth.py
from bs4
import BeautifulSoup
import time
import requests
url_58 = 'http://nj.58.com/?PGTID=0d000000-0000-0c5c-ffba-71f8f3f7039e&ClickID=1'
''
'
用于爬取电商售卖信息: 例为58同城电脑售卖信息 ''
'
def get_url_list(url):
  web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
url = soup.select('td.t > a[class="t"]')
url_list = ''
for link in url:
  link_n = link.get('href')
if 'zhuanzhuan' in link_n:
  pass
else :
  if 'jump' in link_n:
  pass
else :
  url_list = url_list + '\n' + link_n
print('url_list: %s' % url_list)
return url_list# 分类获取目标信息
def get_url_info():
  url_list = get_url_list(url_58)
for url in url_list.split():
  time.sleep(1)
web_datas = requests.get(url)
soup = BeautifulSoup(web_datas.text, 'lxml')
type = soup.select('#head > div.breadCrumb.f12 > span:nth-of-type(3) > a')
title = soup.select(' div.col_sub.mainTitle > h1')
date = soup.select('li.time')
price = soup.select('div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.summary > ul > '
  'li:nth-of-type(1) > div.su_con > span.price.c_f50')
fineness = soup.select('div.col_sub.summary > u1 > li:nth-of-type(2) > div.su_con > span')
area = soup.select('div.col_sub.summary > u1 > li:nth-of-type(3) > div.su_con > span')
for typei, titlei, datei, pricei, finenessi, areai in zip(type, title, date, price, fineness, area): #做字典
data = {
  'type': typei.get_text(),
  'title': titlei.get_text(),
  'date': datei.get_text(),
  'price': pricei.get_text(),
  'fineness': (finenessi.get_text()).strip(),
  'area': list(areai.stripped_strings)
}
print(data)
get_url_info()

爬取商城商品售卖信息

总结

以上就是本文关于Python探索之爬取电商售卖信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:Python探索之自定义实现线程池、Python探索之ModelForm代码详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
利用python写个下载teahour音频的小脚本
May 08 Python
详解python基础之while循环及if判断
Aug 24 Python
Ubuntu安装Jupyter Notebook教程
Oct 18 Python
Python图形绘制操作之正弦曲线实现方法分析
Dec 25 Python
flask使用session保存登录状态及拦截未登录请求代码
Jan 19 Python
python2.x实现人民币转大写人民币
Jun 20 Python
Flask模板引擎之Jinja2语法介绍
Jun 26 Python
python中栈的原理及实现方法示例
Nov 27 Python
解决jupyter notebook 出现In[*]的问题
Apr 13 Python
pycharm 2018 激活码及破解补丁激活方式
Sep 21 Python
如何在C++中调用Python
May 21 Python
详解解Django 多对多表关系的三种创建方式
Aug 23 Python
Python 列表理解及使用方法
Oct 27 #Python
Python算法之求n个节点不同二叉树个数
Oct 27 #Python
Python探索之自定义实现线程池
Oct 27 #Python
python音频处理用到的操作的示例代码
Oct 27 #Python
彻底理解Python list切片原理
Oct 27 #Python
Python在不同目录下导入模块的实现方法
Oct 27 #Python
Django视图之ORM数据库查询操作API的实例
Oct 27 #Python
You might like
DSP接收机前端设想
2021/03/02 无线电
用来给图片加水印的PHP类
2008/04/09 PHP
zend framework配置操作数据库实例分析
2012/12/06 PHP
php获取文件大小的方法
2014/02/26 PHP
Web层改进II-用xmlhttp 无声息提交复杂表单
2007/01/22 Javascript
document.getElementById的简写方式(获取id对象的简略写法)
2010/09/10 Javascript
jQuery插件bxSlider实现响应式焦点图
2015/04/12 Javascript
JS实现自动变换的菜单效果代码
2015/09/09 Javascript
jQuery实现模拟flash头像裁切上传功能示例
2016/12/11 Javascript
概述一个页面从输入URL到页面加载完的过程
2016/12/16 Javascript
jQuery+HTML5实现弹出创意搜索框层
2016/12/29 Javascript
JS实现复制内容到剪贴板功能
2017/02/05 Javascript
js获取json中key所对应的value值的简单方法
2020/06/17 Javascript
js下拉菜单生成器dropMenu使用方法详解
2017/08/01 Javascript
详解基于vue-cli3快速发布一个fullpage组件
2019/03/08 Javascript
下载给定网页上图片的方法
2014/02/18 Python
Python标准库之循环器(itertools)介绍
2014/11/25 Python
在Python中封装GObject模块进行图形化程序编程的教程
2015/04/14 Python
python异常和文件处理机制详解
2016/07/19 Python
python中利用xml.dom模块解析xml的方法教程
2017/05/24 Python
使用python 爬虫抓站的一些技巧总结
2018/01/10 Python
梅尔频率倒谱系数(mfcc)及Python实现
2019/06/18 Python
梅尔倒谱系数(MFCC)实现
2019/06/19 Python
python print出共轭复数的方法详解
2019/06/25 Python
解决pyPdf和pyPdf2在合并pdf时出现异常的问题
2020/04/03 Python
IDLE下Python文件编辑和运行操作
2020/04/25 Python
keras处理欠拟合和过拟合的实例讲解
2020/05/25 Python
python爬虫利用selenium实现自动翻页爬取某鱼数据的思路详解
2020/12/22 Python
伦敦一家非常流行的时尚精品店:Oxygen Boutique
2017/01/15 全球购物
OPPO手机官方商城:中国手机市场出货量第一品牌
2017/10/18 全球购物
美国室内和室外装饰花盆购物网站:ePlanters
2019/03/22 全球购物
Stokke美国官方网店:高级儿童家具、推车、汽车座椅和配件
2020/06/06 全球购物
认购协议书范本
2014/04/22 职场文书
25句企业管理语录:助你迅速打开思路,句句经典!
2020/01/14 职场文书
Css预编语言及区别详解
2021/04/25 HTML / CSS
springboot 自定义配置 解决Boolean属性不生效
2022/03/18 Java/Android