Python探索之爬取电商售卖信息代码示例


Posted in Python onOctober 27, 2017

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

下面有一个示例代码,分享给大家:

#! /usr/bin/env python

#
encoding = 'utf-8'#
Filename: spider_58center_sth.py
from bs4
import BeautifulSoup
import time
import requests
url_58 = 'http://nj.58.com/?PGTID=0d000000-0000-0c5c-ffba-71f8f3f7039e&ClickID=1'
''
'
用于爬取电商售卖信息: 例为58同城电脑售卖信息 ''
'
def get_url_list(url):
  web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
url = soup.select('td.t > a[class="t"]')
url_list = ''
for link in url:
  link_n = link.get('href')
if 'zhuanzhuan' in link_n:
  pass
else :
  if 'jump' in link_n:
  pass
else :
  url_list = url_list + '\n' + link_n
print('url_list: %s' % url_list)
return url_list# 分类获取目标信息
def get_url_info():
  url_list = get_url_list(url_58)
for url in url_list.split():
  time.sleep(1)
web_datas = requests.get(url)
soup = BeautifulSoup(web_datas.text, 'lxml')
type = soup.select('#head > div.breadCrumb.f12 > span:nth-of-type(3) > a')
title = soup.select(' div.col_sub.mainTitle > h1')
date = soup.select('li.time')
price = soup.select('div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.summary > ul > '
  'li:nth-of-type(1) > div.su_con > span.price.c_f50')
fineness = soup.select('div.col_sub.summary > u1 > li:nth-of-type(2) > div.su_con > span')
area = soup.select('div.col_sub.summary > u1 > li:nth-of-type(3) > div.su_con > span')
for typei, titlei, datei, pricei, finenessi, areai in zip(type, title, date, price, fineness, area): #做字典
data = {
  'type': typei.get_text(),
  'title': titlei.get_text(),
  'date': datei.get_text(),
  'price': pricei.get_text(),
  'fineness': (finenessi.get_text()).strip(),
  'area': list(areai.stripped_strings)
}
print(data)
get_url_info()

爬取商城商品售卖信息

总结

以上就是本文关于Python探索之爬取电商售卖信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:Python探索之自定义实现线程池、Python探索之ModelForm代码详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
python 随机数生成的代码的详细分析
May 15 Python
Python Web框架Pylons中使用MongoDB的例子
Dec 03 Python
Python使用xlwt模块操作Excel的方法详解
Mar 27 Python
解决Python print 输出文本显示 gbk 编码错误问题
Jul 13 Python
python中退出多层循环的方法
Nov 27 Python
Python常见的pandas用法demo示例
Mar 16 Python
Python日志无延迟实时写入的示例
Jul 11 Python
django 基于中间件实现限制ip频繁访问过程详解
Jul 30 Python
如何基于python实现脚本加密
Dec 28 Python
Python+Appium实现自动化测试的使用步骤
Mar 24 Python
打印tensorflow恢复模型中所有变量与操作节点方式
May 26 Python
Python如何让字典保持有序排列
Apr 29 Python
Python 列表理解及使用方法
Oct 27 #Python
Python算法之求n个节点不同二叉树个数
Oct 27 #Python
Python探索之自定义实现线程池
Oct 27 #Python
python音频处理用到的操作的示例代码
Oct 27 #Python
彻底理解Python list切片原理
Oct 27 #Python
Python在不同目录下导入模块的实现方法
Oct 27 #Python
Django视图之ORM数据库查询操作API的实例
Oct 27 #Python
You might like
PHP的变量类型和作用域详解
2014/03/12 PHP
详解PHP实现异步调用的4种方法
2016/03/14 PHP
php简单截取字符串代码示例
2016/10/19 PHP
PHP基于反射机制实现插件的可插拔设计详解
2016/11/10 PHP
PHP常用算法和数据结构示例(必看篇)
2017/03/15 PHP
判断浏览器的javascript版本的代码
2010/09/03 Javascript
jquery垂直公告滚动实现代码
2013/12/08 Javascript
Node.js模块加载详解
2014/08/16 Javascript
js操作数组函数实例小结
2015/12/10 Javascript
jQuery+Ajax实现无刷新操作
2016/01/04 Javascript
AngularJS入门教程引导程序
2016/08/18 Javascript
微信小程序加载更多 点击查看更多
2016/11/29 Javascript
浅析vue数据绑定
2017/01/17 Javascript
js图片轮播插件的封装
2017/07/21 Javascript
前端主流框架vue学习笔记第二篇
2017/07/26 Javascript
详解使用PM2管理nodejs进程
2017/10/24 NodeJs
解读ES6中class关键字
2017/11/20 Javascript
vue数据控制视图源码解析
2018/03/28 Javascript
jQuery基于闭包实现的显示与隐藏div功能示例
2018/06/09 jQuery
vue-cli 3.0 版本与3.0以下版本在搭建项目时的区别详解
2018/12/11 Javascript
小程序和web画三角形实现解析
2019/09/02 Javascript
基于vue-cli3创建libs库的实现方法
2019/12/04 Javascript
vue项目启动出现cannot GET /服务错误的解决方法
2020/04/26 Javascript
详解详解Python中writelines()方法的使用
2015/05/25 Python
python版学生管理系统
2018/01/10 Python
python redis 删除key脚本的实例
2019/02/19 Python
python调用外部程序的实操步骤
2019/03/04 Python
英国户外玩具儿童游乐设备网站:TP Toys(蹦床、攀爬框架、秋千、滑梯和游戏屋)
2018/04/09 全球购物
美国摩托车头盔、零件、齿轮及配件商店:Cycle Gear
2019/06/12 全球购物
在校硕士自我鉴定
2014/01/23 职场文书
社会发展项目建议书
2014/08/25 职场文书
2014年药店店长工作总结
2014/11/17 职场文书
先进教师个人事迹材料
2014/12/15 职场文书
导游词之徐州云龙湖
2019/11/19 职场文书
nginx.conf配置文件结构小结
2022/04/08 Servers
Java处理延时任务的常用几种解决方案
2022/06/01 Java/Android