Python探索之爬取电商售卖信息代码示例


Posted in Python onOctober 27, 2017

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

下面有一个示例代码,分享给大家:

#! /usr/bin/env python

#
encoding = 'utf-8'#
Filename: spider_58center_sth.py
from bs4
import BeautifulSoup
import time
import requests
url_58 = 'http://nj.58.com/?PGTID=0d000000-0000-0c5c-ffba-71f8f3f7039e&ClickID=1'
''
'
用于爬取电商售卖信息: 例为58同城电脑售卖信息 ''
'
def get_url_list(url):
  web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
url = soup.select('td.t > a[class="t"]')
url_list = ''
for link in url:
  link_n = link.get('href')
if 'zhuanzhuan' in link_n:
  pass
else :
  if 'jump' in link_n:
  pass
else :
  url_list = url_list + '\n' + link_n
print('url_list: %s' % url_list)
return url_list# 分类获取目标信息
def get_url_info():
  url_list = get_url_list(url_58)
for url in url_list.split():
  time.sleep(1)
web_datas = requests.get(url)
soup = BeautifulSoup(web_datas.text, 'lxml')
type = soup.select('#head > div.breadCrumb.f12 > span:nth-of-type(3) > a')
title = soup.select(' div.col_sub.mainTitle > h1')
date = soup.select('li.time')
price = soup.select('div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.summary > ul > '
  'li:nth-of-type(1) > div.su_con > span.price.c_f50')
fineness = soup.select('div.col_sub.summary > u1 > li:nth-of-type(2) > div.su_con > span')
area = soup.select('div.col_sub.summary > u1 > li:nth-of-type(3) > div.su_con > span')
for typei, titlei, datei, pricei, finenessi, areai in zip(type, title, date, price, fineness, area): #做字典
data = {
  'type': typei.get_text(),
  'title': titlei.get_text(),
  'date': datei.get_text(),
  'price': pricei.get_text(),
  'fineness': (finenessi.get_text()).strip(),
  'area': list(areai.stripped_strings)
}
print(data)
get_url_info()

爬取商城商品售卖信息

总结

以上就是本文关于Python探索之爬取电商售卖信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:Python探索之自定义实现线程池、Python探索之ModelForm代码详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
Python使用代理抓取网站图片(多线程)
Mar 14 Python
python正则表达式re模块详解
Jun 25 Python
用Python进行一些简单的自然语言处理的教程
Mar 31 Python
Python单向链表和双向链表原理与用法实例详解
Aug 31 Python
pygame游戏之旅 载入小车图片、更新窗口
Nov 20 Python
python操作日志的封装方法(两种方法)
May 23 Python
Django 路由控制的实现
Jul 17 Python
Python使用matplotlib 画矩形的三种方式分析
Oct 31 Python
完美解决pycharm导入自己写的py文件爆红问题
Feb 12 Python
python编写softmax函数、交叉熵函数实例
Jun 11 Python
Django REST framework 限流功能的使用
Jun 24 Python
python实现对doc、txt、xls等文档的读写操作
Apr 02 Python
Python 列表理解及使用方法
Oct 27 #Python
Python算法之求n个节点不同二叉树个数
Oct 27 #Python
Python探索之自定义实现线程池
Oct 27 #Python
python音频处理用到的操作的示例代码
Oct 27 #Python
彻底理解Python list切片原理
Oct 27 #Python
Python在不同目录下导入模块的实现方法
Oct 27 #Python
Django视图之ORM数据库查询操作API的实例
Oct 27 #Python
You might like
PHP.MVC的模板标签系统(一)
2006/09/05 PHP
PHP5中MVC结构学习
2006/10/09 PHP
php中将html中的br换行符转换为文本输入中的换行符
2013/03/26 PHP
探讨:web上存漏洞及原理分析、防范方法
2013/06/29 PHP
php导出csv数据在浏览器中输出提供下载或保存到文件的示例
2014/04/24 PHP
yii实现使用CUploadedFile上传文件的方法
2015/12/28 PHP
PHP5.6读写excel表格文件操作示例
2019/02/26 PHP
new Date()问题在ie8下面的处理方法
2014/07/31 Javascript
JavaScript实现找出数组中最长的连续数字序列
2014/09/03 Javascript
JavaScript的内存释放问题详解
2015/01/21 Javascript
JS动态改变表格边框宽度的方法
2015/03/31 Javascript
原生JS实现响应式瀑布流布局
2015/04/02 Javascript
nodejs 的 session 简单使用
2016/06/06 NodeJs
AngularJS 单元测试(一)详解
2016/09/21 Javascript
JavaScript“尽快失败”的原则实例详解
2016/10/08 Javascript
js使用Replace结合正则替换重复出现的字符串功能示例
2016/12/27 Javascript
JavaScript之浏览器对象_动力节点Java学院整理
2017/07/03 Javascript
学习node.js 断言的使用详解
2019/03/18 Javascript
详解Vue项目中实现锚点定位
2019/04/24 Javascript
vue-quill-editor 自定义工具栏和自定义图片上传路径操作
2020/08/03 Javascript
Python3 处理JSON的实例详解
2017/10/29 Python
python逆序打印各位数字的方法
2018/06/25 Python
Django 多语言教程的实现(i18n)
2018/07/07 Python
Python学习笔记之Zip和Enumerate用法实例分析
2019/08/14 Python
Python测试Kafka集群(pykafka)实例
2019/12/23 Python
python实现滑雪者小游戏
2020/02/22 Python
CSS3 实现发光边框特效
2020/11/11 HTML / CSS
高级运动鞋:GREATS
2019/07/19 全球购物
开业庆典策划方案
2014/02/18 职场文书
公司周年庆典标语
2014/10/07 职场文书
邀请函样本
2015/02/02 职场文书
环卫工作个人总结
2015/03/04 职场文书
离婚起诉状范本
2015/05/19 职场文书
干货:如何写好观后感 !
2019/05/21 职场文书
详解Redis实现限流的三种方式
2021/04/27 Redis
试了下Golang实现try catch的方法
2021/07/01 Golang