Python探索之爬取电商售卖信息代码示例


Posted in Python onOctober 27, 2017

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

下面有一个示例代码,分享给大家:

#! /usr/bin/env python

#
encoding = 'utf-8'#
Filename: spider_58center_sth.py
from bs4
import BeautifulSoup
import time
import requests
url_58 = 'http://nj.58.com/?PGTID=0d000000-0000-0c5c-ffba-71f8f3f7039e&ClickID=1'
''
'
用于爬取电商售卖信息: 例为58同城电脑售卖信息 ''
'
def get_url_list(url):
  web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
url = soup.select('td.t > a[class="t"]')
url_list = ''
for link in url:
  link_n = link.get('href')
if 'zhuanzhuan' in link_n:
  pass
else :
  if 'jump' in link_n:
  pass
else :
  url_list = url_list + '\n' + link_n
print('url_list: %s' % url_list)
return url_list# 分类获取目标信息
def get_url_info():
  url_list = get_url_list(url_58)
for url in url_list.split():
  time.sleep(1)
web_datas = requests.get(url)
soup = BeautifulSoup(web_datas.text, 'lxml')
type = soup.select('#head > div.breadCrumb.f12 > span:nth-of-type(3) > a')
title = soup.select(' div.col_sub.mainTitle > h1')
date = soup.select('li.time')
price = soup.select('div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.summary > ul > '
  'li:nth-of-type(1) > div.su_con > span.price.c_f50')
fineness = soup.select('div.col_sub.summary > u1 > li:nth-of-type(2) > div.su_con > span')
area = soup.select('div.col_sub.summary > u1 > li:nth-of-type(3) > div.su_con > span')
for typei, titlei, datei, pricei, finenessi, areai in zip(type, title, date, price, fineness, area): #做字典
data = {
  'type': typei.get_text(),
  'title': titlei.get_text(),
  'date': datei.get_text(),
  'price': pricei.get_text(),
  'fineness': (finenessi.get_text()).strip(),
  'area': list(areai.stripped_strings)
}
print(data)
get_url_info()

爬取商城商品售卖信息

总结

以上就是本文关于Python探索之爬取电商售卖信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:Python探索之自定义实现线程池、Python探索之ModelForm代码详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
python文件读写操作与linux shell变量命令交互执行的方法
Jan 14 Python
使用Python脚本来控制Windows Azure的简单教程
Apr 16 Python
你应该知道的python列表去重方法
Jan 17 Python
python通过getopt模块如何获取执行的命令参数详解
Dec 29 Python
python 快速把超大txt文件转存为csv的实例
Oct 26 Python
python读取几个G的csv文件方法
Jan 07 Python
Python二进制文件读取并转换为浮点数详解
Jun 25 Python
对django views中 request, response的常用操作详解
Jul 17 Python
python实现图片上添加图片
Nov 26 Python
Python3如何判断三角形的类型
Apr 12 Python
python能做哪方面的工作
Jun 15 Python
Python编写可视化界面的全过程(Python+PyCharm+PyQt)
May 17 Python
Python 列表理解及使用方法
Oct 27 #Python
Python算法之求n个节点不同二叉树个数
Oct 27 #Python
Python探索之自定义实现线程池
Oct 27 #Python
python音频处理用到的操作的示例代码
Oct 27 #Python
彻底理解Python list切片原理
Oct 27 #Python
Python在不同目录下导入模块的实现方法
Oct 27 #Python
Django视图之ORM数据库查询操作API的实例
Oct 27 #Python
You might like
smtp邮件发送一例
2006/10/09 PHP
一些常用的php简单命令代码集锦
2007/09/24 PHP
PHP性能分析工具XHProf安装使用教程
2015/05/13 PHP
js 实现打印网页中定义的部分内容的代码
2010/04/01 Javascript
JS request函数 用来获取url参数
2010/05/17 Javascript
自己写的Javascript计算时间差函数
2013/10/28 Javascript
JS的数组迭代方法
2015/02/05 Javascript
jQuery实现可编辑的表格实例讲解(2)
2015/09/17 Javascript
jQuery Ajax 全局调用封装实例代码详解
2016/06/02 Javascript
AngularJS表单验证中级篇(3)
2016/09/28 Javascript
Javascript中数组去重与拍平的方法示例
2017/02/03 Javascript
jQuery插件FusionCharts实现的Marimekko图效果示例【附demo源码】
2017/03/24 jQuery
JavaScript订单操作小程序完整版
2017/06/23 Javascript
vue计算属性computed的使用方法示例
2019/03/13 Javascript
node后端服务保活的实现
2019/11/10 Javascript
Vue.js watch监视属性知识点总结
2019/11/11 Javascript
Vue实现背景更换颜色操作
2020/07/17 Javascript
Python实现霍夫圆和椭圆变换代码详解
2018/01/12 Python
python中将zip压缩包转为gz.tar的方法
2018/10/18 Python
钉钉群自定义机器人消息Python封装的实例
2019/02/20 Python
Python面向对象之多态原理与用法案例分析
2019/12/30 Python
Python3操作读写CSV文件使用包过程解析
2020/04/10 Python
python七种方法判断字符串是否包含子串
2020/08/18 Python
python链表类中获取元素实例方法
2021/02/23 Python
英国在线药房:Chemist.co.uk
2019/03/26 全球购物
美国眼镜在线零售商:Dualens
2019/12/07 全球购物
俄罗斯最大的隐形眼镜销售网站:Ochkov.Net
2021/02/07 全球购物
详细的大学生创业计划书模板
2014/01/27 职场文书
《蝙蝠和雷达》教学反思
2014/04/23 职场文书
领导班子三严三实对照检查材料
2014/09/25 职场文书
运动员入场前导词
2015/07/20 职场文书
读《庄子》有感:美而不自知
2019/11/06 职场文书
800字作文之大雪
2019/12/04 职场文书
python 判断文件或文件夹是否存在
2022/03/18 Python
JavaScript中reduce()的用法
2022/05/11 Javascript
SpringBoot项目多数据源及mybatis 驼峰失效的问题解决方法
2022/07/07 Java/Android