Python探索之爬取电商售卖信息代码示例


Posted in Python onOctober 27, 2017

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

下面有一个示例代码,分享给大家:

#! /usr/bin/env python

#
encoding = 'utf-8'#
Filename: spider_58center_sth.py
from bs4
import BeautifulSoup
import time
import requests
url_58 = 'http://nj.58.com/?PGTID=0d000000-0000-0c5c-ffba-71f8f3f7039e&ClickID=1'
''
'
用于爬取电商售卖信息: 例为58同城电脑售卖信息 ''
'
def get_url_list(url):
  web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
url = soup.select('td.t > a[class="t"]')
url_list = ''
for link in url:
  link_n = link.get('href')
if 'zhuanzhuan' in link_n:
  pass
else :
  if 'jump' in link_n:
  pass
else :
  url_list = url_list + '\n' + link_n
print('url_list: %s' % url_list)
return url_list# 分类获取目标信息
def get_url_info():
  url_list = get_url_list(url_58)
for url in url_list.split():
  time.sleep(1)
web_datas = requests.get(url)
soup = BeautifulSoup(web_datas.text, 'lxml')
type = soup.select('#head > div.breadCrumb.f12 > span:nth-of-type(3) > a')
title = soup.select(' div.col_sub.mainTitle > h1')
date = soup.select('li.time')
price = soup.select('div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.summary > ul > '
  'li:nth-of-type(1) > div.su_con > span.price.c_f50')
fineness = soup.select('div.col_sub.summary > u1 > li:nth-of-type(2) > div.su_con > span')
area = soup.select('div.col_sub.summary > u1 > li:nth-of-type(3) > div.su_con > span')
for typei, titlei, datei, pricei, finenessi, areai in zip(type, title, date, price, fineness, area): #做字典
data = {
  'type': typei.get_text(),
  'title': titlei.get_text(),
  'date': datei.get_text(),
  'price': pricei.get_text(),
  'fineness': (finenessi.get_text()).strip(),
  'area': list(areai.stripped_strings)
}
print(data)
get_url_info()

爬取商城商品售卖信息

总结

以上就是本文关于Python探索之爬取电商售卖信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:Python探索之自定义实现线程池、Python探索之ModelForm代码详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
Python入门篇之对象类型
Oct 17 Python
Python二叉搜索树与双向链表转换实现方法
Apr 29 Python
python3.5仿微软计算器程序
Mar 30 Python
Python 常用的安装Module方式汇总
May 06 Python
Django框架静态文件使用/中间件/禁用ip功能实例详解
Jul 22 Python
python的pyecharts绘制各种图表详细(附代码)
Nov 11 Python
Python内置数据类型list各方法的性能测试过程解析
Jan 07 Python
Python tkinter实现简单加法计算器代码实例
May 13 Python
python3.7添加dlib模块的方法
Jul 01 Python
pycharm中如何自定义设置通过“ctrl+滚轮”进行放大和缩小实现方法
Sep 16 Python
在前女友婚礼上,用Python破解了现场的WIFI还把名称改成了
May 28 Python
详解在OpenCV中如何使用图像像素
Mar 03 Python
Python 列表理解及使用方法
Oct 27 #Python
Python算法之求n个节点不同二叉树个数
Oct 27 #Python
Python探索之自定义实现线程池
Oct 27 #Python
python音频处理用到的操作的示例代码
Oct 27 #Python
彻底理解Python list切片原理
Oct 27 #Python
Python在不同目录下导入模块的实现方法
Oct 27 #Python
Django视图之ORM数据库查询操作API的实例
Oct 27 #Python
You might like
php一次性删除前台checkbox多选内容的方法
2013/09/22 PHP
php连接与操作PostgreSQL数据库的方法
2014/12/25 PHP
PHP5全版本绕过open_basedir读文件脚本漏洞详细介绍
2015/01/20 PHP
php函数传值的引用传递注意事项分析
2016/06/25 PHP
PHP sdk实现在线打包代码示例
2020/12/09 PHP
Internet Explorer 11 浏览器介绍:别叫我IE
2014/09/28 Javascript
五种js判断是否为整数类型方式
2015/12/03 Javascript
一种新的javascript对象创建方式Object.create()
2015/12/28 Javascript
老司机带你解读jQuery插件开发流程
2016/05/16 Javascript
javascript闭包功能与用法实例分析
2017/04/06 Javascript
js和jquery中获取非行间样式
2017/05/05 jQuery
Angular2关于@angular/cli默认端口号配置的问题
2017/07/15 Javascript
微信小程序使用map组件实现获取定位城市天气或者指定城市天气数据功能
2019/01/22 Javascript
在vue项目中使用Jquery-contextmenu插件的步骤讲解
2019/01/27 jQuery
js实现二级联动简单实例
2020/01/11 Javascript
vue-model实现简易计算器
2020/08/17 Javascript
[02:32]DOTA2英雄基础教程 美杜莎
2014/01/07 DOTA
CentOS 7 安装python3.7.1的方法及注意事项
2018/11/01 Python
python使用for循环计算0-100的整数的和方法
2019/02/01 Python
解决Pycharm调用Turtle时 窗口一闪而过的问题
2019/02/16 Python
Python字符串的常见操作实例小结
2019/04/08 Python
opencv3/C++ 平面对象识别&透视变换方式
2019/12/11 Python
python实现数字炸弹游戏
2020/07/17 Python
豪华复古化妆:Besame Cosmetics
2019/09/06 全球购物
简述synchronized和java.util.concurrent.locks.Lock的异同
2014/12/08 面试题
电子商务专业推荐信范文
2013/12/02 职场文书
团购业务员岗位职责
2014/03/15 职场文书
租房协议书
2014/04/10 职场文书
教室标语大全
2014/06/21 职场文书
村安全生产责任书
2014/08/25 职场文书
2014年便民服务中心工作总结
2014/12/20 职场文书
房地产公司工程部经理岗位职责
2015/04/09 职场文书
小学体育组工作总结2015
2015/07/21 职场文书
Canvas跟随鼠标炫彩小球的实现
2021/04/11 Javascript
详细介绍python类及类的用法
2021/05/31 Python
微信小程序APP的事件绑定以及传递参数时的冒泡和捕获
2022/04/19 Javascript