Python探索之爬取电商售卖信息代码示例


Posted in Python onOctober 27, 2017

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

下面有一个示例代码,分享给大家:

#! /usr/bin/env python

#
encoding = 'utf-8'#
Filename: spider_58center_sth.py
from bs4
import BeautifulSoup
import time
import requests
url_58 = 'http://nj.58.com/?PGTID=0d000000-0000-0c5c-ffba-71f8f3f7039e&ClickID=1'
''
'
用于爬取电商售卖信息: 例为58同城电脑售卖信息 ''
'
def get_url_list(url):
  web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
url = soup.select('td.t > a[class="t"]')
url_list = ''
for link in url:
  link_n = link.get('href')
if 'zhuanzhuan' in link_n:
  pass
else :
  if 'jump' in link_n:
  pass
else :
  url_list = url_list + '\n' + link_n
print('url_list: %s' % url_list)
return url_list# 分类获取目标信息
def get_url_info():
  url_list = get_url_list(url_58)
for url in url_list.split():
  time.sleep(1)
web_datas = requests.get(url)
soup = BeautifulSoup(web_datas.text, 'lxml')
type = soup.select('#head > div.breadCrumb.f12 > span:nth-of-type(3) > a')
title = soup.select(' div.col_sub.mainTitle > h1')
date = soup.select('li.time')
price = soup.select('div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.summary > ul > '
  'li:nth-of-type(1) > div.su_con > span.price.c_f50')
fineness = soup.select('div.col_sub.summary > u1 > li:nth-of-type(2) > div.su_con > span')
area = soup.select('div.col_sub.summary > u1 > li:nth-of-type(3) > div.su_con > span')
for typei, titlei, datei, pricei, finenessi, areai in zip(type, title, date, price, fineness, area): #做字典
data = {
  'type': typei.get_text(),
  'title': titlei.get_text(),
  'date': datei.get_text(),
  'price': pricei.get_text(),
  'fineness': (finenessi.get_text()).strip(),
  'area': list(areai.stripped_strings)
}
print(data)
get_url_info()

爬取商城商品售卖信息

总结

以上就是本文关于Python探索之爬取电商售卖信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:Python探索之自定义实现线程池、Python探索之ModelForm代码详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
Python实现把xml或xsl转换为html格式
Apr 08 Python
python和bash统计CPU利用率的方法
Jul 10 Python
Python如何实现文本转语音
Aug 08 Python
Python中functools模块函数解析
Mar 12 Python
python3.4用循环往mysql5.7中写数据并输出的实现方法
Jun 20 Python
python清理子进程机制剖析
Nov 23 Python
Python cookbook(字符串与文本)针对任意多的分隔符拆分字符串操作示例
Apr 19 Python
pandas 选择某几列的方法
Jul 03 Python
Apache,wsgi,django 程序部署配置方法详解
Jul 01 Python
python argparser的具体使用
Nov 10 Python
在Python 的线程中运行协程的方法
Feb 24 Python
BeautifulSoup中find和find_all的使用详解
Dec 07 Python
Python 列表理解及使用方法
Oct 27 #Python
Python算法之求n个节点不同二叉树个数
Oct 27 #Python
Python探索之自定义实现线程池
Oct 27 #Python
python音频处理用到的操作的示例代码
Oct 27 #Python
彻底理解Python list切片原理
Oct 27 #Python
Python在不同目录下导入模块的实现方法
Oct 27 #Python
Django视图之ORM数据库查询操作API的实例
Oct 27 #Python
You might like
《雄兵连》系列首部大电影《烈阳天道》:可能是因为期望值太高了
2020/08/18 国漫
PHP+Mysql日期时间如何转换(UNIX时间戳和格式化日期)
2012/07/15 PHP
YII路径的用法总结
2014/07/09 PHP
PHP字符串比较函数strcmp()和strcasecmp()使用总结
2014/11/19 PHP
Thinkphp调用Image类生成缩略图的方法
2015/03/07 PHP
ThinkPHP V2.2说明文档没有说明的那些事实例小结
2015/07/01 PHP
php实现倒计时效果
2015/12/19 PHP
php session 写入数据库
2016/02/13 PHP
关于jQuery $.isNumeric vs. $.isNaN vs. isNaN
2013/04/15 Javascript
JS画5角星方法介绍
2013/09/17 Javascript
了解了这些才能开始发挥jQuery的威力
2013/10/10 Javascript
深入剖析JavaScript编程中的对象概念
2015/10/21 Javascript
javascript中select下拉框的用法总结
2016/01/07 Javascript
微信小程序 http请求详细介绍
2016/10/09 Javascript
vue将毫秒数转化为正常日期格式的实例
2018/09/16 Javascript
vue源码中的检测方法的实现
2019/09/26 Javascript
CountUp.js实现数字滚动增值效果
2019/10/17 Javascript
vue项目使用高德地图的定位及关键字搜索功能的实例代码(踩坑经验)
2020/03/07 Javascript
python图像处理之反色实现方法
2015/05/30 Python
Python Requests安装与简单运用
2016/04/07 Python
python fabric实现远程部署
2017/01/05 Python
Python PyQt5实现的简易计算器功能示例
2017/08/23 Python
python读取LMDB中图像的方法
2018/07/02 Python
python print出共轭复数的方法详解
2019/06/25 Python
django-rest-framework解析请求参数过程详解
2019/07/18 Python
python Dijkstra算法实现最短路径问题的方法
2019/09/19 Python
python制作朋友圈九宫格图片
2019/11/03 Python
使用python+poco+夜神模拟器进行自动化测试实例
2020/04/23 Python
学校门卫管理制度
2014/01/30 职场文书
《北京的春节》教学反思
2014/04/07 职场文书
协会周年庆活动方案
2014/08/26 职场文书
企业投资意向书
2015/05/09 职场文书
推广普通话宣传标语口号
2015/12/26 职场文书
2016年百日安全生产活动总结
2016/04/06 职场文书
css实现两栏布局,左侧固定宽,右侧自适应的多种方法
2021/08/07 HTML / CSS
Arthas排查Kubernetes中应用频繁挂掉重启异常
2022/02/28 MySQL