Python探索之爬取电商售卖信息代码示例


Posted in Python onOctober 27, 2017

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

下面有一个示例代码,分享给大家:

#! /usr/bin/env python

#
encoding = 'utf-8'#
Filename: spider_58center_sth.py
from bs4
import BeautifulSoup
import time
import requests
url_58 = 'http://nj.58.com/?PGTID=0d000000-0000-0c5c-ffba-71f8f3f7039e&ClickID=1'
''
'
用于爬取电商售卖信息: 例为58同城电脑售卖信息 ''
'
def get_url_list(url):
  web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
url = soup.select('td.t > a[class="t"]')
url_list = ''
for link in url:
  link_n = link.get('href')
if 'zhuanzhuan' in link_n:
  pass
else :
  if 'jump' in link_n:
  pass
else :
  url_list = url_list + '\n' + link_n
print('url_list: %s' % url_list)
return url_list# 分类获取目标信息
def get_url_info():
  url_list = get_url_list(url_58)
for url in url_list.split():
  time.sleep(1)
web_datas = requests.get(url)
soup = BeautifulSoup(web_datas.text, 'lxml')
type = soup.select('#head > div.breadCrumb.f12 > span:nth-of-type(3) > a')
title = soup.select(' div.col_sub.mainTitle > h1')
date = soup.select('li.time')
price = soup.select('div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.summary > ul > '
  'li:nth-of-type(1) > div.su_con > span.price.c_f50')
fineness = soup.select('div.col_sub.summary > u1 > li:nth-of-type(2) > div.su_con > span')
area = soup.select('div.col_sub.summary > u1 > li:nth-of-type(3) > div.su_con > span')
for typei, titlei, datei, pricei, finenessi, areai in zip(type, title, date, price, fineness, area): #做字典
data = {
  'type': typei.get_text(),
  'title': titlei.get_text(),
  'date': datei.get_text(),
  'price': pricei.get_text(),
  'fineness': (finenessi.get_text()).strip(),
  'area': list(areai.stripped_strings)
}
print(data)
get_url_info()

爬取商城商品售卖信息

总结

以上就是本文关于Python探索之爬取电商售卖信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:Python探索之自定义实现线程池、Python探索之ModelForm代码详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
在Windows8上的搭建Python和Django环境
Jul 03 Python
python有证书的加密解密实现方法
Nov 19 Python
使用简单工厂模式来进行Python的设计模式编程
Mar 01 Python
python机器学习之神经网络(二)
Dec 20 Python
python实现比较文件内容异同
Jun 22 Python
python将list转为matrix的方法
Dec 12 Python
Python socket模块ftp传输文件过程解析
Nov 05 Python
numpy.transpose()实现数组的转置例子
Dec 02 Python
Python抓新型冠状病毒肺炎疫情数据并绘制全国疫情分布的代码实例
Feb 05 Python
Python模拟FTP文件服务器的操作方法
Feb 18 Python
解决jupyter notebook 前面书写后面内容消失的问题
Apr 13 Python
numpy array找出符合条件的数并赋值的示例代码
Jun 01 Python
Python 列表理解及使用方法
Oct 27 #Python
Python算法之求n个节点不同二叉树个数
Oct 27 #Python
Python探索之自定义实现线程池
Oct 27 #Python
python音频处理用到的操作的示例代码
Oct 27 #Python
彻底理解Python list切片原理
Oct 27 #Python
Python在不同目录下导入模块的实现方法
Oct 27 #Python
Django视图之ORM数据库查询操作API的实例
Oct 27 #Python
You might like
山进SANGEAN ATS-909X电路分析
2021/03/02 无线电
PHP使用json_encode函数时不转义中文的解决方法
2014/11/12 PHP
Yii的Srbac插件用法详解
2016/07/14 PHP
JSON JQUERY模板实现说明
2010/07/03 Javascript
动态加载外部javascript文件的函数代码分享
2011/07/28 Javascript
jQuery Mobile 导航栏代码
2013/11/01 Javascript
wap手机图片滑动切换特效无css3元素js脚本编写
2014/07/28 Javascript
鼠标悬浮显示二级菜单效果的jquery实现
2014/10/29 Javascript
js读取并解析JSON类型数据的方法
2015/11/14 Javascript
学习JavaScript设计模式之装饰者模式
2016/01/19 Javascript
详解Javascript模板引擎mustache.js
2016/01/20 Javascript
浅谈在vue中使用mint-ui swipe遇到的问题
2018/09/27 Javascript
vue自定义键盘信息、监听数据变化的方法示例【基于vm.$watch】
2019/03/16 Javascript
在SSM框架下用laypage和ajax实现分页和数据交互的方法
2019/09/27 Javascript
[02:31]DOTA2帕克 英雄基础教程
2013/11/26 DOTA
[01:35]辉夜杯战队访谈宣传片—LGD
2015/12/25 DOTA
[59:15]EG vs LGD 2018国际邀请赛淘汰赛BO3 第一场 8.26
2018/08/29 DOTA
Python网络爬虫项目:内容提取器的定义
2016/10/25 Python
Python利用PyExecJS库执行JS函数的案例分析
2019/12/18 Python
python 遗传算法求函数极值的实现代码
2020/02/11 Python
python多进程使用函数封装实例
2020/05/02 Python
Python生成器next方法和send方法区别详解
2020/05/30 Python
如何利用pycharm进行代码更新比较
2020/11/04 Python
俄罗斯旅游网站:Tripadvisor俄罗斯
2017/03/21 全球购物
英文求职信写作小建议
2014/02/16 职场文书
2014年五四青年节演讲稿范文
2014/04/22 职场文书
升职演讲稿范文
2014/05/23 职场文书
媒体宣传策划方案
2014/05/25 职场文书
会计求职自荐信
2014/06/20 职场文书
个人自我剖析材料
2014/09/30 职场文书
学生旷课检讨书500字
2014/10/28 职场文书
网吧管理制度范本
2015/08/05 职场文书
2016年三八红旗手先进事迹材料
2016/02/26 职场文书
Python爬虫之爬取某文库文档数据
2021/04/21 Python
SQL基础的查询语句
2021/11/11 MySQL
vue中data里面的数据相互使用方式
2022/06/05 Vue.js