Python识别html主要文本框过程解析


Posted in Python onFebruary 18, 2020

这篇文章主要介绍了python识别html主要文本框过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

在抓取网页的时候只想抓取主要的文本框,例如 csdn 中的主要文本框为下图红色框:

Python识别html主要文本框过程解析

抓取的思想是,利用 bs4 查找所有的 div,用正则筛选出每个 div 里面的中文,找到中文字数最多的 div 就是属于正文的 div 了。定义一个抓取的头部抓取网页内容:

import requests
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36',
  'Host': 'blog.csdn.net'}
session = requests.session()
 
def getHtmlByRequests(url):
  headers.update(
    dict(Referer=url, Accept="*/*", Connection="keep-alive"))
  htmlContent = session.get(url=url, headers=headers).content
  return htmlContent.decode("utf-8", "ignore")

识别每个 div 中文字的正则:

import re
# 统计中文字数
def countContent(string):
  pattern = re.compile(u'[\u1100-\uFFFD]+?')
  content = pattern.findall(string)
  return content

遍历每一个 div ,利用正则判断里面中文的字数长度,找到长度最长的 div :

# 分析页面信息
def analyzeHtml(html):
  # 初始化网页
  soup = BeautifulSoup(html, "html.parser")
  part = soup.select('div')
  match = ""
  for paragraph in part:
    content = countContent(str(paragraph))
    if len(content) > len(match):
      match = str(paragraph)
  return match

得到主要的 div 后,提取里面的文字出来:

def main():
  url = "http://blog.csdn.net/"
  html = getHtmlByRequests(url)
  mainContent = analyzeHtml(html)
  soup = BeautifulSoup(mainContent, "html.parser")
  print(soup.select('div')[0].text)

完整的代码如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup
import requests
import re

headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36',
  'Host': 'blog.csdn.net'}
session = requests.session()


def getHtmlByRequests(url):
  headers.update(
    dict(Referer=url, Accept="*/*", Connection="keep-alive"))
  htmlContent = session.get(url=url, headers=headers).content
  return htmlContent.decode("utf-8", "ignore")

# 统计中文字数
def countContent(string):
  pattern = re.compile(u'[\u1100-\uFFFD]+?')
  content = pattern.findall(string)
  return content

# 分析页面信息
def analyzeHtml(html):
  # 初始化网页
  soup = BeautifulSoup(html, "html.parser")
  part = soup.select('div')
  match = ""
  for paragraph in part:
    content = countContent(str(paragraph))
    if len(content) > len(match):
      match = str(paragraph)
  return match


def main():
  url = "http://blog.csdn.net/"
  html = getHtmlByRequests(url)
  mainContent = analyzeHtml(html)
  soup = BeautifulSoup(mainContent, "html.parser")
  print(soup.select('div')[0].text)


if __name__ == '__main__':
  main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Eclipse写python程序
Feb 10 Python
Python实现购物车程序
Apr 16 Python
python利用pandas将excel文件转换为txt文件的方法
Oct 23 Python
PyTorch搭建一维线性回归模型(二)
May 22 Python
python实现可变变量名方法详解
Jul 01 Python
python+django+rest框架配置创建方法
Aug 31 Python
Python实现图片添加文字
Nov 26 Python
利用Python将图片中扭曲矩形的复原
Sep 07 Python
python tkinter的消息框模块(messagebox,simpledialog)
Nov 07 Python
用python对excel进行操作(读,写,修改)
Dec 25 Python
【超详细】八大排序算法的各项比较以及各自特点
Mar 31 Python
python基础之//、/与%的区别详解
Jun 10 Python
pytorch实现seq2seq时对loss进行mask的方式
Feb 18 #Python
python多项式拟合之np.polyfit 和 np.polyld详解
Feb 18 #Python
tensorflow 分类损失函数使用小记
Feb 18 #Python
python如何把字符串类型list转换成list
Feb 18 #Python
python计算波峰波谷值的方法(极值点)
Feb 18 #Python
Python表达式的优先级详解
Feb 18 #Python
使用Tkinter制作信息提示框
Feb 18 #Python
You might like
php 更新数据库中断的解决方法
2009/06/05 PHP
php检测用户是否用手机(Mobile)访问网站的类
2014/01/09 PHP
php随机生成数字字母组合的方法
2015/03/18 PHP
PHP实现QQ空间自动回复说说的方法
2015/12/02 PHP
ThinkPHP中类的构造函数_construct()与_initialize()的区别详解
2017/03/13 PHP
php连接MSsql server的五种方法总结
2018/03/04 PHP
PHP crc32()函数讲解
2019/02/14 PHP
Laravel 手动开关 Eloquent 修改器的操作方法
2019/12/30 PHP
js 变量类型转换常用函数与代码[比较全]
2009/12/01 Javascript
Jquery实战_读书笔记2 选择器
2010/01/22 Javascript
javascript使用正则表达式检测IP地址
2014/12/03 Javascript
jquery 插件实现瀑布流图片展示实例
2015/04/03 Javascript
javascript中sort() 方法使用详解
2015/08/30 Javascript
JavaScript中document.referrer的用法详解
2017/07/04 Javascript
JS实现浏览上传文件的代码
2017/08/23 Javascript
AngularJS对动态增加的DOM实现ng-keyup事件示例
2018/03/12 Javascript
实例讲解JavaScript 计时事件
2020/07/04 Javascript
Python 流程控制实例代码
2009/09/25 Python
Python collections模块实例讲解
2014/04/07 Python
Django教程笔记之中间件middleware详解
2018/08/01 Python
python切片(获取一个子列表(数组))详解
2019/08/09 Python
Python3.7黑帽编程之病毒篇(基础篇)
2020/02/04 Python
python range实例用法分享
2020/02/06 Python
python如何导入依赖包
2020/07/13 Python
Bluebella法国官网:英国性感内衣品牌
2019/05/03 全球购物
毕业生自荐信格式
2014/03/07 职场文书
学雷锋先进个人事迹
2014/05/26 职场文书
校庆活动策划方案
2014/06/05 职场文书
公司行政专员岗位职责
2014/08/24 职场文书
2014年政风行风工作总结
2014/11/22 职场文书
2015年招商引资工作总结
2015/04/25 职场文书
2015年学校办公室工作总结
2015/05/26 职场文书
2016关于预防职务犯罪的心得体会
2016/01/21 职场文书
2016大学生求职自荐信范文
2016/01/28 职场文书
2019年销售部季度工作计划3篇
2019/10/09 职场文书
读《瓦尔登湖》有感:每个人都需要一个瓦尔登湖
2019/10/17 职场文书