对python读写文件去重、RE、set的使用详解


Posted in Python onDecember 11, 2018

如下所示:

# -*- coding:utf-8 -*-
 
from datetime import datetime
import re
 
 
def Main():
 sourcr_dir = '/data/u_lx_data/fudan/muying/muying_11yue_all.txt'
 target_dir = '/data/u_lx_data/fudan/muying/python/uid_regular_get.txt'
 
 uset = set() #去重
 
 print("开始。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
 with open(target_dir, 'w+') as f_write:
  with open(sourcr_dir, 'r') as f_scorce:
   for line in f_scorce:
   line = line.strip().split("\t")
   # 宝宝树
   if line[2] == 'babytree.com':
    uidList = re.findall(r'.*NL=u%02(u\d+)', line[3], re.I)
    if uidList:
     # 去重代码
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("宝宝树已完成")
 
   # 柚宝宝
   elif line[2] == 'youzibuy.com':
    if line[4].find("yunqi.youzibuy.com/tae_top_notify") != -1:
     uidList = re.findall(r'.*myuid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("柚宝宝已完成")
 
   # 妈妈帮
   elif line[2] == 'mmbang.com':
    uidList = re.findall(r'.*uid=(\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("妈妈帮已完成")
 
   # 妈妈网
   elif line[2] == 'mama.cn':
    if line[4].find("mapi.mama.cn/feed/users/show") != -1:
     uidList = re.findall(r'.*friend_uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
    if line[4].find("mamaquan/mmq_thread") != -1:
     uidList = re.findall(r'.*uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("妈妈网已完成")
 
   # 育儿网
   elif line[2] == 'ci123.com':
    uidList = re.findall(r'.*ci123js=([a-zA-Z]+\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("育儿网已完成")
 
 print("完成。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
if __name__ == "__main__":
 Main()

以上这篇对python读写文件去重、RE、set的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
pip 错误unused-command-line-argument-hard-error-in-future解决办法
Jun 01 Python
Python爬虫框架Scrapy实例代码
Mar 04 Python
TensorFlow 滑动平均的示例代码
Jun 19 Python
Python中的单行、多行、中文注释方法
Jul 19 Python
用python统计代码行的示例(包括空行和注释)
Jul 24 Python
Python使用Flask-SQLAlchemy连接数据库操作示例
Aug 31 Python
python读写文件write和flush的实现方式
Feb 21 Python
python导入库的具体方法
Jun 18 Python
Python执行时间的几种计算方法
Jul 31 Python
Python测试框架:pytest学习笔记
Oct 20 Python
python在协程中增加任务实例操作
Feb 28 Python
python运行脚本文件的三种方法实例
Jun 25 Python
python版本五子棋的实现代码
Dec 11 #Python
python提取具有某种特定字符串的行数据方法
Dec 11 #Python
Python面向对象基础入门之编码细节与注意事项
Dec 11 #Python
Python面向对象基础入门之设置对象属性
Dec 11 #Python
python提取包含关键字的整行数据方法
Dec 11 #Python
django开发post接口简单案例,获取参数值的方法
Dec 11 #Python
python面向对象入门教程之从代码复用开始(一)
Dec 11 #Python
You might like
星际实力自我测试
2020/03/04 星际争霸
星际争霸 Starcraft 秘技补丁
2020/03/14 星际争霸
默默简单的写了一个模板引擎
2007/01/02 PHP
PHP控制网页过期时间的代码
2008/09/28 PHP
关于Appserv无法打开localhost问题的解决方法
2009/10/16 PHP
php cookie的操作实现代码(登录)
2010/12/29 PHP
ubuntu12.04使用c编写php扩展模块教程分享
2013/12/25 PHP
关于PHP的curl开启问题探讨
2014/04/08 PHP
PHP5.3连接Oracle客户端及PDO_OCI模块的安装方法
2016/05/13 PHP
PHP中遍历数组的三种常用方法实例分析
2019/06/24 PHP
更正确的asp冒泡排序
2007/05/24 Javascript
同一个网页中实现多个JavaScript特效的方法
2015/02/02 Javascript
jquery图片切换插件
2015/03/16 Javascript
jQuery基于排序功能实现上移、下移的方法
2016/11/26 Javascript
nodejs获取微信小程序带参数二维码实现代码
2017/04/12 NodeJs
详解AngularJs路由之Ui-router-resolve(预加载)
2017/06/13 Javascript
JavaScript事件处理程序详解
2017/09/19 Javascript
基于vue实现网站前台的权限管理(前后端分离实践)
2018/01/13 Javascript
JavaScript静态作用域和动态作用域实例详解
2019/06/17 Javascript
微信小程序批量监听输入框对按钮样式进行控制的实现代码
2019/10/12 Javascript
VUE实现自身整体组件销毁的示例代码
2020/01/13 Javascript
python字典键值对的添加和遍历方法
2016/09/11 Python
Python导入模块时遇到的错误分析
2017/08/30 Python
Python使用cx_Oracle模块操作Oracle数据库详解
2018/05/07 Python
想学python 这5本书籍你必看!
2018/12/11 Python
Django ManyToManyField 跨越中间表查询的方法
2018/12/18 Python
python实现图片彩色转化为素描
2019/01/15 Python
实例介绍Python中整型
2019/02/11 Python
一篇文章了解Python中常见的序列化操作
2019/06/20 Python
使用Python调取任意数字资产钱包余额功能
2019/08/15 Python
Python数据可视化实现正态分布(高斯分布)
2019/08/21 Python
详解pandas.DataFrame.plot() 画图函数
2020/06/14 Python
优秀辅导员事迹材料
2014/02/16 职场文书
2014年新生军训方案
2014/05/01 职场文书
租房协议书样本
2014/08/20 职场文书
超市采购员岗位职责
2015/04/07 职场文书