对python读写文件去重、RE、set的使用详解


Posted in Python onDecember 11, 2018

如下所示:

# -*- coding:utf-8 -*-
 
from datetime import datetime
import re
 
 
def Main():
 sourcr_dir = '/data/u_lx_data/fudan/muying/muying_11yue_all.txt'
 target_dir = '/data/u_lx_data/fudan/muying/python/uid_regular_get.txt'
 
 uset = set() #去重
 
 print("开始。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
 with open(target_dir, 'w+') as f_write:
  with open(sourcr_dir, 'r') as f_scorce:
   for line in f_scorce:
   line = line.strip().split("\t")
   # 宝宝树
   if line[2] == 'babytree.com':
    uidList = re.findall(r'.*NL=u%02(u\d+)', line[3], re.I)
    if uidList:
     # 去重代码
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("宝宝树已完成")
 
   # 柚宝宝
   elif line[2] == 'youzibuy.com':
    if line[4].find("yunqi.youzibuy.com/tae_top_notify") != -1:
     uidList = re.findall(r'.*myuid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("柚宝宝已完成")
 
   # 妈妈帮
   elif line[2] == 'mmbang.com':
    uidList = re.findall(r'.*uid=(\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("妈妈帮已完成")
 
   # 妈妈网
   elif line[2] == 'mama.cn':
    if line[4].find("mapi.mama.cn/feed/users/show") != -1:
     uidList = re.findall(r'.*friend_uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
    if line[4].find("mamaquan/mmq_thread") != -1:
     uidList = re.findall(r'.*uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("妈妈网已完成")
 
   # 育儿网
   elif line[2] == 'ci123.com':
    uidList = re.findall(r'.*ci123js=([a-zA-Z]+\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("育儿网已完成")
 
 print("完成。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
if __name__ == "__main__":
 Main()

以上这篇对python读写文件去重、RE、set的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python使用asyncio包处理并发详解
Sep 09 Python
Python使用selenium实现网页用户名 密码 验证码自动登录功能
May 16 Python
Python切片操作深入详解
Jul 27 Python
python判断字符串或者集合是否为空的实例
Jan 23 Python
Django框架中间件(Middleware)用法实例分析
May 24 Python
python函数修饰符@的使用方法解析
Sep 02 Python
Python 依赖库太多了该如何管理
Nov 08 Python
基于python的列表list和集合set操作
Nov 24 Python
解决Python3下map函数的显示问题
Dec 04 Python
Python 窗体(tkinter)下拉列表框(Combobox)实例
Mar 04 Python
Python计算指定日期是今年的第几天(三种方法)
Mar 26 Python
浅谈Python中re.match()和re.search()的使用及区别
Apr 14 Python
python版本五子棋的实现代码
Dec 11 #Python
python提取具有某种特定字符串的行数据方法
Dec 11 #Python
Python面向对象基础入门之编码细节与注意事项
Dec 11 #Python
Python面向对象基础入门之设置对象属性
Dec 11 #Python
python提取包含关键字的整行数据方法
Dec 11 #Python
django开发post接口简单案例,获取参数值的方法
Dec 11 #Python
python面向对象入门教程之从代码复用开始(一)
Dec 11 #Python
You might like
ThinkPHP3.1新特性之多数据库操作更加完善
2014/06/19 PHP
php_imagick实现图片剪切、旋转、锐化、减色或增加特效的方法
2014/12/15 PHP
递归实现php数组转xml的代码分享
2015/05/14 PHP
经典的解除许多网站无法复制文字的绝招
2006/12/31 Javascript
jQuery学习笔记之控制页面实现代码
2012/02/27 Javascript
JS将秒换成时分秒实现代码
2013/09/03 Javascript
JavaScript获取css行间样式,内连样式和外链样式的简单方法
2016/07/18 Javascript
Vue-Router的使用方法
2018/09/05 Javascript
详解axios中封装使用、拦截特定请求、判断所有请求加载完毕)
2019/04/09 Javascript
适合前端Vue开发童鞋的跨平台Weex的使用详解
2019/10/16 Javascript
ES6箭头函数和扩展实例分析
2020/05/23 Javascript
python操作日期和时间的方法
2014/03/11 Python
Python中几种操作字符串的方法的介绍
2015/04/09 Python
在Apache服务器上同时运行多个Django程序的方法
2015/07/22 Python
TensorFlow实现卷积神经网络CNN
2018/03/09 Python
pytorch构建网络模型的4种方法
2018/04/13 Python
Pycharm取消py脚本中SQL识别的方法
2018/11/29 Python
对python多线程中Lock()与RLock()锁详解
2019/01/11 Python
Pytorch.nn.conv2d 过程验证方式(单,多通道卷积过程)
2020/01/03 Python
python 深度学习中的4种激活函数
2020/09/18 Python
北京银河万佳Java面试题
2012/03/21 面试题
公务员总结性个人自我评价
2013/12/05 职场文书
潘婷洗发水广告词
2014/03/14 职场文书
2014年大学生党课心得体会范文
2014/03/29 职场文书
青年文明号服务承诺
2014/03/31 职场文书
新课培训心得体会
2014/09/03 职场文书
镇政府副镇长群众路线专题民主生活会对照检查材料
2014/09/19 职场文书
2014年财务科工作总结
2014/11/11 职场文书
小学教师师德师风自我评价
2015/03/04 职场文书
2015年房地产销售工作总结
2015/04/20 职场文书
在职证明书模板
2015/06/15 职场文书
现实表现证明材料
2015/06/19 职场文书
关于分班的感言
2015/08/04 职场文书
22句经典语录:送给优柔寡断和胡思乱想的朋友们
2019/12/13 职场文书
浅谈Redis主从复制以及主从复制原理
2021/05/29 Redis
Logback 使用TurboFilter实现日志级别等内容的动态修改操作
2021/08/30 Java/Android