对python读写文件去重、RE、set的使用详解


Posted in Python onDecember 11, 2018

如下所示:

# -*- coding:utf-8 -*-
 
from datetime import datetime
import re
 
 
def Main():
 sourcr_dir = '/data/u_lx_data/fudan/muying/muying_11yue_all.txt'
 target_dir = '/data/u_lx_data/fudan/muying/python/uid_regular_get.txt'
 
 uset = set() #去重
 
 print("开始。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
 with open(target_dir, 'w+') as f_write:
  with open(sourcr_dir, 'r') as f_scorce:
   for line in f_scorce:
   line = line.strip().split("\t")
   # 宝宝树
   if line[2] == 'babytree.com':
    uidList = re.findall(r'.*NL=u%02(u\d+)', line[3], re.I)
    if uidList:
     # 去重代码
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("宝宝树已完成")
 
   # 柚宝宝
   elif line[2] == 'youzibuy.com':
    if line[4].find("yunqi.youzibuy.com/tae_top_notify") != -1:
     uidList = re.findall(r'.*myuid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("柚宝宝已完成")
 
   # 妈妈帮
   elif line[2] == 'mmbang.com':
    uidList = re.findall(r'.*uid=(\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("妈妈帮已完成")
 
   # 妈妈网
   elif line[2] == 'mama.cn':
    if line[4].find("mapi.mama.cn/feed/users/show") != -1:
     uidList = re.findall(r'.*friend_uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
    if line[4].find("mamaquan/mmq_thread") != -1:
     uidList = re.findall(r'.*uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("妈妈网已完成")
 
   # 育儿网
   elif line[2] == 'ci123.com':
    uidList = re.findall(r'.*ci123js=([a-zA-Z]+\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("育儿网已完成")
 
 print("完成。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
if __name__ == "__main__":
 Main()

以上这篇对python读写文件去重、RE、set的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python抓取网页内容示例分享
Feb 24 Python
Python中最常用的操作列表的几种方法归纳
Apr 24 Python
Python中类的初始化特殊方法
Dec 01 Python
详解Python3中ceil()函数用法
Feb 19 Python
Python+OpenCV采集本地摄像头的视频
Apr 25 Python
使用Python给头像戴上圣诞帽的图像操作过程解析
Sep 20 Python
Python搭建代理IP池实现检测IP的方法
Oct 27 Python
Python图像处理库PIL的ImageFont模块使用介绍
Feb 26 Python
python3.6使用SMTP协议发送邮件
May 20 Python
Python matplotlib图例放在外侧保存时显示不完整问题解决
Jul 28 Python
如何使用Tkinter进行窗口的管理与设置
Jun 30 Python
Python可变集合和不可变集合的构造方法大全
Dec 06 Python
python版本五子棋的实现代码
Dec 11 #Python
python提取具有某种特定字符串的行数据方法
Dec 11 #Python
Python面向对象基础入门之编码细节与注意事项
Dec 11 #Python
Python面向对象基础入门之设置对象属性
Dec 11 #Python
python提取包含关键字的整行数据方法
Dec 11 #Python
django开发post接口简单案例,获取参数值的方法
Dec 11 #Python
python面向对象入门教程之从代码复用开始(一)
Dec 11 #Python
You might like
基于simple_html_dom的使用小结
2013/07/01 PHP
php使用GD库创建图片缩略图的方法
2015/06/10 PHP
php将print_r处理后的数据还原为原始数组的解决方法
2016/11/02 PHP
微信公众平台开发(五) 天气预报功能开发
2016/12/03 PHP
php实现每日签到功能
2018/11/29 PHP
List the Stored Procedures in a SQL Server database
2007/06/20 Javascript
来自qq的javascript面试题
2010/07/24 Javascript
jQuery获取浏览器中的分辨率实现代码
2013/04/23 Javascript
javascript中for/in循环及使用技巧
2015/09/01 Javascript
js实现文字滚动效果
2016/03/03 Javascript
JS判断字符串字节数并截取长度的方法
2016/03/05 Javascript
javascript三种代码注释方法
2016/06/02 Javascript
js 博客内容进度插件详解
2017/02/19 Javascript
js原生实现移动端手指滑动轮播图效果的示例
2018/01/02 Javascript
jQuery中$原理实例分析
2018/08/13 jQuery
JSONP原理及应用实例详解
2018/09/13 Javascript
axios 封装上传文件的请求方法
2018/09/26 Javascript
谈谈为什么你的 JavaScript 代码如此冗长
2019/01/30 Javascript
vue2.0实现的tab标签切换效果(内容可自定义)示例
2019/02/11 Javascript
微信小程序实现通讯录列表展开收起
2020/11/18 Javascript
[01:58]最残酷竞争 2016国际邀请赛中国区预选赛积分循环赛回顾
2016/06/28 DOTA
详解pandas库pd.read_excel操作读取excel文件参数整理与实例
2019/02/17 Python
Python3将jpg转为pdf文件的方法示例
2019/12/13 Python
python通过对字典的排序,对json字段进行排序的实例
2020/02/27 Python
H5页面适配iPhoneX(就是那么简单)
2019/12/02 HTML / CSS
JavaScript获取当前url根目录(路径)
2014/02/19 面试题
文员的职业生涯规划发展方向
2014/02/08 职场文书
市场营销工作计划书
2014/05/06 职场文书
教师教学评估方案
2014/05/09 职场文书
2014年乡镇妇联工作总结
2014/12/02 职场文书
小学生暑假安全公约
2015/07/14 职场文书
2015团员个人年度总结
2015/11/24 职场文书
2016年秋季运动会通讯稿
2015/11/25 职场文书
看完这篇文章获得一些java if优化技巧
2021/07/15 Java/Android
一次SQL如何查重及去重的实战记录
2022/03/13 MySQL
《遗弃》开发商删推文要跑路?官方回应:还在开发
2022/04/03 其他游戏