对python读写文件去重、RE、set的使用详解


Posted in Python onDecember 11, 2018

如下所示:

# -*- coding:utf-8 -*-
 
from datetime import datetime
import re
 
 
def Main():
 sourcr_dir = '/data/u_lx_data/fudan/muying/muying_11yue_all.txt'
 target_dir = '/data/u_lx_data/fudan/muying/python/uid_regular_get.txt'
 
 uset = set() #去重
 
 print("开始。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
 with open(target_dir, 'w+') as f_write:
  with open(sourcr_dir, 'r') as f_scorce:
   for line in f_scorce:
   line = line.strip().split("\t")
   # 宝宝树
   if line[2] == 'babytree.com':
    uidList = re.findall(r'.*NL=u%02(u\d+)', line[3], re.I)
    if uidList:
     # 去重代码
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("宝宝树已完成")
 
   # 柚宝宝
   elif line[2] == 'youzibuy.com':
    if line[4].find("yunqi.youzibuy.com/tae_top_notify") != -1:
     uidList = re.findall(r'.*myuid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("柚宝宝已完成")
 
   # 妈妈帮
   elif line[2] == 'mmbang.com':
    uidList = re.findall(r'.*uid=(\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("妈妈帮已完成")
 
   # 妈妈网
   elif line[2] == 'mama.cn':
    if line[4].find("mapi.mama.cn/feed/users/show") != -1:
     uidList = re.findall(r'.*friend_uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
    if line[4].find("mamaquan/mmq_thread") != -1:
     uidList = re.findall(r'.*uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("妈妈网已完成")
 
   # 育儿网
   elif line[2] == 'ci123.com':
    uidList = re.findall(r'.*ci123js=([a-zA-Z]+\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("育儿网已完成")
 
 print("完成。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
if __name__ == "__main__":
 Main()

以上这篇对python读写文件去重、RE、set的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现定制交互式命令行的方法
Jul 03 Python
python实现快速排序的示例(二分法思想)
Mar 12 Python
tensorflow实现softma识别MNIST
Mar 12 Python
Python之批量创建文件的实例讲解
May 10 Python
python 处理telnet返回的More,以及get想要的那个参数方法
Feb 14 Python
python调用matplotlib模块绘制柱状图
Oct 18 Python
python3 求约数的实例
Dec 05 Python
Python模拟FTP文件服务器的操作方法
Feb 18 Python
Python无头爬虫下载文件的实现
Apr 02 Python
使用Keras预训练模型ResNet50进行图像分类方式
May 23 Python
详解基于Scrapy的IP代理池搭建
Sep 29 Python
python 破解加密zip文件的密码
Apr 22 Python
python版本五子棋的实现代码
Dec 11 #Python
python提取具有某种特定字符串的行数据方法
Dec 11 #Python
Python面向对象基础入门之编码细节与注意事项
Dec 11 #Python
Python面向对象基础入门之设置对象属性
Dec 11 #Python
python提取包含关键字的整行数据方法
Dec 11 #Python
django开发post接口简单案例,获取参数值的方法
Dec 11 #Python
python面向对象入门教程之从代码复用开始(一)
Dec 11 #Python
You might like
php基础知识:控制结构
2006/12/13 PHP
解析Linux下Varnish缓存的配置优化
2013/06/20 PHP
zf框架的校验器使用使用示例(自定义校验器和校验器链)
2014/03/13 PHP
php经典算法集锦
2015/11/14 PHP
PHP基于cookie实现统计在线人数功能示例
2019/01/16 PHP
php无限极分类实现方法分析
2019/07/04 PHP
PHP解密支付宝小程序的加密数据、手机号的示例代码
2021/02/26 PHP
JQuery 技巧和窍门整理(8个)
2010/04/22 Javascript
JavaScript 打地鼠游戏代码说明
2010/10/12 Javascript
今天是星期几的4种JS代码写法
2013/09/17 Javascript
Bootstrap每天必学之标签与徽章
2015/11/27 Javascript
Jquery组件easyUi实现选项卡切换示例
2016/08/23 Javascript
jquery层级选择器的实现(匹配后代元素div)
2016/09/05 Javascript
JavaScript30 一个月纯 JS 挑战中文指南(英文全集)
2017/07/23 Javascript
百度地图去掉marker覆盖物或者去掉maker的label文字方法
2018/01/26 Javascript
浅谈vue中.vue文件解析流程
2018/04/24 Javascript
详解微信JS-SDK选择图片遇到的坑
2018/08/15 Javascript
vue实现点击隐藏与显示实例分享
2019/02/13 Javascript
Vue路由切换页面不更新问题解决方案
2020/07/10 Javascript
python基于pyDes库实现des加密的方法
2017/04/29 Python
对Python中gensim库word2vec的使用详解
2018/05/08 Python
关于python列表增加元素的三种操作方法
2018/08/22 Python
python数据批量写入ScrolledText的优化方法
2018/10/11 Python
python 保存float类型的小数的位数方法
2018/10/17 Python
运用PyTorch动手搭建一个共享单车预测器
2019/08/06 Python
通过实例学习Python Excel操作
2020/01/06 Python
python判断正负数方式
2020/06/03 Python
python使用hdfs3模块对hdfs进行操作详解
2020/06/06 Python
Matplotlib中%matplotlib inline如何使用
2020/07/28 Python
《改造我们的学习》心得体会
2014/11/07 职场文书
2014年检验员工作总结
2014/11/19 职场文书
2015年重阳节慰问信
2015/03/23 职场文书
张丽莉观后感
2015/06/16 职场文书
2016年第二十届“母亲节暨幸福工程救助贫困母亲活动日”活动总结
2016/04/06 职场文书
导游词之澳门玫瑰圣母堂
2019/12/03 职场文书
阿里云服务器搭建Php+Apache运行环境的详细过程
2021/05/15 PHP