对python读写文件去重、RE、set的使用详解


Posted in Python onDecember 11, 2018

如下所示:

# -*- coding:utf-8 -*-
 
from datetime import datetime
import re
 
 
def Main():
 sourcr_dir = '/data/u_lx_data/fudan/muying/muying_11yue_all.txt'
 target_dir = '/data/u_lx_data/fudan/muying/python/uid_regular_get.txt'
 
 uset = set() #去重
 
 print("开始。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
 with open(target_dir, 'w+') as f_write:
  with open(sourcr_dir, 'r') as f_scorce:
   for line in f_scorce:
   line = line.strip().split("\t")
   # 宝宝树
   if line[2] == 'babytree.com':
    uidList = re.findall(r'.*NL=u%02(u\d+)', line[3], re.I)
    if uidList:
     # 去重代码
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("宝宝树已完成")
 
   # 柚宝宝
   elif line[2] == 'youzibuy.com':
    if line[4].find("yunqi.youzibuy.com/tae_top_notify") != -1:
     uidList = re.findall(r'.*myuid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("柚宝宝已完成")
 
   # 妈妈帮
   elif line[2] == 'mmbang.com':
    uidList = re.findall(r'.*uid=(\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("妈妈帮已完成")
 
   # 妈妈网
   elif line[2] == 'mama.cn':
    if line[4].find("mapi.mama.cn/feed/users/show") != -1:
     uidList = re.findall(r'.*friend_uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
    if line[4].find("mamaquan/mmq_thread") != -1:
     uidList = re.findall(r'.*uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("妈妈网已完成")
 
   # 育儿网
   elif line[2] == 'ci123.com':
    uidList = re.findall(r'.*ci123js=([a-zA-Z]+\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("育儿网已完成")
 
 print("完成。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
if __name__ == "__main__":
 Main()

以上这篇对python读写文件去重、RE、set的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
400多行Python代码实现了一个FTP服务器
May 10 Python
Python中函数参数设置及使用的学习笔记
May 03 Python
Python内置函数reversed()用法分析
Mar 20 Python
更换Django默认的模板引擎为jinja2的实现方法
May 28 Python
Sanic框架Cookies操作示例
Jul 17 Python
详解pytorch 0.4.0迁移指南
Jun 16 Python
利用Python检测URL状态
Jul 31 Python
使用Python实现画一个中国地图
Nov 23 Python
numpy:np.newaxis 实现将行向量转换成列向量
Nov 30 Python
Keras在训练期间可视化训练误差和测试误差实例
Jun 16 Python
pytorch实现查看当前学习率
Jun 24 Python
python实现录制全屏和选择区域录屏功能
Feb 05 Python
python版本五子棋的实现代码
Dec 11 #Python
python提取具有某种特定字符串的行数据方法
Dec 11 #Python
Python面向对象基础入门之编码细节与注意事项
Dec 11 #Python
Python面向对象基础入门之设置对象属性
Dec 11 #Python
python提取包含关键字的整行数据方法
Dec 11 #Python
django开发post接口简单案例,获取参数值的方法
Dec 11 #Python
python面向对象入门教程之从代码复用开始(一)
Dec 11 #Python
You might like
基于文本的留言簿
2006/10/09 PHP
php下关于Cannot use a scalar value as an array的解决办法
2010/08/08 PHP
PHP中设置一个严格30分钟过期Session面试题的4种答案
2014/07/30 PHP
Smarty中常用变量操作符汇总
2014/10/27 PHP
thinkphp模板继承实例简述
2014/11/26 PHP
thinkPHP模板引擎用法示例
2016/12/08 PHP
Yii2框架数据验证操作实例详解
2018/05/02 PHP
Jquery 插件开发笔记整理
2011/01/17 Javascript
js判断undefined变量类型使用typeof
2013/06/03 Javascript
浅析jQuery中常用的元素查找方法总结
2013/07/04 Javascript
Javascript 实现的数独解题算法网页实例
2013/10/15 Javascript
jquery实现简单的二级导航下拉菜单效果
2015/09/07 Javascript
JavaScript数据结构与算法之集合(Set)
2016/01/29 Javascript
BOM系列第一篇之定时器setTimeout和setInterval
2016/08/17 Javascript
jquery基本选择器匹配多个元素的实现方法
2016/09/05 Javascript
简单谈谈关于 npm 5.0 的新坑
2017/06/08 Javascript
在 Vue.js中优雅地使用全局事件的方法
2019/02/01 Javascript
原生JavaScript实现刮刮乐
2020/09/29 Javascript
[01:09:01]完美世界DOTA2联赛循环赛 Magma vs PXG BO2第一场 10.28
2020/10/28 DOTA
[54:15]DOTA2-DPC中国联赛 正赛 DLG vs Dragon BO3 第二场2月1日
2021/03/11 DOTA
Python里隐藏的“禅”
2014/06/16 Python
Python中多线程及程序锁浅析
2015/01/21 Python
基于Python pip用国内镜像下载的方法
2018/06/12 Python
解决在pycharm运行代码,调用CMD窗口的命令运行显示乱码问题
2019/08/23 Python
Python tkinter实现图片标注功能(完整代码)
2019/12/08 Python
Python填充任意颜色,不同算法时间差异分析说明
2020/05/16 Python
Python过滤序列元素的方法
2020/07/31 Python
泰国最新活动和优惠:Megatix
2020/05/07 全球购物
求职简历的自我评价
2014/01/31 职场文书
汽车销售员如何做职业生涯规划
2014/02/16 职场文书
跳高加油稿
2015/07/21 职场文书
农贸批发市场管理制度
2015/08/07 职场文书
2016公司中秋节寄语
2015/12/07 职场文书
会计入职心得体会
2016/01/22 职场文书
MySQL中int (10) 和 int (11) 的区别
2022/01/22 MySQL
TypeScript 使用 Tuple Union 声明函数重载
2022/04/07 Javascript