对python读写文件去重、RE、set的使用详解


Posted in Python onDecember 11, 2018

如下所示:

# -*- coding:utf-8 -*-
 
from datetime import datetime
import re
 
 
def Main():
 sourcr_dir = '/data/u_lx_data/fudan/muying/muying_11yue_all.txt'
 target_dir = '/data/u_lx_data/fudan/muying/python/uid_regular_get.txt'
 
 uset = set() #去重
 
 print("开始。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
 with open(target_dir, 'w+') as f_write:
  with open(sourcr_dir, 'r') as f_scorce:
   for line in f_scorce:
   line = line.strip().split("\t")
   # 宝宝树
   if line[2] == 'babytree.com':
    uidList = re.findall(r'.*NL=u%02(u\d+)', line[3], re.I)
    if uidList:
     # 去重代码
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("宝宝树已完成")
 
   # 柚宝宝
   elif line[2] == 'youzibuy.com':
    if line[4].find("yunqi.youzibuy.com/tae_top_notify") != -1:
     uidList = re.findall(r'.*myuid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("柚宝宝已完成")
 
   # 妈妈帮
   elif line[2] == 'mmbang.com':
    uidList = re.findall(r'.*uid=(\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("妈妈帮已完成")
 
   # 妈妈网
   elif line[2] == 'mama.cn':
    if line[4].find("mapi.mama.cn/feed/users/show") != -1:
     uidList = re.findall(r'.*friend_uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
    if line[4].find("mamaquan/mmq_thread") != -1:
     uidList = re.findall(r'.*uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("妈妈网已完成")
 
   # 育儿网
   elif line[2] == 'ci123.com':
    uidList = re.findall(r'.*ci123js=([a-zA-Z]+\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("育儿网已完成")
 
 print("完成。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
if __name__ == "__main__":
 Main()

以上这篇对python读写文件去重、RE、set的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
简单谈谈Python中的元祖(Tuple)和字典(Dict)
Apr 21 Python
利用PyInstaller将python程序.py转为.exe的方法详解
May 03 Python
Python数据结构与算法之二叉树结构定义与遍历方法详解
Dec 12 Python
对TensorFlow中的variables_to_restore函数详解
Jul 30 Python
python判断所输入的任意一个正整数是否为素数的两种方法
Jun 27 Python
Django--权限Permissions的例子
Aug 28 Python
浅谈python中统计计数的几种方法和Counter详解
Nov 07 Python
python之生成多层json结构的实现
Feb 27 Python
基于python爬取有道翻译过程图解
Mar 31 Python
python中可以声明变量类型吗
Jun 18 Python
Python基于内置函数type创建新类型
Oct 22 Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 Python
python版本五子棋的实现代码
Dec 11 #Python
python提取具有某种特定字符串的行数据方法
Dec 11 #Python
Python面向对象基础入门之编码细节与注意事项
Dec 11 #Python
Python面向对象基础入门之设置对象属性
Dec 11 #Python
python提取包含关键字的整行数据方法
Dec 11 #Python
django开发post接口简单案例,获取参数值的方法
Dec 11 #Python
python面向对象入门教程之从代码复用开始(一)
Dec 11 #Python
You might like
学习discuz php 引入文件的方法DISCUZ_ROOT
2009/06/21 PHP
php记录日志的实现代码
2011/08/08 PHP
php中flush()、ob_flush()、ob_end_flush()的区别介绍
2013/02/17 PHP
thinkphp浏览历史功能实现方法
2014/10/29 PHP
postfixadmin忘记密码后的修改密码方法详解
2016/07/20 PHP
jQuery中文入门指南,翻译加实例,jQuery的起点教程
2007/02/09 Javascript
javascript call方法使用说明
2010/01/11 Javascript
jquery实现每个数字上都带进度条的幻灯片
2013/02/20 Javascript
javascript中普通函数的使用介绍
2013/12/19 Javascript
详解js闭包
2014/09/02 Javascript
ECMAScript5中的对象存取器属性:getter和setter介绍
2014/12/08 Javascript
JavaScript中神奇的call()方法
2015/03/12 Javascript
JavaScript实现表格快速变色效果代码
2015/08/19 Javascript
JavaScript基础之AJAX简单的小demo
2017/01/29 Javascript
jquery ui sortable拖拽后保存位置
2017/04/27 jQuery
微信小程序 Buffer缓冲区的详解
2017/07/06 Javascript
js学习总结之DOM2兼容处理this问题的解决方法
2017/07/27 Javascript
微信小程序表单验证WxValidate的使用
2019/11/27 Javascript
[26:21]浴火之凤-TI4世界冠军Newbee战队纪录片
2014/08/07 DOTA
Python urllib、urllib2、httplib抓取网页代码实例
2015/05/09 Python
Python实现将目录中TXT合并成一个大TXT文件的方法
2015/07/15 Python
python装饰器与递归算法详解
2016/02/18 Python
使用Flask集成bootstrap的方法
2018/07/24 Python
python实现简单的单变量线性回归方法
2018/11/08 Python
keras读取训练好的模型参数并把参数赋值给其它模型详解
2020/06/15 Python
Pycharm安装python库的方法
2020/11/24 Python
英国足球店:UK Soccer Shop
2017/11/19 全球购物
加拿大时装零售商:Influence U
2018/12/22 全球购物
专科文秘应届生求职信
2013/11/18 职场文书
小饰品店的创业计划书范文
2013/12/28 职场文书
局火灾防控工作方案
2014/05/25 职场文书
行政求职信
2014/07/04 职场文书
群众路线自我剖析及整改措施
2014/11/04 职场文书
暑期社会实践证明书
2014/11/17 职场文书
因个人工作失误检讨书
2019/06/21 职场文书
JavaScript实现一键复制内容剪贴板
2022/07/23 Javascript