对python读写文件去重、RE、set的使用详解


Posted in Python onDecember 11, 2018

如下所示:

# -*- coding:utf-8 -*-
 
from datetime import datetime
import re
 
 
def Main():
 sourcr_dir = '/data/u_lx_data/fudan/muying/muying_11yue_all.txt'
 target_dir = '/data/u_lx_data/fudan/muying/python/uid_regular_get.txt'
 
 uset = set() #去重
 
 print("开始。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
 with open(target_dir, 'w+') as f_write:
  with open(sourcr_dir, 'r') as f_scorce:
   for line in f_scorce:
   line = line.strip().split("\t")
   # 宝宝树
   if line[2] == 'babytree.com':
    uidList = re.findall(r'.*NL=u%02(u\d+)', line[3], re.I)
    if uidList:
     # 去重代码
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("宝宝树已完成")
 
   # 柚宝宝
   elif line[2] == 'youzibuy.com':
    if line[4].find("yunqi.youzibuy.com/tae_top_notify") != -1:
     uidList = re.findall(r'.*myuid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("柚宝宝已完成")
 
   # 妈妈帮
   elif line[2] == 'mmbang.com':
    uidList = re.findall(r'.*uid=(\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("妈妈帮已完成")
 
   # 妈妈网
   elif line[2] == 'mama.cn':
    if line[4].find("mapi.mama.cn/feed/users/show") != -1:
     uidList = re.findall(r'.*friend_uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
    if line[4].find("mamaquan/mmq_thread") != -1:
     uidList = re.findall(r'.*uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("妈妈网已完成")
 
   # 育儿网
   elif line[2] == 'ci123.com':
    uidList = re.findall(r'.*ci123js=([a-zA-Z]+\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("育儿网已完成")
 
 print("完成。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
if __name__ == "__main__":
 Main()

以上这篇对python读写文件去重、RE、set的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python代理抓取并验证使用多线程实现
May 03 Python
python学习必备知识汇总
Sep 08 Python
Python 将RGB图像转换为Pytho灰度图像的实例
Nov 14 Python
OpenCV3.0+Python3.6实现特定颜色的物体追踪
Jul 23 Python
python异常触发及自定义异常类解析
Aug 06 Python
django中的图片验证码功能
Sep 18 Python
Python判断三段线能否构成三角形的代码
Apr 12 Python
python如何随机生成高强度密码
Aug 19 Python
Pycharm自带Git实现版本管理的方法步骤
Sep 18 Python
python将下载到本地m3u8视频合成MP4的代码详解
Nov 24 Python
Pytorch之扩充tensor的操作
Mar 04 Python
python使用openpyxl库读写Excel表格的方法(增删改查操作)
May 02 Python
python版本五子棋的实现代码
Dec 11 #Python
python提取具有某种特定字符串的行数据方法
Dec 11 #Python
Python面向对象基础入门之编码细节与注意事项
Dec 11 #Python
Python面向对象基础入门之设置对象属性
Dec 11 #Python
python提取包含关键字的整行数据方法
Dec 11 #Python
django开发post接口简单案例,获取参数值的方法
Dec 11 #Python
python面向对象入门教程之从代码复用开始(一)
Dec 11 #Python
You might like
PHP爆绝对路径方法收集整理
2012/09/17 PHP
PHP面向对象学习笔记之二 生成对象的设计模式
2012/10/06 PHP
PHP错误提示的关闭方法详解
2013/06/23 PHP
PHP中VC6、VC9、TS、NTS版本的区别与用法详解
2013/10/26 PHP
php实现上传图片保存到数据库的方法
2015/02/11 PHP
PHP SESSION的增加、删除、修改、查看操作
2015/03/20 PHP
悄悄用脚本检查你访问过哪些网站的代码
2010/12/04 Javascript
JS+CSS实现淡入式焦点图片幻灯切换效果的方法
2015/02/26 Javascript
Node.js程序中的本地文件操作用法小结
2016/03/06 Javascript
js日期相关函数dateAdd,dateDiff,dateFormat等介绍
2016/09/24 Javascript
jQuery多选框选择数量限制方法
2017/02/08 Javascript
jquery仿京东侧边栏导航效果
2017/03/02 Javascript
swiper移动端轮播插件(触碰图片之后停止轮播)
2017/12/28 Javascript
微信小程序动态生成二维码的实现代码
2018/07/25 Javascript
详解如何用webpack4从零开始构建react开发环境
2019/01/27 Javascript
js+canvas实现转盘效果(两个版本)
2020/09/13 Javascript
在antd中setFieldsValue和defaultVal的用法
2020/10/29 Javascript
[02:51]DOTA2 Supermajor小组分组对阵抽签仪式
2018/06/01 DOTA
python如何派生内置不可变类型并修改实例化行为
2018/03/21 Python
Python IDE Pycharm中的快捷键列表用法
2019/08/08 Python
对Django中的权限和分组管理实例讲解
2019/08/16 Python
零基础学python应该从哪里入手
2020/08/11 Python
python归并排序算法过程实例讲解
2020/11/04 Python
法国高保真音响和家庭影院商店:Son Video
2019/04/26 全球购物
西班牙高科技产品购物网站:MejorDeseo
2019/09/08 全球购物
新学期红领巾广播稿
2014/01/14 职场文书
小学三年级学生评语
2014/04/22 职场文书
介绍信格式
2015/01/30 职场文书
邀请函样本
2015/02/02 职场文书
2015年幼儿园学前班工作总结
2015/05/18 职场文书
员工考勤管理制度
2015/08/06 职场文书
Python中常见的导入方式总结
2021/05/06 Python
利用python做数据拟合详情
2021/11/17 Python
B站评分公认最好看的动漫,你的名字评分9.9,第六备受喜欢
2022/03/18 日漫
MySQL选择合适的备份策略和备份工具
2022/06/01 MySQL
服务器nginx权限被拒绝解决案例
2022/09/23 Servers