对python读写文件去重、RE、set的使用详解


Posted in Python onDecember 11, 2018

如下所示:

# -*- coding:utf-8 -*-
 
from datetime import datetime
import re
 
 
def Main():
 sourcr_dir = '/data/u_lx_data/fudan/muying/muying_11yue_all.txt'
 target_dir = '/data/u_lx_data/fudan/muying/python/uid_regular_get.txt'
 
 uset = set() #去重
 
 print("开始。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
 with open(target_dir, 'w+') as f_write:
  with open(sourcr_dir, 'r') as f_scorce:
   for line in f_scorce:
   line = line.strip().split("\t")
   # 宝宝树
   if line[2] == 'babytree.com':
    uidList = re.findall(r'.*NL=u%02(u\d+)', line[3], re.I)
    if uidList:
     # 去重代码
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("宝宝树已完成")
 
   # 柚宝宝
   elif line[2] == 'youzibuy.com':
    if line[4].find("yunqi.youzibuy.com/tae_top_notify") != -1:
     uidList = re.findall(r'.*myuid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("柚宝宝已完成")
 
   # 妈妈帮
   elif line[2] == 'mmbang.com':
    uidList = re.findall(r'.*uid=(\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("妈妈帮已完成")
 
   # 妈妈网
   elif line[2] == 'mama.cn':
    if line[4].find("mapi.mama.cn/feed/users/show") != -1:
     uidList = re.findall(r'.*friend_uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
    if line[4].find("mamaquan/mmq_thread") != -1:
     uidList = re.findall(r'.*uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("妈妈网已完成")
 
   # 育儿网
   elif line[2] == 'ci123.com':
    uidList = re.findall(r'.*ci123js=([a-zA-Z]+\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("育儿网已完成")
 
 print("完成。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
if __name__ == "__main__":
 Main()

以上这篇对python读写文件去重、RE、set的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
详解Django中的form库的使用
Jul 18 Python
Python的Flask框架中的Jinja2模板引擎学习教程
Jun 30 Python
Python多线程threading和multiprocessing模块实例解析
Jan 29 Python
python爬虫之urllib3的使用示例
Jul 09 Python
Centos下实现安装Python3.6和Python2共存
Aug 15 Python
django 外键model的互相读取方法
Dec 15 Python
Python定时任务APScheduler的实例实例详解
Jul 22 Python
Django接收post前端返回的json格式数据代码实现
Jul 31 Python
win10下python2和python3共存问题解决方法
Dec 23 Python
django迁移文件migrations的实现
Mar 31 Python
Python如何截图保存的三种方法(小结)
Sep 01 Python
Pandas 稀疏数据结构的实现
Jul 25 Python
python版本五子棋的实现代码
Dec 11 #Python
python提取具有某种特定字符串的行数据方法
Dec 11 #Python
Python面向对象基础入门之编码细节与注意事项
Dec 11 #Python
Python面向对象基础入门之设置对象属性
Dec 11 #Python
python提取包含关键字的整行数据方法
Dec 11 #Python
django开发post接口简单案例,获取参数值的方法
Dec 11 #Python
python面向对象入门教程之从代码复用开始(一)
Dec 11 #Python
You might like
在任意字符集下正常显示网页的方法一
2007/04/01 PHP
PHP HTML JavaScript MySQL代码如何互相传值的方法分享
2012/09/30 PHP
Php中使用Select 查询语句的实例
2014/02/19 PHP
php实现水仙花数示例分享
2014/04/03 PHP
PHP下使用mysqli的函数连接mysql出现warning: mysqli::real_connect(): (hy000/1040): ...
2016/02/14 PHP
实例讲解YII2中多表关联的使用方法
2017/07/21 PHP
PHP7 list() 函数修改
2021/03/09 PHP
jQuery实现类似淘宝购物车全选状态示例
2013/06/26 Javascript
js写的评论分页(还不错)
2013/12/23 Javascript
如何让你的Lightbox支持滚轮缩放及Base64图片
2014/12/04 Javascript
使用javascript实现Iframe自适应高度
2014/12/24 Javascript
javascript判断变量是否有值的方法
2015/04/20 Javascript
JavaScript+Java实现HTML页面转为PDF文件保存的方法
2016/05/30 Javascript
轻松玩转BootstrapTable(后端使用SpringMVC+Hibernate)
2017/09/06 Javascript
Vue.js devtool插件安装后无法使用的解决办法
2017/11/27 Javascript
vue地区选择组件教程详解
2018/05/04 Javascript
深入理解js 中async 函数的含义和用法
2018/05/13 Javascript
详解angularjs4部署文件过大解决过程
2018/12/05 Javascript
javascript实现计算器功能
2020/03/30 Javascript
Python实现将sqlite数据库导出转成Excel(xls)表的方法
2017/07/17 Python
Tensorflow 查看变量的值方法
2018/06/14 Python
django session完成状态保持的方法
2018/11/27 Python
python+unittest+requests实现接口自动化的方法
2018/11/29 Python
Python实现蒙特卡洛算法小实验过程详解
2019/07/12 Python
基于CentOS搭建Python Django环境过程解析
2020/08/24 Python
CSS3 Columns分列式布局方法简介
2014/05/03 HTML / CSS
HTML5 LocalStorage 本地存储详细概括(多图)
2017/08/18 HTML / CSS
英国标准协会商店:BSI Shop
2019/02/25 全球购物
仓管岗位职责范本
2014/02/08 职场文书
歌唱比赛主持词
2014/03/18 职场文书
出差报告怎么写
2014/11/06 职场文书
2015年万圣节活动总结
2015/03/24 职场文书
2015年预算员工作总结
2015/05/14 职场文书
2015年车间主任工作总结
2015/05/21 职场文书
公文写作:工伤事故分析报告怎么写?
2019/11/05 职场文书
MySQL数据库中的锁、解锁以及删除事务
2022/05/06 MySQL