编程 Python

python基于物品协同过滤算法实现代码

Posted in Python onMay 31, 2018

本次测试基于MovieLens数据集实现的基于物品的协同过滤，目前只是在小样本上实现，主要问题是计算太耗内存，后期代码继续优化与完善。

数据集说明：movies.dat中数据是用户对电影的评分。数据格式：UserID::MovieID::Rating::Timestamp。

代码

import pandas as pd
import numpy as np
import math 
import os
import time
import datetime

os.chdir(r'f:\zxx\pthon_work\CF')

def loadData():
 #读入movies.dat, rating.dat,tags.dat
 #mnames=['movie_id','title','genres']
 #movies=pd.read_table(r'.\data\movies.dat',sep='::',header=None,names=mnames)

 rnames=['UserID','MovieID','Rating','Timestamp']
 all_ratings=pd.read_table(r'.\data\ratings.dat',sep='::',header=None,names=rnames,nrows=300000)

 #tnames=['UserID','MovieID','Tag','Timestamp']
 #tags=pd.read_table(r'.\data\tags.dat',sep='::',header=None,names=tnames)
 return all_ratings

#数据探索：rating
def data_alay(ratings):
 """rating nums10000054, 3, 
 示例 ： 1  122  5 838985046
 col:'UserID','MovieID','Rating','Timestamp'
  """
 #一个用户只对一个电影打分一次
 UR=ratings.groupby([ratings['UserID'],ratings['MovieID']])
 len(UR.size)

#计算每部电影的平均打分,电影数10677
def avgRating(ratings):
 movies_mean=ratings['Rating'].groupby(ratings['MovieID']).mean()#计算所有用户对电影X的平均打分
 movies_id=movies_mean.index
 movies_avg_rating=movies_mean.values
 return movies_id,movies_avg_rating,movies_mean

#计算电影相似度矩阵相，即建立10677*10677矩阵
def calculatePC(ratings):
 movies_id,movies_avg_rating,movies_mean=avgRating(ratings)
 #pc_mat=np.eye(3)#建立电影相似度单位矩阵
 pc_dic={}
 top_movie=len(movies_id)
 for i in range(0,top_movie):
  for j in range(i+1,top_movie):
   movieAID=movies_id[i]
   movieBID=movies_id[j]
   see_moviesA_user=ratings['UserID'][ratings['MovieID']==movieAID]
   see_moviesB_user=ratings['UserID'][ratings['MovieID']==movieBID]
   join_user=np.intersect1d(see_moviesA_user.values,see_moviesB_user.values)#同时给电影A、B评分的用户
   movieA_avg=movies_mean[movieAID]
   movieB_avg=movies_mean[movieBID]
   key1=str(movieAID)+':'+str(movieBID)
   key2=str(movieBID)+':'+str(movieAID)
   value=twoMoviesPC(join_user,movieAID,movieBID,movieA_avg,movieB_avg,ratings)
   pc_dic[key1]=value   
   pc_dic[key2]=value      
   #pc_mat[i][i+1]=twoMoviesPC(join_user,movieAID,movieBID,movieA_avg,movieB_avg,ratings)
   #print ('---the %s, %d,%d:--movie %s--%s--pc is %f' % (key1,movieAID,movieBID,movieAID,movieBID,pc_dic[key1]))
 return pc_dic

#计算电影A与电影B的相似度，皮尔森相似度=sum(A-A^)*sum(B-B^)/sqrt(sum[(A-A^)*(A-A^)]*sum[(B-B^)*(B-B^)])
def twoMoviesPC(join_user,movieAID,movieBID,movieA_avg,movieB_avg,ratings):
 cent_AB_sum=0.0#相似度分子
 centA_sum=0.0#分母
 centB_sum=0.0#分母
 movieAB_pc=0.0#电影A,B的相似度
 count=0
 for u in range(len(join_user)):
  #print '---------',u
  count=count+1
  ratA=ratings['Rating'][ratings['UserID']==join_user[u]][ratings['MovieID']==movieAID].values[0]#用户给电影A评分
  ratB=ratings['Rating'][ratings['UserID']==join_user[u]][ratings['MovieID']==movieBID].values[0]#用户给电影B评分
  cent_AB=(ratA-movieA_avg)*(ratB-movieB_avg) #去均值中心化
  centA_square=(ratA-movieA_avg)*(ratA-movieA_avg) #去均值平方
  centB_square=(ratB-movieB_avg)*(ratB-movieB_avg)#去均值平方
  cent_AB_sum=cent_AB_sum+cent_AB
  centA_sum=centA_sum+centA_square
  centB_sum=centB_sum+centB_square
 if(centA_sum>0 and centB_sum>0 ):
  movieAB_pc=cent_AB_sum/math.sqrt(centA_sum*centB_sum)
 return movieAB_pc

"""
预测用户U对那些电影感兴趣。分三步，
 1）用户U过去X天看过的电影。
 2）提出用户U已看过的电影，根据用户U过去看过的电影，计算用户U对其他电影的打分.
 3) 拉去打分最高的的电影给用户推荐。
预测用户U对电影C的打分。分三步：（先只做这个）
 1）用户U过去X天看过的电影。
 2）利用加权去中心化公式预测用户U对电影C的打分.

"""
#日期处理： -3天，然后转换为uinxtime
def timePro(last_rat_time,UserU):
 lastDate= datetime.datetime.fromtimestamp(last_rat_time[UserU]) #unix转为日期
 date_sub3=lastDate+datetime.timedelta(days=-3)#减去3天
 unix_sub3=time.mktime(date_sub3.timetuple())#日期转为unix
 return unix_sub3

#取用户最后一次评分前3天评估的电影进行预测
def getHisRat(ratings,last_rat_time,UserUID):
 unix_sub3= timePro(last_rat_time,UserUID)
 UserU_info=ratings[ratings['UserID']==UserUID][ratings['Timestamp']>unix_sub3]
 return UserU_info

#预测用户U对电影C的打分
def hadSeenMovieByUser(UserUID,MovieA,ratings,pc_dic,movies_mean):
 pre_rating=0.0 
 last_rat_time=ratings['Timestamp'].groupby([ratings['UserID']]).max()#获取用户U最近一次评分日期
 UserU_info= getHisRat(ratings,last_rat_time,UserUID)#获取用户U过去看过的电影

 flag=0#表示新电影，用户U是否给电影A打过分
 wmv=0.0#相似度*mv平均打分去均值后之和
 w=0.0#相似度之和
 movie_userU=UserU_info['MovieID'].values#当前用户看过的电影
 if MovieA in movie_userU:
  flag=1
  pre_rating=UserU_info['Rating'][UserU_info['MovieID']==MovieA].values
 else:
  for mv in movie_userU:
   key=str(mv)+':'+str(MovieA)
   rat_U_mv=UserU_info['Rating'][UserU_info['MovieID']==mv][UserU_info['UserID']==UserUID].values#用户U对看过电影mv的打分
   wmv=(wmv+pc_dic[key]*(rat_U_mv-movies_mean[mv]))#相似度*mv平均打分去均值后之和
   w=(w+pc_dic[key])#看过电影与新电影相似度之和
   #print ('---have seen mv %d with new mv %d,%f,%f'%(mv,MovieA,wmv,w))   
  pre_rating=(movies_mean[MovieA]+wmv/w)
 print ('-flag:%d---User:%d rating movie:%d with %f score----' %(flag,UserUID,MovieA,pre_rating))
 return pre_rating,flag

if __name__=='__main__':
 all_ratings=loadData()
 movie_num=100#控制电影数，只针对电影ID在该范围的数据进行计算，否则数据量太大 
 ratings=all_ratings[all_ratings['MovieID']<=movie_num]

 movies_id,movies_avg_rating,movies_mean=avgRating(ratings)
 pc_dic=calculatePC(ratings)#电影相似度矩阵
 #预测
 UserUID=10#当前数据集只看过电影4，7，
 MovieA=6 
 pre_rating,flag=hadSeenMovieByUser(UserUID,MovieA,ratings,pc_dic,movies_mean)

 "-----------------测试ID提取------------------"
 #选取UserUID
 ratings.head(10)#从前10行中随机选取一个用户ID,例如：UserID=10
 #查看该用户在当前数据集中看过那些电影，方便选取新电影（防止选择的是用户已经看过的电影）
 ratings[ratings['UserID']==10]#该用户在当前数据集中，只看过电影MovieID in(4，7)，则可选择不是4，7的电影ID进行预测，例如6.

运行结果：

-flag:0---User:10 rating movie:6 with 4.115996 score----

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python基于物品协同过滤算法实现代码

- Author -

zhouwenyuan1015

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python单元测试框架unittest使用方法讲解

Apr 13 Python

浅谈Python中用datetime包进行对时间的一些操作

Jun 23 Python

python中numpy基础学习及进行数组和矢量计算

Feb 12 Python

通过Python实现自动填写调查问卷

Sep 06 Python

python实现求解列表中元素的排列和组合问题

Mar 15 Python

python实现跨excel的工作表sheet之间的复制方法

May 03 Python

Python实现朴素贝叶斯分类器的方法详解

Jul 04 Python

浅谈Python的list中的选取范围

Nov 12 Python

【python】matplotlib动态显示详解

Apr 11 Python

Python reshape的用法及多个二维数组合并为三维数组的实例

Feb 07 Python

Django Form设置文本框为readonly操作

Jul 03 Python

Python docx库删除复制paragraph及行高设置图片插入示例

Jul 23 Python

python写入并获取剪切板内容的实例

May 31 #Python

python3实现基于用户的协同过滤

May 31 #Python

python控制windows剪贴板,向剪贴板中写入图片的实例

May 31 #Python

python用户评论标签匹配的解决方法

May 31 #Python

python批量查询、汉字去重处理CSV文件

May 31 #Python

python破解zip加密文件的方法

May 31 #Python

python删除本地夹里重复文件的方法

Nov 19 #Python

You might like

DC宇宙的第一个英雄，堪称动漫史鼻祖，如今成为美国文化的象征

2020/04/09 欧美动漫

PHP正则表达式之定界符和原子介绍

2012/10/05 PHP

thinkphp使用literal防止模板标签被解析的方法

2014/11/22 PHP

WordPress中"无法将上传的文件移动至"错误的解决方法

2015/07/01 PHP

PHP性能分析工具xhprof的安装使用与注意事项

2017/12/19 PHP

laravel excel 上传文件保存到本地服务器功能

2019/11/14 PHP

PHP常量及变量区别原理详解

2020/08/14 PHP

Javascript 获取链接(url)参数的方法

2009/02/15 Javascript

基于jQuery的弹出消息插件 DivAlert之旅（一）

2010/04/01 Javascript

jquery简单的拖动效果实现原理及示例

2013/07/26 Javascript

使用js实现关闭js弹出层的窗口

2014/02/10 Javascript

简述JavaScript对传统文档对象模型的支持

2015/06/16 Javascript

Knockoutjs 学习系列(一)ko初体验

2016/06/07 Javascript

js 弹出对话框(遮罩)透明,可拖动的简单实例

2016/07/11 Javascript

JS实现淡入淡出图片效果的方法分析

2016/12/20 Javascript

mui back 返回刷新页面的实例

2017/12/06 Javascript

mpvue微信小程序开发之实现一个弹幕评论

2019/11/24 Javascript

JS浏览器BOM常见操作实例详解

2020/04/27 Javascript

JSONP解决JS跨域问题的实现

2020/05/25 Javascript

利用python将pdf输出为txt的实例讲解

2018/04/23 Python

Python OpenCV读取png图像转成jpg图像存储的方法

2018/10/28 Python

python根据文本生成词云图代码实例

2019/11/15 Python

基于python的docx模块处理word和WPS的docx格式文件方式

2020/02/13 Python

Python用户自定义异常的实现

2020/12/25 Python

MyFrenchPharma中文网：最大的法国药妆平台

2016/10/07 全球购物

创立科技Java面试题

2015/11/29 面试题

大学生优秀团员事迹材料

2014/01/30 职场文书

欢送退休感言

2014/02/08 职场文书

企业宣传策划方案

2014/05/29 职场文书

党员四风自我剖析材料思想汇报

2014/09/13 职场文书

农村文化建设标语

2014/10/07 职场文书

离职报告格式

2014/11/04 职场文书

应届生简历自我评价

2015/03/11 职场文书

NGINX 权限控制文件预览和下载的实现原理

2022/01/18 Servers

MySQL普通表如何转换成分区表

2022/05/30 MySQL

JS实现简单九宫格抽奖

2022/06/28 Javascript