Python使用gensim计算文档相似性


Posted in Python onApril 10, 2016

pre_file.py

#-*-coding:utf-8-*-
import MySQLdb
import MySQLdb as mdb
import os,sys,string
import jieba
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')
#连接数据库
try:
  conn=mdb.connect(host='127.0.0.1',user='root',passwd='kongjunli',db='test1',charset='utf8')
except Exception,e:
  print e
  sys.exit()
#获取cursor对象操作数据库
cursor=conn.cursor(mdb.cursors.DictCursor) #cursor游标
#获取内容
sql='SELECT link,content FROM test1.spider;'
cursor.execute(sql)   #execute()方法,将字符串当命令执行
data=cursor.fetchall()#fetchall()接收全部返回结果行
f=codecs.open('C:\Users\kk\Desktop\hello-result1.txt','w','utf-8')
 
for row in data:    #row接收结果行的每行数据
  seg='/'.join(list(jieba.cut(row['content'],cut_all='False')))
  f.write(row['link']+' '+seg+'\r\n')
f.close()
 
cursor.close()
      #提交事务,在插入数据时必须

jiansuo.py

#-*-coding:utf-8-*-
import sys
import string
import MySQLdb
import MySQLdb as mdb
import gensim
from gensim import corpora,models,similarities
from gensim.similarities import MatrixSimilarity
import logging
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')
 
con=mdb.connect(host='127.0.0.1',user='root',passwd='kongjunli',db='test1',charset='utf8')
with con:
  cur=con.cursor()
  cur.execute('SELECT * FROM cutresult_copy')
  rows=cur.fetchall()
  class MyCorpus(object):
    def __iter__(self):
      for row in rows:
        yield str(row[1]).split('/')
#开启日志
logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level=logging.INFO)
Corp=MyCorpus()
#将网页文档转化为tf-idf
dictionary=corpora.Dictionary(Corp)
corpus=[dictionary.doc2bow(text) for text in Corp] #将文档转化为词袋模型
#print corpus
tfidf=models.TfidfModel(corpus)#使用tf-idf模型得出文档的tf-idf模型
corpus_tfidf=tfidf[corpus]#计算得出tf-idf值
#for doc in corpus_tfidf:
  #print doc
###
'''
q_file=open('C:\Users\kk\Desktop\q.txt','r')
query=q_file.readline()
q_file.close()
vec_bow=dictionary.doc2bow(query.split(' '))#将请求转化为词带模型
vec_tfidf=tfidf[vec_bow]#计算出请求的tf-idf值
#for t in vec_tfidf:
 # print t
'''
###
query=raw_input('Enter your query:')
vec_bow=dictionary.doc2bow(query.split())
vec_tfidf=tfidf[vec_bow]
index=similarities.MatrixSimilarity(corpus_tfidf)
sims=index[vec_tfidf]
similarity=list(sims)
print sorted(similarity,reverse=True)

encodings.xml

<?xml version="1.0" encoding="UTF-8"?>
<project version="4">
 <component name="Encoding">
  <file url="PROJECT" charset="UTF-8" />
 </component>
</project>

misc.xml

<?xml version="1.0" encoding="UTF-8"?>
<project version="4">
 <component name="ProjectLevelVcsManager" settingsEditedManually="false">
  <OptionsSetting value="true" id="Add" />
  <OptionsSetting value="true" id="Remove" />
  <OptionsSetting value="true" id="Checkout" />
  <OptionsSetting value="true" id="Update" />
  <OptionsSetting value="true" id="Status" />
  <OptionsSetting value="true" id="Edit" />
  <ConfirmationsSetting value="0" id="Add" />
  <ConfirmationsSetting value="0" id="Remove" />
 </component>
 <component name="ProjectRootManager" version="2" project-jdk-name="Python 2.7.11 (C:\Python27\python.exe)" project-jdk-type="Python SDK" />
</project>

modules.xml

<?xml version="1.0" encoding="UTF-8"?>
<project version="4">
 <component name="ProjectModuleManager">
  <modules>
   <module fileurl="file://$PROJECT_DIR$/.idea/爬虫练习代码.iml" filepath="$PROJECT_DIR$/.idea/爬虫练习代码.iml" />
  </modules>
 </component>
</project>
Python 相关文章推荐
python网络编程学习笔记(五):socket的一些补充
Jun 09 Python
在Python的Flask中使用WTForms表单框架的基础教程
Jun 07 Python
在python环境下运用kafka对数据进行实时传输的方法
Dec 27 Python
Python设计模式之备忘录模式原理与用法详解
Jan 15 Python
使用python分析统计自己微信朋友的信息
Jul 19 Python
简单了解python变量的作用域
Jul 30 Python
PyTorch中Tensor的维度变换实现
Aug 18 Python
详解基于python-django框架的支付宝支付案例
Sep 23 Python
Python Django框架防御CSRF攻击的方法分析
Oct 18 Python
DataFrame.to_excel多次写入不同Sheet的实例
Dec 02 Python
python实现人性化显示金额数字实例详解
Sep 25 Python
Python+OpenCV图像处理——实现轮廓发现
Oct 23 Python
Python调用SQLPlus来操作和解析Oracle数据库的方法
Apr 09 #Python
python调用fortran模块
Apr 08 #Python
python3使用urllib模块制作网络爬虫
Apr 08 #Python
Python抓取电影天堂电影信息的代码
Apr 07 #Python
Python Requests安装与简单运用
Apr 07 #Python
Python Requests 基础入门
Apr 07 #Python
Python检测网站链接是否已存在
Apr 07 #Python
You might like
站长助手-网站web在线管理程序 v1.0 下载
2007/05/12 PHP
php实现高效获取图片尺寸的方法
2014/12/12 PHP
laravel框架中路由设置,路由参数和路由命名实例分析
2019/11/23 PHP
验证javascript中Object和Function的关系的三段简单代码
2010/06/27 Javascript
nodeType属性返回被选节点的节点类型介绍
2013/11/22 Javascript
js改变embed标签src值的方法
2015/04/10 Javascript
浅谈JavaScript中null和undefined
2015/07/09 Javascript
Android中Okhttp3实现上传多张图片同时传递参数
2017/02/18 Javascript
JavaScrpt判断一个数是否是质数的实例代码
2017/06/11 Javascript
理解nodejs的stream和pipe机制的原理和实现
2017/08/12 NodeJs
用webpack4开发小程序的实现方法
2019/06/04 Javascript
Angular 中使用 FineReport不显示报表直接打印预览
2019/08/21 Javascript
使用typescript构建Vue应用的实现
2019/08/26 Javascript
JS实现灯泡开关特效
2020/03/30 Javascript
Kettle中使用JavaScrip调用jar包对文件内容进行MD5加密的操作方法
2020/09/04 Javascript
Javascript confirm多种使用方法解析
2020/09/25 Javascript
PHP 502bad gateway原因及解决方案
2020/11/13 Javascript
python的几种开发工具介绍
2007/03/07 Python
import的本质解析
2017/10/30 Python
python实现两个文件夹的同步
2019/08/29 Python
python 线性回归分析模型检验标准--拟合优度详解
2020/02/24 Python
Selenium启动Chrome时配置选项详解
2020/03/18 Python
Python类和实例的属性机制原理详解
2020/03/21 Python
Django使用django-simple-captcha做验证码的实现示例
2021/01/07 Python
canvas绘制视频封面的方法
2018/02/05 HTML / CSS
澳大利亚制造的蜡烛和扩散器:Glasshouse Fragrances
2018/05/20 全球购物
简述synchronized和java.util.concurrent.locks.Lock的异同
2014/12/08 面试题
机械设计专业应届生求职信
2013/11/21 职场文书
违反工作纪律检讨书
2014/02/15 职场文书
国家领导干部党的群众路线教育实践活动批评与自我批评材料
2014/09/23 职场文书
第28个世界无烟日活动总结
2015/02/10 职场文书
护士2015年终工作总结
2015/04/29 职场文书
《从现在开始》教学反思
2016/02/16 职场文书
2019运动会广播加油稿汇总
2019/08/21 职场文书
Python标准库之typing的用法(类型标注)
2021/06/02 Python
java调用Restful接口的三种方法
2021/08/23 Java/Android