博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
TF-IDF 简介
阅读量:4623 次
发布时间:2019-06-09

本文共 422 字,大约阅读时间需要 1 分钟。

 
 
假设我们手头有大量的文档(或网页), 通常我们会比较关心以下几个问题:
1. 每一个文档的关键词(或主题词)包括哪些?2. 给定一个(或一组)关键词,与这个(或组)词最相关的文档是哪一个?3. 给定一个文档,哪个(或哪些)文档与它具有最大的相似度呢?
回答上述三个问题的关键是:对于一个给定的词和一个给定的文档,定义一个可以用来衡量该词对该文档相关性(或重要性)的指标。那么,如何定义这样的一个指标呢?       本文将简要介绍词频-逆文档频度(Term Frequency - Inverse Document Frequency,TF-IDF)技术,它是一种用于资讯检索与文本挖掘的常用加权技术,可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。

作者: peghoty 

出处: 

欢迎转载/分享, 但请务必声明文章出处.

转载于:https://www.cnblogs.com/peghoty/p/3798489.html

你可能感兴趣的文章
noip模拟赛 排列
查看>>
List 中添加多个List集合以及add() 与addAll()的区别
查看>>
如何处理测试人员的流动问题?
查看>>
1.border-image
查看>>
PagerIndicator主题样式修改
查看>>
java中HashMap类用法
查看>>
分布式监控系统Zabbix-完整安装记录 -添加端口监控
查看>>
Python之反向迭代
查看>>
STM32F4 输入输出(GPIO)模式理解
查看>>
转义符
查看>>
poj 1019
查看>>
asp.net mvc上传文件
查看>>
bitmq集群高可用测试
查看>>
主成分分析(PCA)原理详解
查看>>
短信验证接口网址
查看>>
Geohash距离估算
查看>>
Demon_背包系统(实现装备栏,背包栏,可以切换装备)
查看>>
记录:一次数据库被恶意修改配置文件的问题
查看>>
redis 持久化
查看>>
解决Jupyter notebook[import tensorflow as tf]报错
查看>>