TF-IDF 简介-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

TF-IDF 简介

阅读量：4623 次

发布时间：2019-06-09

本文共 422 字，大约阅读时间需要 1 分钟。

假设我们手头有大量的文档（或网页）, 通常我们会比较关心以下几个问题：

1. 每一个文档的关键词（或主题词）包括哪些？2. 给定一个（或一组）关键词，与这个（或组）词最相关的文档是哪一个？3. 给定一个文档，哪个（或哪些）文档与它具有最大的相似度呢？

回答上述三个问题的关键是：对于一个给定的词和一个给定的文档，定义一个可以用来衡量该词对该文档相关性（或重要性）的指标。那么，如何定义这样的一个指标呢？       本文将简要介绍词频-逆文档频度（Term Frequency - Inverse Document Frequency，TF-IDF）技术，它是一种用于资讯检索与文本挖掘的常用加权技术，可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。

作者: peghoty

出处:

欢迎转载/分享, 但请务必声明文章出处.

转载于:https://www.cnblogs.com/peghoty/p/3798489.html

你可能感兴趣的文章

noip模拟赛排列

List 中添加多个List集合以及add() 与addAll()的区别

如何处理测试人员的流动问题？

PagerIndicator主题样式修改

java中HashMap类用法

分布式监控系统Zabbix-完整安装记录 -添加端口监控

Python之反向迭代

STM32F4 输入输出(GPIO)模式理解

asp.net mvc上传文件

bitmq集群高可用测试

主成分分析（PCA）原理详解

短信验证接口网址

Geohash距离估算

Demon_背包系统(实现装备栏，背包栏，可以切换装备)

记录:一次数据库被恶意修改配置文件的问题

redis 持久化

解决Jupyter notebook[import tensorflow as tf]报错

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-10-20 05:36:01 当前IP: 3.144.98.153 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我