关于相似性度量和距离度量的关联

WBOY
发布: 2024-01-22 18:21:14
转载
941명이 탐색했습니다.

相似性度量和距离度量的关系

在机器学习应用中,相似性度量是用来评估两个样本对象相似程度的指标。通常使用距离度量来表示,有效的距离度量可以提高机器学习模型的性能。

不过从数值关系上,相似性度量和距离度量恰好相反。

相似性度量通常以数值表示,数值越高表示数据样本越相似。一般采用0到1之间的数字进行转换,其中0表示相似度低,即数据对象不相似;而1表示相似度高,表示数据对象非常相似。

距离度量表示数据对象相似度与距离数值成反比。

常用的距离度量

欧氏距离(Euclidean Distance)

即欧几里得度量,它是两点之间的最小距离,大多数机器学习算法都使用此距离度量来衡量观察结果的相似性。

曼哈顿距离(Manhattan Distance)

曼哈顿距离是两个地方在所有维度上的总差异。因为在城市中几乎不可能沿直线移动,建筑物被分组为阻挡直线路径的网格。“曼哈顿距离”一词经常用来指代两个城市街区之间的距离。

闵可夫斯基距离(Minkowski Distance)

是欧几里德距离和曼哈顿距离的广义形式,定义nD空间中两个观测值之间的距离。

汉明距离(Hamming Distance)

汉明距离衡量两个相同长度的字符串的相似程度。汉明距离是相同长度的两个字符串之间对应字符不同的点数。

余弦距离(Cosine Similarity)

该指标广泛用于文本挖掘、自然语言处理和信息检索系统,用来衡量两个给定文档之间的相似性。

切比雪夫距离(Chebyshev Distance)

两个nD观测值或向量之间的切比雪夫距离等于数据样本坐标之间变化的最大绝对值。在二维世界中,数据点之间的切比雪夫距离可以确定为其二维坐标的绝对差之和。

马氏距离(Mahalanobis Distance)

主要用于多元统计测试,测量数据点与分布的距离。

卡方距离(Chi-square Distance)

卡方距离通常用于计算机视觉,同时进行纹理分析以找到归一化直方图之间的相似性,称为“直方图匹配”。

皮尔逊相关系数(Pearson Correlation)

皮尔逊相关系数量化了两个属性之间线性单调关系的强度,衡量两个数据集合是否在一条线上。

斯皮尔曼相关系数(Spearman Correlation)

斯皮尔曼相关系数衡量两个变量的依赖性的非参数指标,它利用单调方程评价两个统计变量的相关性。斯皮尔曼相关系数常用于假设检验。

위 내용은 关于相似性度量和距离度量的关联의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

相关标签:
来源:163.com
본 웹사이트의 성명
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
더>
最新下载
더>
网站特效
网站源码
网站素材
프론트엔드 템플릿
关于我们 免责声明 Sitemap
PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!