Толковый словарь по нейросетям и искусственному интеллекту
Метрики расстояния
Категория термина
Метрики расстояния (Distance Metrics) — это набор математических функций, используемых для измерения степени различия или близости между объектами в пространстве признаков. Метрики позволяют количественно сравнивать объекты, представленные в виде векторов, и являются основой для кластеризации, поиска и оценки сходства.
🧠 Механизм работы
- Объекты представляются в виде векторов A,Bmathbf{A}, mathbf{B} в n-мерном пространстве.
- Выбирается подходящая метрика расстояния, учитывающая особенности данных:
- Евклидово расстояние (Euclidean Distance) — прямое линейное расстояние.
- Косинусная мера (Cosine Similarity / Distance) — основана на угле между векторами.
- Манхэттенское расстояние (Manhattan / L1 Distance) — сумма модулей разностей компонент.
- Махаланобисово расстояние (Mahalanobis Distance) — учитывает ковариацию признаков.
- Полученное значение отражает степень близости или различия между объектами.
- Метрики могут использоваться для сортировки, кластеризации, поиска ближайших соседей и других задач.
🔑 Основные особенности
- Позволяют сравнивать объекты в многомерном пространстве.
- Выбор метрики зависит от типа данных и задачи.
- Метрики могут быть чувствительны к масштабу и корреляции признаков.
- Широко применяются в машинном обучении, NLP, компьютерном зрении и рекомендательных системах.
📌 Примеры применения
- Clustering — алгоритмы K-means, DBSCAN, иерархическая кластеризация.
- Nearest Neighbor Search — поиск ближайших объектов в embedding space.
- Semantic Search — оценка сходства предложений или документов.
- Face Recognition / Image Retrieval — сравнение эмбеддингов изображений.
- Anomaly Detection — выявление объектов, сильно отличающихся от большинства.
⚖️ Преимущества и недостатки
Преимущества:
- Универсальный инструмент для измерения сходства между объектами.
- Позволяет применять множество алгоритмов анализа данных.
- Прост в реализации и интерпретации.
Недостатки:
- Качество результатов зависит от выбранной метрики и нормализации данных.
- В высокоразмерных пространствах многие метрики теряют эффективность (curse of dimensionality).
- Некоторые метрики требуют вычисления ковариационной матрицы или других статистических характеристик.
🧠 Связанные понятия
- Euclidean Distance — прямое линейное расстояние между точками.
- Cosine Similarity / Distance — метрика, основанная на угле между векторами.
- Manhattan Distance — сумма модулей компонент.
- Mahalanobis Distance — учитывает корреляцию между признаками.
- Embedding Space — пространство, где применяются метрики расстояния.
💡 Вывод
Distance Metrics являются ключевым инструментом для измерения сходства и различий между объектами, обеспечивая основу для задач поиска, кластеризации и анализа данных в многомерных пространствах.