Толковый словарь по нейросетям и искусственному интеллекту
Косинусная мера сходства
Cosine Similarity
Категория термина
Косинусная мера сходства (Cosine Similarity) — это метрика, используемая для оценки степени схожести между двумя векторами в многомерном пространстве. Она измеряет косинус угла между векторами, игнорируя их длину, и показывает, насколько два объекта направлены в одну сторону в латентном пространстве.
🧠 Механизм работы
- Векторы объектов (например, эмбеддинги слов, предложений или изображений) представлены в n-мерном пространстве.
- Вычисляется скалярное произведение векторов: cosine_similarity=A⋅B∥A∥∥B∥text{cosine_similarity} = frac{mathbf{A} cdot mathbf{B}}{|mathbf{A}| |mathbf{B}|}
- Результат находится в диапазоне от -1 до 1:
- 1 — векторы полностью совпадают по направлению,
- 0 — векторы ортогональны, нет сходства,
- -1 — векторы направлены противоположно.
- Используется для ранжирования, кластеризации и поиска по семантической близости.
🔑 Основные особенности
- Игнорирует масштаб векторов, оценивая только их направление.
- Эффективна для измерения семантической близости в embedding space.
- Широко используется в NLP, поисковых системах и рекомендательных системах.
- Совместима с любыми типами embeddings: текст, изображения, аудио.
📌 Примеры применения
- Semantic Search — поиск документов или предложений по смысловой близости.
- Word Embeddings — нахождение схожих слов в Word2Vec, GloVe.
- Sentence Embeddings — сопоставление предложений для кластеризации и поиска.
- Recommendation Systems — измерение сходства интересов пользователей и товаров.
- Image Retrieval — сравнение визуальных признаков изображений.
⚖️ Преимущества и недостатки
Преимущества:
- Простая и быстрая для вычисления.
- Независима от длины векторов.
- Хорошо работает в высокоразмерных пространствах.
Недостатки:
- Не учитывает абсолютное расстояние между объектами.
- Чувствительна к шуму и слабо различимым признакам.
- Не подходит для некоторых типов данных, где важен масштаб векторов.
🧠 Связанные понятия
- Embedding Space — пространство, в котором оценивается сходство векторов.
- Euclidean Distance — альтернативная метрика для измерения расстояния между векторами.
- Semantic Search — применение косинусной меры для поиска по смыслу.
- Sentence / Word Embeddings — объекты, между которыми вычисляется сходство.
💡 Вывод
Cosine Similarity является фундаментальной метрикой для измерения семантической близости векторных представлений, широко применяемой в NLP, поисковых системах и рекомендательных приложениях.