Толковый словарь по нейросетям и искусственному интеллекту

Косинусная мера сходства

Cosine Similarity

Категория термина


Косинусная мера сходства (Cosine Similarity) — это метрика, используемая для оценки степени схожести между двумя векторами в многомерном пространстве. Она измеряет косинус угла между векторами, игнорируя их длину, и показывает, насколько два объекта направлены в одну сторону в латентном пространстве.


🧠 Механизм работы

  1. Векторы объектов (например, эмбеддинги слов, предложений или изображений) представлены в n-мерном пространстве.
  2. Вычисляется скалярное произведение векторов: cosine_similarity=A⋅B∥A∥∥B∥text{cosine_similarity} = frac{mathbf{A} cdot mathbf{B}}{|mathbf{A}| |mathbf{B}|}
  3. Результат находится в диапазоне от -1 до 1:
    • 1 — векторы полностью совпадают по направлению,
    • 0 — векторы ортогональны, нет сходства,
    • -1 — векторы направлены противоположно.
  4. Используется для ранжирования, кластеризации и поиска по семантической близости.

🔑 Основные особенности

  • Игнорирует масштаб векторов, оценивая только их направление.
  • Эффективна для измерения семантической близости в embedding space.
  • Широко используется в NLP, поисковых системах и рекомендательных системах.
  • Совместима с любыми типами embeddings: текст, изображения, аудио.

📌 Примеры применения

  • Semantic Search — поиск документов или предложений по смысловой близости.
  • Word Embeddings — нахождение схожих слов в Word2Vec, GloVe.
  • Sentence Embeddings — сопоставление предложений для кластеризации и поиска.
  • Recommendation Systems — измерение сходства интересов пользователей и товаров.
  • Image Retrieval — сравнение визуальных признаков изображений.

⚖️ Преимущества и недостатки

Преимущества:

  • Простая и быстрая для вычисления.
  • Независима от длины векторов.
  • Хорошо работает в высокоразмерных пространствах.

Недостатки:

  • Не учитывает абсолютное расстояние между объектами.
  • Чувствительна к шуму и слабо различимым признакам.
  • Не подходит для некоторых типов данных, где важен масштаб векторов.

🧠 Связанные понятия

  • Embedding Space — пространство, в котором оценивается сходство векторов.
  • Euclidean Distance — альтернативная метрика для измерения расстояния между векторами.
  • Semantic Search — применение косинусной меры для поиска по смыслу.
  • Sentence / Word Embeddings — объекты, между которыми вычисляется сходство.

💡 Вывод

Cosine Similarity является фундаментальной метрикой для измерения семантической близости векторных представлений, широко применяемой в NLP, поисковых системах и рекомендательных приложениях.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Почему нет синусной меры сходства? 4 дня назад
  • Почему нет минусной перв сходства? 4 дня назад
  • Здравствуйте можно создать видео танцуешь из фото 7 дней назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)