Толковый словарь по нейросетям и искусственному интеллекту

Категориальные данные

Categorical Data

Категория термина


Категориальные данные (Categorical Data) — это тип данных в машинном обучении и статистике, представляющий значения, принадлежащие к ограниченному набору категорий или классов, а не количественные или числовые величины. Эти данные описывают качества или характеристики объектов, например пол, цвет, бренд, тип продукта или жанр. В отличие от числовых данных, категориальные данные не имеют естественного порядка или арифметического смысла, хотя некоторые категории могут быть упорядоченными (ordinal).

Категориальные данные широко применяются в анализе данных, классификации, NLP, рекомендационных системах и многих других областях ИИ.


🔍 Виды категориальных данных:

  1. Nominal (номинальные):
    • Категории без естественного порядка.
    • Пример: цвет автомобиля (красный, синий, зелёный).
  2. Ordinal (порядковые):
    • Категории с логическим порядком, но без точных числовых различий.
    • Пример: уровень образования (начальный, средний, высший).
  3. Binary (двоичные):
    • Данные с двумя возможными значениями.
    • Пример: да/нет, истина/ложь, мужчина/женщина.

🧪 Примеры применения:

  • Обработка естественного языка (NLP): слова, части речи, категории токенов.
  • Рекомендательные системы: жанры фильмов, категории товаров, типы пользователей.
  • Классификация изображений: метки классов объектов на фото (кот, собака, птица).
  • Маркетинговый анализ: сегментация клиентов по полу, возрастной группе или региону.
  • Медицинские данные: диагнозы, группы риска, категории препаратов.

⚡ Особенности работы с категориальными данными:

  • Преобразование в числовую форму: модели ИИ требуют числовых данных, поэтому применяются методы:

    • One-hot encoding: бинарное представление каждой категории.
    • Label encoding: присвоение уникального числа каждой категории.
    • Embedding: плотное векторное представление категорий, особенно в NLP и LLM.
  • Отсутствие арифметического смысла: нельзя применять стандартные математические операции напрямую.
  • Влияние на модель: некорректная обработка категориальных данных может привести к bias и снижению качества предсказаний.

📌 Связанные термины:

  • One-hot Encoding: метод преобразования категориальных данных в бинарные векторы.
  • Label Encoding: присвоение числовых меток категориям.
  • Embedding: плотное векторное представление категорий.
  • Bias / Fairness: категориальные данные могут быть источником предвзятости модели.
  • Cross-Entropy Loss / Softmax: часто используются для категориальных меток в классификационных задачах.

✅ Заключение:

Категориальные данные (Categorical Data) — это важный тип данных, характеризующий качество или принадлежность объектов к классам. Корректная обработка этих данных критически важна для эффективного обучения моделей машинного обучения и нейросетей, обеспечения точности предсказаний и предотвращения предвзятости. Эти данные широко используются в NLP, классификации, рекомендационных системах, анализе маркетинга, здравоохранении и других областях ИИ.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Почему нет синусной меры сходства? 4 дня назад
  • Почему нет минусной перв сходства? 4 дня назад
  • Здравствуйте можно создать видео танцуешь из фото 7 дней назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)