Толковый словарь по нейросетям и искусственному интеллекту
Категориальные данные
Категория термина
Категориальные данные (Categorical Data) — это тип данных в машинном обучении и статистике, представляющий значения, принадлежащие к ограниченному набору категорий или классов, а не количественные или числовые величины. Эти данные описывают качества или характеристики объектов, например пол, цвет, бренд, тип продукта или жанр. В отличие от числовых данных, категориальные данные не имеют естественного порядка или арифметического смысла, хотя некоторые категории могут быть упорядоченными (ordinal).
Категориальные данные широко применяются в анализе данных, классификации, NLP, рекомендационных системах и многих других областях ИИ.
🔍 Виды категориальных данных:
- Nominal (номинальные):
- Категории без естественного порядка.
- Пример: цвет автомобиля (красный, синий, зелёный).
- Ordinal (порядковые):
- Категории с логическим порядком, но без точных числовых различий.
- Пример: уровень образования (начальный, средний, высший).
- Binary (двоичные):
- Данные с двумя возможными значениями.
- Пример: да/нет, истина/ложь, мужчина/женщина.
🧪 Примеры применения:
- Обработка естественного языка (NLP): слова, части речи, категории токенов.
- Рекомендательные системы: жанры фильмов, категории товаров, типы пользователей.
- Классификация изображений: метки классов объектов на фото (кот, собака, птица).
- Маркетинговый анализ: сегментация клиентов по полу, возрастной группе или региону.
- Медицинские данные: диагнозы, группы риска, категории препаратов.
⚡ Особенности работы с категориальными данными:
- Преобразование в числовую форму: модели ИИ требуют числовых данных, поэтому применяются методы:
- One-hot encoding: бинарное представление каждой категории.
- Label encoding: присвоение уникального числа каждой категории.
- Embedding: плотное векторное представление категорий, особенно в NLP и LLM.
- Отсутствие арифметического смысла: нельзя применять стандартные математические операции напрямую.
- Влияние на модель: некорректная обработка категориальных данных может привести к bias и снижению качества предсказаний.
📌 Связанные термины:
- One-hot Encoding: метод преобразования категориальных данных в бинарные векторы.
- Label Encoding: присвоение числовых меток категориям.
- Embedding: плотное векторное представление категорий.
- Bias / Fairness: категориальные данные могут быть источником предвзятости модели.
- Cross-Entropy Loss / Softmax: часто используются для категориальных меток в классификационных задачах.
✅ Заключение:
Категориальные данные (Categorical Data) — это важный тип данных, характеризующий качество или принадлежность объектов к классам. Корректная обработка этих данных критически важна для эффективного обучения моделей машинного обучения и нейросетей, обеспечения точности предсказаний и предотвращения предвзятости. Эти данные широко используются в NLP, классификации, рекомендационных системах, анализе маркетинга, здравоохранении и других областях ИИ.