Толковый словарь по нейросетям и искусственному интеллекту
Компьютерное зрение
Категория термина
Компьютерное зрение (Computer Vision) — это раздел искусственного интеллекта и машинного обучения, занимающийся автоматическим анализом, обработкой и интерпретацией изображений и видео с целью извлечения информации, схожей с тем, как это делает человеческое зрение.
Главная цель CV — научить компьютеры "видеть", распознавать и интерпретировать визуальные данные из окружающего мира.
🧠 Что делает Computer Vision:
- Обнаруживает объекты на изображениях
- Классифицирует объекты по категориям
- Следит за движением объектов на видео
- Извлекает черты и паттерны (напр., лица, текст, аномалии)
- Создаёт карты глубины, 3D-реконструкции и др.
🔍 Ключевые задачи:
| Задача | Описание |
|---|---|
| Object Detection | Обнаружение и локализация объектов на изображении |
| Image Classification | Отнесение изображения к одной из заранее заданных категорий |
| Semantic Segmentation | Пиксельная разметка изображения с определением объекта в каждой точке |
| Face Recognition | Распознавание лиц на фото и видео |
| OCR (распознавание текста) | Выделение и преобразование текста с изображения |
| Pose Estimation | Определение положения тела, рук, головы и т.д. |
| Image Generation | Создание новых изображений с помощью генеративных моделей (GAN, Diffusion) |
| Depth Estimation | Расчёт расстояний и формы объектов в 3D |
📦 Примеры инструментов и библиотек:
- OpenCV — универсальная библиотека для обработки изображений
- PyTorch / TensorFlow — платформы для обучения моделей CV
- YOLO (You Only Look Once) — быстрая модель для object detection
- Detectron2, Mask R-CNN — модели сегментации и обнаружения
- MediaPipe — библиотеки от Google для оценки позы, лица, рук
- DINO, CLIP, SAM — современные модели CV, работающие в связке с языковыми моделями
🎯 Применение:
- Медицина (анализ рентгеновских снимков, КТ, МРТ)
- Промышленность (контроль качества, дефекты продукции)
- Безопасность (видеонаблюдение, распознавание лиц)
- Автономные автомобили (распознавание дорожной обстановки)
- AR/VR (распознавание пространства)
- Ритейл (анализ поведения клиентов, подсчёт посетителей)
- Сельское хозяйство (оценка урожая, обнаружение болезней растений)
🧠 Связь с ИИ и ML:
Computer Vision использует:
- Нейронные сети, особенно Convolutional Neural Networks (CNN) и Transformers
- Обучение с учителем, без учителя и самообучение
- Интеграцию с языковыми моделями (в мультимодальных системах)
✅ Заключение:
Computer Vision — один из самых зрелых и активно развивающихся направлений искусственного интеллекта, охватывающий как прикладные задачи (например, распознавание лиц), так и фундаментальные исследования (например, визуальное обоснование решений модели). В сочетании с языковыми и генеративными моделями CV становится неотъемлемой частью современных ИИ-систем.