Толковый словарь по нейросетям и искусственному интеллекту
Размер словаря
Категория термина
Размер словаря (Vocabulary Size) — это количество уникальных токенов, включённых в словарь токенизатора, который используется для разбиения текста и преобразования его в последовательность идентификаторов для языковой модели. Этот параметр определяет, сколько различных единиц текста модель может распознавать напрямую.
🧠 Механизм работы:
- Токенизатор создаёт словарь, включающий отдельные слова, подслова или символы.
- Каждому токену присваивается уникальный идентификатор.
- Размер словаря фиксируется и задаёт границы возможных токенов, с которыми работает модель.
- При обработке текста неизвестные слова разбиваются на известные токены из словаря.
🔑 Основные особенности:
- Влияет на точность модели: слишком маленький словарь может ухудшать качество, слишком большой — увеличивать требования к памяти.
- Обычно варьируется от нескольких тысяч до сотен тысяч токенов.
- Поддерживает специальные токены: [PAD], [CLS], [SEP], [UNK].
- Размер словаря тесно связан с выбранной стратегией токенизации (word-level, subword-level, BPE, SentencePiece).
📌 Примеры применения:
- BERT Base — словарь около 30 000 токенов.
- GPT-3 — словарь более 50 000 токенов.
- Multilingual Models — увеличенный размер словаря для поддержки нескольких языков.
- Tiny Transformers — уменьшенные словари для мобильных или edge-устройств.
⚖️ Преимущества и недостатки:
Преимущества:
- Большой словарь позволяет модели точнее представлять редкие слова и подслова.
- Малый словарь уменьшает память и ускоряет инференс.
- Оптимальный размер улучшает баланс между качеством и ресурсами.
Недостатки:
- Слишком маленький словарь увеличивает частоту разбиений на подслова, ухудшая качество.
- Слишком большой словарь увеличивает размер модели и потребление памяти.
- Требует компромисса при мультилингвальных моделях.
🧠 Связанные понятия:
- Tokenizer Vocabulary — набор всех токенов, из которых формируется размер словаря.
- Subword Tokenization — метод, влияющий на оптимальный размер словаря.
- BPE / SentencePiece — популярные методы формирования словаря.
💡 Вывод:
Размер словаря (Vocabulary Size) определяет возможности токенизатора и языковой модели в распознавании и представлении текста. Правильный выбор размера словаря критически важен для баланса между точностью модели и её вычислительными требованиями.