Толковый словарь по нейросетям и искусственному интеллекту
Токен
Категория термина
В контексте искусственного интеллекта, обработки естественного языка (NLP) и генеративных моделей, токен — это наименьшая единица текста, которая подаётся на вход языковой модели. В зависимости от используемой токенизации, токеном может быть:
- целое слово (например, «собака»),
- часть слова (например, «соба» + «ка»),
- символ (например, «@», «%»),
- пробел или пунктуация.
Таким образом, токен — это не всегда одно слово, и их количество часто отличается от количества слов в тексте.
🔧 Как работает токенизация:
Токенизация — это процесс разбиения текста на токены.
Примеры токенизации:
- Текст: "Привет, мир!"
Токены (словесная токенизация):["Привет", ",", "мир", "!"]
Токены (по GPT-tokenizer):["▁Привет", ",", "▁м", "ир", "!"]
Модели типа GPT, BERT, T5 используют собственные токенизаторы, такие как:
- Byte Pair Encoding (BPE)
- SentencePiece
- WordPiece
📏 Пример подсчета токенов:
Текст: "Я люблю нейросети."
- Слов: 3
- Токенов (по BPE): может быть 4 или 5
- Используется для ограничения длины входа в модель (например, 2048 токенов)
📚 Области применения:
- Языковые модели (GPT, LLaMA, T5 и др.) — текст разбивается на токены для подачи в нейросеть
- Оценка стоимости API-запросов (например, в OpenAI GPT) — стоимость рассчитывается за количество токенов, а не слов
- Обратная генерация текста — модель предсказывает следующий токен, а не сразу слово или фразу
- Машинный перевод, суммаризация, классификация текста — токенизация как первый этап
💸 Влияние токенов на стоимость и ограничения:
В OpenAI API, Hugging Face, и других платформах плата взимается за входные и выходные токены. Например:
- 1000 токенов ≈ 750 слов на английском или 500–600 на русском
- Чем больше токенов, тем выше цена и больше нагрузка на модель
🧩 Связанные понятия:
- Embedding — векторное представление токена
- Prompt — ввод для модели, который разбивается на токены
- Context Window — максимальное число токенов, с которым модель может работать за раз
- Sequence Length — длина последовательности токенов
- Truncation — обрезание текста, если он превышает допустимое число токенов
🧠 Вывод:
Токен — фундаментальная единица работы языковых моделей. Понимание того, как текст разбивается на токены, важно для эффективного взаимодействия с ИИ, контроля над расходами и точности генерации. Хотя токены невидимы для конечного пользователя, именно с ними работает нейросеть на каждом этапе генерации, перевода или анализа текста.