Толковый словарь по нейросетям и искусственному интеллекту
Идентификаторы типов токенов
Категория термина
Идентификаторы типов токенов (Token Type IDs) — это специальные метки, используемые в трансформерных моделях (например, BERT), которые помогают различать разные части входной последовательности. Они особенно важны в задачах, где модель получает на вход несколько сегментов текста (например, вопрос и контекст, или предложение A и предложение B).
🔑 Как это работает
- Каждому токену в последовательности присваивается Token Type ID, обычно это 0 или 1, в зависимости от того, к какому сегменту он относится.
- В стандартном BERT:
- Все токены первого предложения получают ID = 0.
- Все токены второго предложения получают ID = 1.
- Эти идентификаторы передаются в модель как отдельный вход наряду с эмбеддингами слов и позиционными эмбеддингами.
Общая формула входного представления:
E(x)=WordEmbedding(x)+PositionEmbedding(x)+TokenTypeEmbedding(x)E(x) = text{WordEmbedding}(x) + text{PositionEmbedding}(x) + text{TokenTypeEmbedding}(x)📌 Пример
В задаче «Next Sentence Prediction» (NSP) в BERT:
Вход:[CLS] Я люблю ИИ [SEP] А он любит меня [SEP]
- Токены первого предложения («Я люблю ИИ») → Token Type ID = 0
- Токены второго предложения («А он любит меня») → Token Type ID = 1
Тогда вектор Token Type IDs будет:[0, 0, 0, 0, 1, 1, 1, 1]
⚖️ Зачем нужны
- Помогают модели различать части входных данных.
- Улучшают понимание взаимосвязей между сегментами (например, «вопрос ↔ ответ» или «предложение A ↔ предложение B»).
- Особенно важны в кросс-энкодерах (cross-encoders) и задачах вроде entailment, semantic similarity и QA.
📂 Применения
- BERT и его производные: NSP, STS (semantic textual similarity), QA.
- Мультимодальные модели (например, CLIP, LXMERT): могут использовать разные токен-тайп эмбеддинги для текста и изображения.
- Диалоговые системы: разделение реплик собеседников.
Таким образом, Token Type IDs — это дополнительные признаки, позволяющие трансформерам различать разные сегменты входа, обеспечивая корректное взаимодействие между ними в задачах обработки текста и мультимодального обучения.