Модель генерации русских шуток

Модель - компактный авто-регрессионный Transformer для генерации коротких шуток на русском языке. Обучена на датасете IgorVolochay/russian_jokes.
Выполнена в рамках домашней работы по курсу «Большие языковые модели»

Детали

Архитектура: Causal Transformer
Размер контекста: 128 токенов
Токенайзер: Byte-level BPE, vocab_size 1024
Цель: генерация шуток и коротких юмористических реплик на русском

Лицензия

Код и веса доступны по лицензии Apache-2.0

Примеры

Начало «Шел медведь по лесу»:

Шел медведь по лесу, видит - машина горит. Мимо идет волк.
- Сынок, ты кем работаешь?

Начало «Штирлиц пришел домой»:

Штирлиц пришел домой. Взял медали, сел в сумку и говорит: "Сегодня ночью в тюрьме!"

Начало «Заходит в бар»:

Заходит в барана кошка, без презерватива

Быстрый старт

import torch

# Нужна инициализация ByteLevelBPETokenizer и TransformerForCausalLM из ipynb ноутбука домашнего задания

REPO_NAME = "01eg0/llm-course-hw1"

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

tokenizer = ByteLevelBPETokenizer.from_pretrained(REPO_NAME)
model = TransformerForCausalLM.from_pretrained(REPO_NAME).to(device).eval()

text = "Штирлиц пришел домой"
input_ids = torch.tensor(tokenizer.encode(text), device=device)
model_output = check_model.generate(
    input_ids[None, :], max_new_tokens=200, eos_token_id=tokenizer.eos_token_id, do_sample=True, top_k=10
)
tokenizer.decode(model_output[0].tolist())

Ответственность и безопасность

Модель может воспроизводить токсичные или оскорбительные паттерны, встречающиеся в данных.
Автор модели не несет ответственность за использование без соответствующей модерации и контекстной проверки.

Downloads last month: 3

Safetensors

Model size

79.7M params

Tensor type

F32

BOOL

Dataset used to train 01eg0/llm-course-hw1

Evaluation results

Training loss on IgorVolochay/russian_jokes
test set self-reported

2.400
Validation loss on IgorVolochay/russian_jokes
test set self-reported

2.600