DidulaThavishaPro
/

exp_18_3_0grpo_checkpoint_220_16bit_vllm

Text Generation

text-generation-inference

Model card Files Files and versions

Uploaded finetuned model

Developed by: DidulaThavishaPro
License: apache-2.0
Finetuned from model : didula-wso2/exp_18_1_sft_16bit_vllm

This qwen2 model was trained 2x faster with Unsloth and Huggingface's TRL library.

Downloads last month: -

Safetensors

Model size

8B params

Tensor type

BF16

·

Model tree for DidulaThavishaPro/exp_18_3_0grpo_checkpoint_220_16bit_vllm

Base model

Qwen/Qwen2.5-7B

Finetuned

Qwen/Qwen2.5-Coder-7B

Finetuned

Qwen/Qwen2.5-Coder-7B-Instruct

Finetuned

unsloth/Qwen2.5-Coder-7B-Instruct

Finetuned

didula-wso2/exp_18_1_sft_16bit_vllm

Finetuned

(3)

this model