QA-1_FT

Questo modello 猫 una versione ottimizzata di deepset/roberta-base-squad2, adattato specificamente alla documentazione tecnica di una web app tramite un processo di addestramento a due fasi.

Descrizione del Modello

Il processo di adattamento ha compreso:

  1. Adattamento al Dominio (MLM): Il modello base 猫 stato aggiornato tramite Masked Language Modeling (MLM) sul dataset RoleChatArticoles.json (contenente la documentazione della web app) per apprendere la terminologia tecnica e il contesto specifico del software.
  2. Fine-tuning QA Specializzato: Dopo la fase MLM, il modello 猫 stato addestrato per il Question Answering utilizzando LoRA (Low-Rank Adaptation). Questo permette al modello di estrarre risposte precise dai documenti tecnici senza perdere le capacit脿 di ragionamento generali.

Procedura di Addestramento

Fase 1: Masked Language Modeling (MLM)

  • Obiettivo: Adattamento al dominio tecnico.
  • Dataset: Documentazione della web app (RoleChatArticoles.json).
  • Metodo: Quantizzazione a 4-bit e aggiornamento completo dell'encoder per 1 epoca.

Fase 2: Question Answering (PEFT/LoRA)

  • Obiettivo: Estrazione di risposte dal contesto della documentazione.
  • Metodo: LoRA (Low-Rank Adaptation).
  • Configurazione:
    • Rank ($r$): 16
    • Alpha: 32
    • Target Modules: query, key, value, dense
    • Training: Quantizzazione a 4-bit (bitsandbytes).

Casi d'Uso e Limitazioni

Uso Previsto

Il modello 猫 progettato per rispondere a domande basate strettamente sulla documentazione tecnica della web app fornita durante l'addestramento.

Limitazioni e Avvertenze

  • Non 猫 un modello generico: Si sconsiglia vivamente l'uso di questo modello per compiti di Question Answering generici o fuori dal dominio tecnico trattato.
  • Necessit脿 di Fine-tuning: Per essere utilizzato efficacemente su altri software o documentazioni differenti, il modello richiede nuovi cicli di fine-tuning specifici sui nuovi set di dati.
  • Lunghezza Sequenza: Essendo basato su RoBERTa, ha un limite massimo di 384 token per ogni prompt
Downloads last month
5
Safetensors
Model size
0.1B params
Tensor type
F32
Inference Providers NEW
This model isn't deployed by any Inference Provider. 馃檵 Ask for provider support

Model tree for Croc-Prog-HF/QA-1_FT

Finetuned
(221)
this model