ssc-qxp-mms-model-mix-adapt-max2-2

This model is a fine-tuned version of facebook/mms-1b-all on the None dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1861
  • Cer: 0.0659
  • Wer: 0.4357

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.001
  • train_batch_size: 8
  • eval_batch_size: 6
  • seed: 42
  • gradient_accumulation_steps: 2
  • total_train_batch_size: 16
  • optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: linear
  • lr_scheduler_warmup_steps: 100
  • num_epochs: 40
  • mixed_precision_training: Native AMP

Training results

Training Loss Epoch Step Validation Loss Cer Wer
0.4108 0.6920 200 0.2210 0.0866 0.4945
0.3256 1.3841 400 0.2106 0.0747 0.4871
0.2829 2.0761 600 0.2341 0.0807 0.4724
0.2923 2.7682 800 0.2036 0.0821 0.4945
0.2777 3.4602 1000 0.1919 0.0780 0.4605
0.2478 4.1522 1200 0.1868 0.0778 0.4632
0.2623 4.8443 1400 0.1855 0.0787 0.4752
0.2484 5.5363 1600 0.1914 0.0799 0.4614
0.2606 6.2284 1800 0.1915 0.0767 0.4568
0.2305 6.9204 2000 0.1988 0.0762 0.4494
0.241 7.6125 2200 0.1721 0.0720 0.4522
0.2391 8.3045 2400 0.1762 0.0734 0.4586
0.2325 8.9965 2600 0.1976 0.0773 0.4743
0.2331 9.6886 2800 0.1669 0.0714 0.4559
0.2207 10.3806 3000 0.1715 0.0695 0.4559
0.2224 11.0727 3200 0.1894 0.0754 0.4577
0.2192 11.7647 3400 0.1825 0.0720 0.4485
0.2228 12.4567 3600 0.1693 0.0699 0.4623
0.2124 13.1488 3800 0.1792 0.0724 0.4467
0.2053 13.8408 4000 0.1761 0.0714 0.4393
0.2033 14.5329 4200 0.1944 0.0778 0.4614
0.2269 15.2249 4400 0.1742 0.0640 0.4458
0.1965 15.9170 4600 0.1768 0.0700 0.4522
0.1999 16.6090 4800 0.1735 0.0695 0.4485
0.1927 17.3010 5000 0.1713 0.0687 0.4430
0.1917 17.9931 5200 0.1709 0.0709 0.4577
0.1969 18.6851 5400 0.1686 0.0669 0.4458
0.1921 19.3772 5600 0.1672 0.0655 0.4449
0.2096 20.0692 5800 0.1699 0.0685 0.4439
0.1892 20.7612 6000 0.1789 0.0706 0.4430
0.1869 21.4533 6200 0.1807 0.0699 0.4449
0.191 22.1453 6400 0.1836 0.0685 0.4338
0.1781 22.8374 6600 0.1728 0.0683 0.4531
0.1793 23.5294 6800 0.1720 0.0660 0.4412
0.1922 24.2215 7000 0.1733 0.0611 0.4531
0.1761 24.9135 7200 0.1786 0.0695 0.4467
0.1774 25.6055 7400 0.1815 0.0676 0.4283
0.1681 26.2976 7600 0.1750 0.0668 0.4430
0.1638 26.9896 7800 0.1773 0.0685 0.4347
0.1596 27.6817 8000 0.1793 0.0677 0.4338
0.1577 28.3737 8200 0.1698 0.0632 0.4476
0.1712 29.0657 8400 0.1772 0.0680 0.4384
0.1667 29.7578 8600 0.1768 0.0660 0.4421
0.164 30.4498 8800 0.1777 0.0657 0.4366
0.1464 31.1419 9000 0.1792 0.0660 0.4384
0.158 31.8339 9200 0.1818 0.0664 0.4329
0.1527 32.5260 9400 0.1766 0.0656 0.4412
0.1664 33.2180 9600 0.1827 0.0660 0.4366
0.1428 33.9100 9800 0.1816 0.0649 0.4430
0.1546 34.6021 10000 0.1811 0.0665 0.4439
0.1442 35.2941 10200 0.1858 0.0665 0.4347
0.1449 35.9862 10400 0.1877 0.0663 0.4347
0.1409 36.6782 10600 0.1814 0.0654 0.4347
0.1464 37.3702 10800 0.1886 0.0669 0.4329
0.1516 38.0623 11000 0.1848 0.0660 0.4393
0.1503 38.7543 11200 0.1843 0.0664 0.4338
0.1468 39.4464 11400 0.1861 0.0659 0.4357

Framework versions

  • Transformers 4.52.1
  • Pytorch 2.9.1+cu128
  • Datasets 3.6.0
  • Tokenizers 0.21.4
Downloads last month
12
Safetensors
Model size
1.0B params
Tensor type
F32
ยท
Inference Providers NEW
This model isn't deployed by any Inference Provider. ๐Ÿ™‹ Ask for provider support

Model tree for ctaguchi/ssc-qxp-mms-model-mix-adapt-max2-2

Finetuned
(327)
this model

Evaluation results