diff --git "a/checkpoint-22500/trainer_state.json" "b/checkpoint-22500/trainer_state.json" new file mode 100644--- /dev/null +++ "b/checkpoint-22500/trainer_state.json" @@ -0,0 +1,6360 @@ +{ + "best_metric": 0.0, + "best_model_checkpoint": "autotrain-8z0a6-ohqum/checkpoint-22500", + "epoch": 1.0, + "eval_steps": 500, + "global_step": 22500, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.0011111111111111111, + "grad_norm": 3.386683225631714, + "learning_rate": 1.851851851851852e-07, + "loss": 1.0899, + "step": 25 + }, + { + "epoch": 0.0022222222222222222, + "grad_norm": 2.563768148422241, + "learning_rate": 3.703703703703704e-07, + "loss": 1.0839, + "step": 50 + }, + { + "epoch": 0.0033333333333333335, + "grad_norm": 3.3596715927124023, + "learning_rate": 5.555555555555556e-07, + "loss": 1.0749, + "step": 75 + }, + { + "epoch": 0.0044444444444444444, + "grad_norm": 3.2093076705932617, + "learning_rate": 7.407407407407408e-07, + "loss": 1.0443, + "step": 100 + }, + { + "epoch": 0.005555555555555556, + "grad_norm": 2.2350594997406006, + "learning_rate": 9.259259259259259e-07, + "loss": 1.0215, + "step": 125 + }, + { + "epoch": 0.006666666666666667, + "grad_norm": 3.826423168182373, + "learning_rate": 1.1111111111111112e-06, + "loss": 0.9492, + "step": 150 + }, + { + "epoch": 0.0077777777777777776, + "grad_norm": 3.8876397609710693, + "learning_rate": 1.2962962962962962e-06, + "loss": 0.8637, + "step": 175 + }, + { + "epoch": 0.008888888888888889, + "grad_norm": 3.505671977996826, + "learning_rate": 1.4814814814814817e-06, + "loss": 0.714, + "step": 200 + }, + { + "epoch": 0.01, + "grad_norm": 2.9862611293792725, + "learning_rate": 1.6666666666666667e-06, + "loss": 0.5482, + "step": 225 + }, + { + "epoch": 0.011111111111111112, + "grad_norm": 2.876485824584961, + "learning_rate": 1.8518518518518519e-06, + "loss": 0.4489, + "step": 250 + }, + { + "epoch": 0.012222222222222223, + "grad_norm": 2.172851800918579, + "learning_rate": 2.0370370370370375e-06, + "loss": 0.3667, + "step": 275 + }, + { + "epoch": 0.013333333333333334, + "grad_norm": 1.3631432056427002, + "learning_rate": 2.2222222222222225e-06, + "loss": 0.2851, + "step": 300 + }, + { + "epoch": 0.014444444444444444, + "grad_norm": 1.3054063320159912, + "learning_rate": 2.4074074074074075e-06, + "loss": 0.2129, + "step": 325 + }, + { + "epoch": 0.015555555555555555, + "grad_norm": 1.4375499486923218, + "learning_rate": 2.5925925925925925e-06, + "loss": 0.1966, + "step": 350 + }, + { + "epoch": 0.016666666666666666, + "grad_norm": 0.7695980668067932, + "learning_rate": 2.777777777777778e-06, + "loss": 0.1613, + "step": 375 + }, + { + "epoch": 0.017777777777777778, + "grad_norm": 1.0458544492721558, + "learning_rate": 2.9629629629629633e-06, + "loss": 0.0748, + "step": 400 + }, + { + "epoch": 0.01888888888888889, + "grad_norm": 0.9082356095314026, + "learning_rate": 3.148148148148148e-06, + "loss": 0.0579, + "step": 425 + }, + { + "epoch": 0.02, + "grad_norm": 0.4023597240447998, + "learning_rate": 3.3333333333333333e-06, + "loss": 0.0557, + "step": 450 + }, + { + "epoch": 0.021111111111111112, + "grad_norm": 0.3830346167087555, + "learning_rate": 3.5185185185185187e-06, + "loss": 0.0459, + "step": 475 + }, + { + "epoch": 0.022222222222222223, + "grad_norm": 0.2851133644580841, + "learning_rate": 3.7037037037037037e-06, + "loss": 0.0388, + "step": 500 + }, + { + "epoch": 0.023333333333333334, + "grad_norm": 0.20891113579273224, + "learning_rate": 3.888888888888889e-06, + "loss": 0.0285, + "step": 525 + }, + { + "epoch": 0.024444444444444446, + "grad_norm": 0.22553691267967224, + "learning_rate": 4.074074074074075e-06, + "loss": 0.0212, + "step": 550 + }, + { + "epoch": 0.025555555555555557, + "grad_norm": 0.400623083114624, + "learning_rate": 4.2592592592592596e-06, + "loss": 0.0192, + "step": 575 + }, + { + "epoch": 0.02666666666666667, + "grad_norm": 0.4709663689136505, + "learning_rate": 4.444444444444445e-06, + "loss": 0.0225, + "step": 600 + }, + { + "epoch": 0.027777777777777776, + "grad_norm": 0.1256396770477295, + "learning_rate": 4.6296296296296296e-06, + "loss": 0.0164, + "step": 625 + }, + { + "epoch": 0.028888888888888888, + "grad_norm": 0.45524996519088745, + "learning_rate": 4.814814814814815e-06, + "loss": 0.0152, + "step": 650 + }, + { + "epoch": 0.03, + "grad_norm": 0.13068588078022003, + "learning_rate": 5e-06, + "loss": 0.0127, + "step": 675 + }, + { + "epoch": 0.03111111111111111, + "grad_norm": 0.092658631503582, + "learning_rate": 5.185185185185185e-06, + "loss": 0.0109, + "step": 700 + }, + { + "epoch": 0.03222222222222222, + "grad_norm": 0.2357322722673416, + "learning_rate": 5.37037037037037e-06, + "loss": 0.0138, + "step": 725 + }, + { + "epoch": 0.03333333333333333, + "grad_norm": 0.13298484683036804, + "learning_rate": 5.555555555555556e-06, + "loss": 0.0116, + "step": 750 + }, + { + "epoch": 0.034444444444444444, + "grad_norm": 0.2124181091785431, + "learning_rate": 5.740740740740741e-06, + "loss": 0.0094, + "step": 775 + }, + { + "epoch": 0.035555555555555556, + "grad_norm": 0.10682887583971024, + "learning_rate": 5.925925925925927e-06, + "loss": 0.0074, + "step": 800 + }, + { + "epoch": 0.03666666666666667, + "grad_norm": 0.07791190594434738, + "learning_rate": 6.111111111111111e-06, + "loss": 0.0065, + "step": 825 + }, + { + "epoch": 0.03777777777777778, + "grad_norm": 0.08094919472932816, + "learning_rate": 6.296296296296296e-06, + "loss": 0.0061, + "step": 850 + }, + { + "epoch": 0.03888888888888889, + "grad_norm": 0.059410784393548965, + "learning_rate": 6.481481481481481e-06, + "loss": 0.0056, + "step": 875 + }, + { + "epoch": 0.04, + "grad_norm": 0.0897708460688591, + "learning_rate": 6.666666666666667e-06, + "loss": 0.006, + "step": 900 + }, + { + "epoch": 0.04111111111111111, + "grad_norm": 0.08869366347789764, + "learning_rate": 6.851851851851852e-06, + "loss": 0.0053, + "step": 925 + }, + { + "epoch": 0.042222222222222223, + "grad_norm": 0.06132914870977402, + "learning_rate": 7.0370370370370375e-06, + "loss": 0.0043, + "step": 950 + }, + { + "epoch": 0.043333333333333335, + "grad_norm": 0.05427807569503784, + "learning_rate": 7.222222222222222e-06, + "loss": 0.0044, + "step": 975 + }, + { + "epoch": 0.044444444444444446, + "grad_norm": 0.08502664417028427, + "learning_rate": 7.4074074074074075e-06, + "loss": 0.0041, + "step": 1000 + }, + { + "epoch": 0.04555555555555556, + "grad_norm": 0.07636979222297668, + "learning_rate": 7.592592592592593e-06, + "loss": 0.0036, + "step": 1025 + }, + { + "epoch": 0.04666666666666667, + "grad_norm": 0.06684272736310959, + "learning_rate": 7.777777777777777e-06, + "loss": 0.0035, + "step": 1050 + }, + { + "epoch": 0.04777777777777778, + "grad_norm": 0.03364252299070358, + "learning_rate": 7.962962962962963e-06, + "loss": 0.0031, + "step": 1075 + }, + { + "epoch": 0.04888888888888889, + "grad_norm": 0.030458929017186165, + "learning_rate": 8.14814814814815e-06, + "loss": 0.0031, + "step": 1100 + }, + { + "epoch": 0.05, + "grad_norm": 0.03163473308086395, + "learning_rate": 8.333333333333334e-06, + "loss": 0.0029, + "step": 1125 + }, + { + "epoch": 0.051111111111111114, + "grad_norm": 0.03549908101558685, + "learning_rate": 8.518518518518519e-06, + "loss": 0.0027, + "step": 1150 + }, + { + "epoch": 0.052222222222222225, + "grad_norm": 0.039791908115148544, + "learning_rate": 8.703703703703705e-06, + "loss": 0.0023, + "step": 1175 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 0.06404013931751251, + "learning_rate": 8.88888888888889e-06, + "loss": 0.0022, + "step": 1200 + }, + { + "epoch": 0.05444444444444444, + "grad_norm": 0.03636118397116661, + "learning_rate": 9.074074074074075e-06, + "loss": 0.0018, + "step": 1225 + }, + { + "epoch": 0.05555555555555555, + "grad_norm": 0.026240749284625053, + "learning_rate": 9.259259259259259e-06, + "loss": 0.0021, + "step": 1250 + }, + { + "epoch": 0.056666666666666664, + "grad_norm": 0.023276548832654953, + "learning_rate": 9.444444444444445e-06, + "loss": 0.0019, + "step": 1275 + }, + { + "epoch": 0.057777777777777775, + "grad_norm": 0.02458854578435421, + "learning_rate": 9.62962962962963e-06, + "loss": 0.0017, + "step": 1300 + }, + { + "epoch": 0.058888888888888886, + "grad_norm": 0.03165684640407562, + "learning_rate": 9.814814814814815e-06, + "loss": 0.0015, + "step": 1325 + }, + { + "epoch": 0.06, + "grad_norm": 0.01748719811439514, + "learning_rate": 1e-05, + "loss": 0.0015, + "step": 1350 + }, + { + "epoch": 0.06111111111111111, + "grad_norm": 0.044647298753261566, + "learning_rate": 1.0185185185185185e-05, + "loss": 0.0016, + "step": 1375 + }, + { + "epoch": 0.06222222222222222, + "grad_norm": 0.01623469591140747, + "learning_rate": 1.037037037037037e-05, + "loss": 0.0013, + "step": 1400 + }, + { + "epoch": 0.06333333333333334, + "grad_norm": 0.04618322104215622, + "learning_rate": 1.0555555555555555e-05, + "loss": 0.0012, + "step": 1425 + }, + { + "epoch": 0.06444444444444444, + "grad_norm": 0.029844891279935837, + "learning_rate": 1.074074074074074e-05, + "loss": 0.0013, + "step": 1450 + }, + { + "epoch": 0.06555555555555556, + "grad_norm": 0.015924174338579178, + "learning_rate": 1.0925925925925926e-05, + "loss": 0.0011, + "step": 1475 + }, + { + "epoch": 0.06666666666666667, + "grad_norm": 0.01649516262114048, + "learning_rate": 1.1111111111111112e-05, + "loss": 0.001, + "step": 1500 + }, + { + "epoch": 0.06777777777777778, + "grad_norm": 0.012179471552371979, + "learning_rate": 1.1296296296296297e-05, + "loss": 0.0011, + "step": 1525 + }, + { + "epoch": 0.06888888888888889, + "grad_norm": 0.015302036888897419, + "learning_rate": 1.1481481481481482e-05, + "loss": 0.0011, + "step": 1550 + }, + { + "epoch": 0.07, + "grad_norm": 0.04366496950387955, + "learning_rate": 1.1666666666666668e-05, + "loss": 0.001, + "step": 1575 + }, + { + "epoch": 0.07111111111111111, + "grad_norm": 0.011177003383636475, + "learning_rate": 1.1851851851851853e-05, + "loss": 0.0009, + "step": 1600 + }, + { + "epoch": 0.07222222222222222, + "grad_norm": 0.015038327313959599, + "learning_rate": 1.2037037037037037e-05, + "loss": 0.0007, + "step": 1625 + }, + { + "epoch": 0.07333333333333333, + "grad_norm": 0.01230304129421711, + "learning_rate": 1.2222222222222222e-05, + "loss": 0.0007, + "step": 1650 + }, + { + "epoch": 0.07444444444444444, + "grad_norm": 0.008268430829048157, + "learning_rate": 1.2407407407407408e-05, + "loss": 0.0008, + "step": 1675 + }, + { + "epoch": 0.07555555555555556, + "grad_norm": 0.01717974990606308, + "learning_rate": 1.2592592592592592e-05, + "loss": 0.0007, + "step": 1700 + }, + { + "epoch": 0.07666666666666666, + "grad_norm": 0.010281005874276161, + "learning_rate": 1.2777777777777777e-05, + "loss": 0.0007, + "step": 1725 + }, + { + "epoch": 0.07777777777777778, + "grad_norm": 0.008127022534608841, + "learning_rate": 1.2962962962962962e-05, + "loss": 0.0006, + "step": 1750 + }, + { + "epoch": 0.07888888888888888, + "grad_norm": 0.01046066079288721, + "learning_rate": 1.3148148148148148e-05, + "loss": 0.0007, + "step": 1775 + }, + { + "epoch": 0.08, + "grad_norm": 0.015253646299242973, + "learning_rate": 1.3333333333333333e-05, + "loss": 0.0006, + "step": 1800 + }, + { + "epoch": 0.0811111111111111, + "grad_norm": 0.009954012930393219, + "learning_rate": 1.3518518518518519e-05, + "loss": 0.0006, + "step": 1825 + }, + { + "epoch": 0.08222222222222222, + "grad_norm": 0.006590055767446756, + "learning_rate": 1.3703703703703704e-05, + "loss": 0.0006, + "step": 1850 + }, + { + "epoch": 0.08333333333333333, + "grad_norm": 0.00894659198820591, + "learning_rate": 1.388888888888889e-05, + "loss": 0.0005, + "step": 1875 + }, + { + "epoch": 0.08444444444444445, + "grad_norm": 0.012145236134529114, + "learning_rate": 1.4074074074074075e-05, + "loss": 0.0006, + "step": 1900 + }, + { + "epoch": 0.08555555555555555, + "grad_norm": 0.007682374212890863, + "learning_rate": 1.425925925925926e-05, + "loss": 0.0005, + "step": 1925 + }, + { + "epoch": 0.08666666666666667, + "grad_norm": 0.009473989717662334, + "learning_rate": 1.4444444444444444e-05, + "loss": 0.0005, + "step": 1950 + }, + { + "epoch": 0.08777777777777777, + "grad_norm": 0.006489594001322985, + "learning_rate": 1.462962962962963e-05, + "loss": 0.0004, + "step": 1975 + }, + { + "epoch": 0.08888888888888889, + "grad_norm": 0.006753266789019108, + "learning_rate": 1.4814814814814815e-05, + "loss": 0.0004, + "step": 2000 + }, + { + "epoch": 0.09, + "grad_norm": 0.009055749513208866, + "learning_rate": 1.5e-05, + "loss": 0.0004, + "step": 2025 + }, + { + "epoch": 0.09111111111111111, + "grad_norm": 0.013759450055658817, + "learning_rate": 1.5185185185185186e-05, + "loss": 0.0004, + "step": 2050 + }, + { + "epoch": 0.09222222222222222, + "grad_norm": 0.00638122484087944, + "learning_rate": 1.537037037037037e-05, + "loss": 0.0004, + "step": 2075 + }, + { + "epoch": 0.09333333333333334, + "grad_norm": 0.004425277467817068, + "learning_rate": 1.5555555555555555e-05, + "loss": 0.0004, + "step": 2100 + }, + { + "epoch": 0.09444444444444444, + "grad_norm": 0.004774888511747122, + "learning_rate": 1.574074074074074e-05, + "loss": 0.0003, + "step": 2125 + }, + { + "epoch": 0.09555555555555556, + "grad_norm": 0.005348722450435162, + "learning_rate": 1.5925925925925926e-05, + "loss": 0.0003, + "step": 2150 + }, + { + "epoch": 0.09666666666666666, + "grad_norm": 0.004725703038275242, + "learning_rate": 1.6111111111111115e-05, + "loss": 0.0003, + "step": 2175 + }, + { + "epoch": 0.09777777777777778, + "grad_norm": 0.005654098000377417, + "learning_rate": 1.62962962962963e-05, + "loss": 0.0003, + "step": 2200 + }, + { + "epoch": 0.09888888888888889, + "grad_norm": 0.0047216350212693214, + "learning_rate": 1.6481481481481482e-05, + "loss": 0.0003, + "step": 2225 + }, + { + "epoch": 0.1, + "grad_norm": 0.009037966839969158, + "learning_rate": 1.6666666666666667e-05, + "loss": 0.0003, + "step": 2250 + }, + { + "epoch": 0.10111111111111111, + "grad_norm": 0.004060238134115934, + "learning_rate": 1.6851851851851853e-05, + "loss": 0.0003, + "step": 2275 + }, + { + "epoch": 0.10222222222222223, + "grad_norm": 0.003636434441432357, + "learning_rate": 1.7037037037037038e-05, + "loss": 0.0002, + "step": 2300 + }, + { + "epoch": 0.10333333333333333, + "grad_norm": 0.0036698319017887115, + "learning_rate": 1.7222222222222224e-05, + "loss": 0.0002, + "step": 2325 + }, + { + "epoch": 0.10444444444444445, + "grad_norm": 0.004500136710703373, + "learning_rate": 1.740740740740741e-05, + "loss": 0.0002, + "step": 2350 + }, + { + "epoch": 0.10555555555555556, + "grad_norm": 0.009176488034427166, + "learning_rate": 1.7592592592592595e-05, + "loss": 0.0002, + "step": 2375 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 0.003553111804649234, + "learning_rate": 1.777777777777778e-05, + "loss": 0.0002, + "step": 2400 + }, + { + "epoch": 0.10777777777777778, + "grad_norm": 0.00351758673787117, + "learning_rate": 1.7962962962962965e-05, + "loss": 0.0002, + "step": 2425 + }, + { + "epoch": 0.10888888888888888, + "grad_norm": 0.0031746120657771826, + "learning_rate": 1.814814814814815e-05, + "loss": 0.0002, + "step": 2450 + }, + { + "epoch": 0.11, + "grad_norm": 0.00300974422134459, + "learning_rate": 1.8333333333333333e-05, + "loss": 0.0002, + "step": 2475 + }, + { + "epoch": 0.1111111111111111, + "grad_norm": 0.004017593804746866, + "learning_rate": 1.8518518518518518e-05, + "loss": 0.0002, + "step": 2500 + }, + { + "epoch": 0.11222222222222222, + "grad_norm": 0.004373985808342695, + "learning_rate": 1.8703703703703704e-05, + "loss": 0.0002, + "step": 2525 + }, + { + "epoch": 0.11333333333333333, + "grad_norm": 0.0019937478937208652, + "learning_rate": 1.888888888888889e-05, + "loss": 0.0002, + "step": 2550 + }, + { + "epoch": 0.11444444444444445, + "grad_norm": 0.006959665101021528, + "learning_rate": 1.9074074074074075e-05, + "loss": 0.0002, + "step": 2575 + }, + { + "epoch": 0.11555555555555555, + "grad_norm": 0.00168511550873518, + "learning_rate": 1.925925925925926e-05, + "loss": 0.0002, + "step": 2600 + }, + { + "epoch": 0.11666666666666667, + "grad_norm": 0.0025156347546726465, + "learning_rate": 1.9444444444444445e-05, + "loss": 0.0001, + "step": 2625 + }, + { + "epoch": 0.11777777777777777, + "grad_norm": 0.0021286376286298037, + "learning_rate": 1.962962962962963e-05, + "loss": 0.0001, + "step": 2650 + }, + { + "epoch": 0.11888888888888889, + "grad_norm": 0.003399479668587446, + "learning_rate": 1.9814814814814816e-05, + "loss": 0.0002, + "step": 2675 + }, + { + "epoch": 0.12, + "grad_norm": 0.0021721466910094023, + "learning_rate": 2e-05, + "loss": 0.0002, + "step": 2700 + }, + { + "epoch": 0.12111111111111111, + "grad_norm": 0.0027615276630967855, + "learning_rate": 2.0185185185185187e-05, + "loss": 0.0001, + "step": 2725 + }, + { + "epoch": 0.12222222222222222, + "grad_norm": 0.002929729176685214, + "learning_rate": 2.037037037037037e-05, + "loss": 0.0001, + "step": 2750 + }, + { + "epoch": 0.12333333333333334, + "grad_norm": 0.0041197240352630615, + "learning_rate": 2.0555555555555555e-05, + "loss": 0.0001, + "step": 2775 + }, + { + "epoch": 0.12444444444444444, + "grad_norm": 0.0015853993827477098, + "learning_rate": 2.074074074074074e-05, + "loss": 0.0001, + "step": 2800 + }, + { + "epoch": 0.12555555555555556, + "grad_norm": 0.0030455116648226976, + "learning_rate": 2.0925925925925925e-05, + "loss": 0.0001, + "step": 2825 + }, + { + "epoch": 0.12666666666666668, + "grad_norm": 0.0014197429409250617, + "learning_rate": 2.111111111111111e-05, + "loss": 0.0001, + "step": 2850 + }, + { + "epoch": 0.12777777777777777, + "grad_norm": 0.0016670431941747665, + "learning_rate": 2.1296296296296296e-05, + "loss": 0.0001, + "step": 2875 + }, + { + "epoch": 0.1288888888888889, + "grad_norm": 0.0025134850293397903, + "learning_rate": 2.148148148148148e-05, + "loss": 0.0001, + "step": 2900 + }, + { + "epoch": 0.13, + "grad_norm": 0.0018734446493908763, + "learning_rate": 2.1666666666666667e-05, + "loss": 0.0001, + "step": 2925 + }, + { + "epoch": 0.13111111111111112, + "grad_norm": 0.0031379444990307093, + "learning_rate": 2.1851851851851852e-05, + "loss": 0.0001, + "step": 2950 + }, + { + "epoch": 0.1322222222222222, + "grad_norm": 0.0014984890585765243, + "learning_rate": 2.2037037037037038e-05, + "loss": 0.0001, + "step": 2975 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 0.003085116855800152, + "learning_rate": 2.2222222222222223e-05, + "loss": 0.0001, + "step": 3000 + }, + { + "epoch": 0.13444444444444445, + "grad_norm": 0.0013790682423859835, + "learning_rate": 2.240740740740741e-05, + "loss": 0.0001, + "step": 3025 + }, + { + "epoch": 0.13555555555555557, + "grad_norm": 0.0013970975996926427, + "learning_rate": 2.2592592592592594e-05, + "loss": 0.0001, + "step": 3050 + }, + { + "epoch": 0.13666666666666666, + "grad_norm": 0.001308850129134953, + "learning_rate": 2.277777777777778e-05, + "loss": 0.0001, + "step": 3075 + }, + { + "epoch": 0.13777777777777778, + "grad_norm": 0.001676020328886807, + "learning_rate": 2.2962962962962965e-05, + "loss": 0.0001, + "step": 3100 + }, + { + "epoch": 0.1388888888888889, + "grad_norm": 0.0010640453547239304, + "learning_rate": 2.314814814814815e-05, + "loss": 0.0001, + "step": 3125 + }, + { + "epoch": 0.14, + "grad_norm": 0.0009444669121876359, + "learning_rate": 2.3333333333333336e-05, + "loss": 0.0001, + "step": 3150 + }, + { + "epoch": 0.1411111111111111, + "grad_norm": 0.0012150831753388047, + "learning_rate": 2.351851851851852e-05, + "loss": 0.0001, + "step": 3175 + }, + { + "epoch": 0.14222222222222222, + "grad_norm": 0.0009749003802426159, + "learning_rate": 2.3703703703703707e-05, + "loss": 0.0001, + "step": 3200 + }, + { + "epoch": 0.14333333333333334, + "grad_norm": 0.0011549906339496374, + "learning_rate": 2.3888888888888892e-05, + "loss": 0.0001, + "step": 3225 + }, + { + "epoch": 0.14444444444444443, + "grad_norm": 0.001151908072642982, + "learning_rate": 2.4074074074074074e-05, + "loss": 0.0001, + "step": 3250 + }, + { + "epoch": 0.14555555555555555, + "grad_norm": 0.004649221897125244, + "learning_rate": 2.425925925925926e-05, + "loss": 0.0001, + "step": 3275 + }, + { + "epoch": 0.14666666666666667, + "grad_norm": 0.0007568440050818026, + "learning_rate": 2.4444444444444445e-05, + "loss": 0.0001, + "step": 3300 + }, + { + "epoch": 0.14777777777777779, + "grad_norm": 0.0008917115046642721, + "learning_rate": 2.462962962962963e-05, + "loss": 0.0001, + "step": 3325 + }, + { + "epoch": 0.14888888888888888, + "grad_norm": 0.0015353616327047348, + "learning_rate": 2.4814814814814816e-05, + "loss": 0.0001, + "step": 3350 + }, + { + "epoch": 0.15, + "grad_norm": 0.0008757731411606073, + "learning_rate": 2.5e-05, + "loss": 0.0001, + "step": 3375 + }, + { + "epoch": 0.1511111111111111, + "grad_norm": 0.000737824768293649, + "learning_rate": 2.5185185185185183e-05, + "loss": 0.0001, + "step": 3400 + }, + { + "epoch": 0.15222222222222223, + "grad_norm": 0.0007458069012500346, + "learning_rate": 2.5370370370370372e-05, + "loss": 0.0001, + "step": 3425 + }, + { + "epoch": 0.15333333333333332, + "grad_norm": 0.0009020909201353788, + "learning_rate": 2.5555555555555554e-05, + "loss": 0.0, + "step": 3450 + }, + { + "epoch": 0.15444444444444444, + "grad_norm": 0.0007310903747566044, + "learning_rate": 2.5740740740740743e-05, + "loss": 0.0001, + "step": 3475 + }, + { + "epoch": 0.15555555555555556, + "grad_norm": 0.0008914655772969127, + "learning_rate": 2.5925925925925925e-05, + "loss": 0.0, + "step": 3500 + }, + { + "epoch": 0.15666666666666668, + "grad_norm": 0.0008292867569252849, + "learning_rate": 2.6111111111111114e-05, + "loss": 0.0001, + "step": 3525 + }, + { + "epoch": 0.15777777777777777, + "grad_norm": 0.0021750126034021378, + "learning_rate": 2.6296296296296296e-05, + "loss": 0.0, + "step": 3550 + }, + { + "epoch": 0.15888888888888889, + "grad_norm": 0.0011622071033343673, + "learning_rate": 2.6481481481481485e-05, + "loss": 0.0001, + "step": 3575 + }, + { + "epoch": 0.16, + "grad_norm": 0.0006495203706435859, + "learning_rate": 2.6666666666666667e-05, + "loss": 0.0, + "step": 3600 + }, + { + "epoch": 0.16111111111111112, + "grad_norm": 0.0005309400730766356, + "learning_rate": 2.6851851851851855e-05, + "loss": 0.0, + "step": 3625 + }, + { + "epoch": 0.1622222222222222, + "grad_norm": 0.0008517010719515383, + "learning_rate": 2.7037037037037037e-05, + "loss": 0.0, + "step": 3650 + }, + { + "epoch": 0.16333333333333333, + "grad_norm": 0.000685730017721653, + "learning_rate": 2.7222222222222223e-05, + "loss": 0.0, + "step": 3675 + }, + { + "epoch": 0.16444444444444445, + "grad_norm": 0.00043462106259539723, + "learning_rate": 2.7407407407407408e-05, + "loss": 0.0, + "step": 3700 + }, + { + "epoch": 0.16555555555555557, + "grad_norm": 0.0004385845095384866, + "learning_rate": 2.7592592592592594e-05, + "loss": 0.0, + "step": 3725 + }, + { + "epoch": 0.16666666666666666, + "grad_norm": 0.0009046380873769522, + "learning_rate": 2.777777777777778e-05, + "loss": 0.0, + "step": 3750 + }, + { + "epoch": 0.16777777777777778, + "grad_norm": 0.0005887980223633349, + "learning_rate": 2.7962962962962965e-05, + "loss": 0.0, + "step": 3775 + }, + { + "epoch": 0.1688888888888889, + "grad_norm": 0.00096166628645733, + "learning_rate": 2.814814814814815e-05, + "loss": 0.0, + "step": 3800 + }, + { + "epoch": 0.17, + "grad_norm": 0.0005950740305706859, + "learning_rate": 2.8333333333333335e-05, + "loss": 0.0, + "step": 3825 + }, + { + "epoch": 0.1711111111111111, + "grad_norm": 0.0003768298774957657, + "learning_rate": 2.851851851851852e-05, + "loss": 0.0, + "step": 3850 + }, + { + "epoch": 0.17222222222222222, + "grad_norm": 0.0007654073415324092, + "learning_rate": 2.8703703703703706e-05, + "loss": 0.0, + "step": 3875 + }, + { + "epoch": 0.17333333333333334, + "grad_norm": 0.00067830306943506, + "learning_rate": 2.8888888888888888e-05, + "loss": 0.0, + "step": 3900 + }, + { + "epoch": 0.17444444444444446, + "grad_norm": 0.0011235119309276342, + "learning_rate": 2.9074074074074077e-05, + "loss": 0.0, + "step": 3925 + }, + { + "epoch": 0.17555555555555555, + "grad_norm": 0.00033492891816422343, + "learning_rate": 2.925925925925926e-05, + "loss": 0.0, + "step": 3950 + }, + { + "epoch": 0.17666666666666667, + "grad_norm": 0.0005491938209161162, + "learning_rate": 2.9444444444444448e-05, + "loss": 0.0, + "step": 3975 + }, + { + "epoch": 0.17777777777777778, + "grad_norm": 0.0008462965488433838, + "learning_rate": 2.962962962962963e-05, + "loss": 0.0, + "step": 4000 + }, + { + "epoch": 0.17888888888888888, + "grad_norm": 0.0013159062946215272, + "learning_rate": 2.981481481481482e-05, + "loss": 0.0, + "step": 4025 + }, + { + "epoch": 0.18, + "grad_norm": 0.000479961367091164, + "learning_rate": 3e-05, + "loss": 0.0, + "step": 4050 + }, + { + "epoch": 0.1811111111111111, + "grad_norm": 0.0003816479875240475, + "learning_rate": 3.018518518518519e-05, + "loss": 0.0, + "step": 4075 + }, + { + "epoch": 0.18222222222222223, + "grad_norm": 0.0007520723738707602, + "learning_rate": 3.037037037037037e-05, + "loss": 0.0, + "step": 4100 + }, + { + "epoch": 0.18333333333333332, + "grad_norm": 0.0004789358645211905, + "learning_rate": 3.055555555555556e-05, + "loss": 0.0, + "step": 4125 + }, + { + "epoch": 0.18444444444444444, + "grad_norm": 0.00032780482433736324, + "learning_rate": 3.074074074074074e-05, + "loss": 0.0, + "step": 4150 + }, + { + "epoch": 0.18555555555555556, + "grad_norm": 0.0004786641802638769, + "learning_rate": 3.0925925925925924e-05, + "loss": 0.0, + "step": 4175 + }, + { + "epoch": 0.18666666666666668, + "grad_norm": 0.0019827070645987988, + "learning_rate": 3.111111111111111e-05, + "loss": 0.0, + "step": 4200 + }, + { + "epoch": 0.18777777777777777, + "grad_norm": 0.00040625614929012954, + "learning_rate": 3.1296296296296295e-05, + "loss": 0.0, + "step": 4225 + }, + { + "epoch": 0.18888888888888888, + "grad_norm": 0.00027543201576918364, + "learning_rate": 3.148148148148148e-05, + "loss": 0.0, + "step": 4250 + }, + { + "epoch": 0.19, + "grad_norm": 0.00037998484913259745, + "learning_rate": 3.1666666666666666e-05, + "loss": 0.0, + "step": 4275 + }, + { + "epoch": 0.19111111111111112, + "grad_norm": 0.0005028975429013371, + "learning_rate": 3.185185185185185e-05, + "loss": 0.0, + "step": 4300 + }, + { + "epoch": 0.1922222222222222, + "grad_norm": 0.00035194336669519544, + "learning_rate": 3.203703703703704e-05, + "loss": 0.0, + "step": 4325 + }, + { + "epoch": 0.19333333333333333, + "grad_norm": 0.0003673199680633843, + "learning_rate": 3.222222222222223e-05, + "loss": 0.0, + "step": 4350 + }, + { + "epoch": 0.19444444444444445, + "grad_norm": 0.0002665006322786212, + "learning_rate": 3.240740740740741e-05, + "loss": 0.0, + "step": 4375 + }, + { + "epoch": 0.19555555555555557, + "grad_norm": 0.0007432136335410178, + "learning_rate": 3.25925925925926e-05, + "loss": 0.0, + "step": 4400 + }, + { + "epoch": 0.19666666666666666, + "grad_norm": 0.0004914160817861557, + "learning_rate": 3.277777777777778e-05, + "loss": 0.0, + "step": 4425 + }, + { + "epoch": 0.19777777777777777, + "grad_norm": 0.00024397084780503064, + "learning_rate": 3.2962962962962964e-05, + "loss": 0.0, + "step": 4450 + }, + { + "epoch": 0.1988888888888889, + "grad_norm": 0.00029452514718286693, + "learning_rate": 3.314814814814815e-05, + "loss": 0.0, + "step": 4475 + }, + { + "epoch": 0.2, + "grad_norm": 0.000297211401630193, + "learning_rate": 3.3333333333333335e-05, + "loss": 0.0, + "step": 4500 + }, + { + "epoch": 0.2011111111111111, + "grad_norm": 0.00023153831716626883, + "learning_rate": 3.351851851851852e-05, + "loss": 0.0, + "step": 4525 + }, + { + "epoch": 0.20222222222222222, + "grad_norm": 0.00023439385404344648, + "learning_rate": 3.3703703703703706e-05, + "loss": 0.0, + "step": 4550 + }, + { + "epoch": 0.20333333333333334, + "grad_norm": 0.0003601511416491121, + "learning_rate": 3.388888888888889e-05, + "loss": 0.0, + "step": 4575 + }, + { + "epoch": 0.20444444444444446, + "grad_norm": 0.00034437543945387006, + "learning_rate": 3.4074074074074077e-05, + "loss": 0.0, + "step": 4600 + }, + { + "epoch": 0.20555555555555555, + "grad_norm": 0.00034353925730101764, + "learning_rate": 3.425925925925926e-05, + "loss": 0.0, + "step": 4625 + }, + { + "epoch": 0.20666666666666667, + "grad_norm": 0.0005792040028609335, + "learning_rate": 3.444444444444445e-05, + "loss": 0.0, + "step": 4650 + }, + { + "epoch": 0.20777777777777778, + "grad_norm": 0.0003140148473903537, + "learning_rate": 3.4629629629629626e-05, + "loss": 0.0, + "step": 4675 + }, + { + "epoch": 0.2088888888888889, + "grad_norm": 0.0003926446952391416, + "learning_rate": 3.481481481481482e-05, + "loss": 0.0, + "step": 4700 + }, + { + "epoch": 0.21, + "grad_norm": 0.0002806528646033257, + "learning_rate": 3.5e-05, + "loss": 0.0, + "step": 4725 + }, + { + "epoch": 0.2111111111111111, + "grad_norm": 0.00017912751354742795, + "learning_rate": 3.518518518518519e-05, + "loss": 0.0, + "step": 4750 + }, + { + "epoch": 0.21222222222222223, + "grad_norm": 0.0001631277409614995, + "learning_rate": 3.537037037037037e-05, + "loss": 0.0, + "step": 4775 + }, + { + "epoch": 0.21333333333333335, + "grad_norm": 0.0005713306018151343, + "learning_rate": 3.555555555555556e-05, + "loss": 0.0, + "step": 4800 + }, + { + "epoch": 0.21444444444444444, + "grad_norm": 0.0001333543477812782, + "learning_rate": 3.574074074074074e-05, + "loss": 0.0, + "step": 4825 + }, + { + "epoch": 0.21555555555555556, + "grad_norm": 0.0008553456864319742, + "learning_rate": 3.592592592592593e-05, + "loss": 0.0, + "step": 4850 + }, + { + "epoch": 0.21666666666666667, + "grad_norm": 0.00020327905076555908, + "learning_rate": 3.611111111111111e-05, + "loss": 0.0, + "step": 4875 + }, + { + "epoch": 0.21777777777777776, + "grad_norm": 0.00013671640772372484, + "learning_rate": 3.62962962962963e-05, + "loss": 0.0, + "step": 4900 + }, + { + "epoch": 0.21888888888888888, + "grad_norm": 0.00018920267757494003, + "learning_rate": 3.648148148148148e-05, + "loss": 0.0, + "step": 4925 + }, + { + "epoch": 0.22, + "grad_norm": 0.00039989870856516063, + "learning_rate": 3.6666666666666666e-05, + "loss": 0.0, + "step": 4950 + }, + { + "epoch": 0.22111111111111112, + "grad_norm": 0.0003007302584592253, + "learning_rate": 3.685185185185185e-05, + "loss": 0.0, + "step": 4975 + }, + { + "epoch": 0.2222222222222222, + "grad_norm": 0.0007603640551678836, + "learning_rate": 3.7037037037037037e-05, + "loss": 0.0, + "step": 5000 + }, + { + "epoch": 0.22333333333333333, + "grad_norm": 0.00015610907576046884, + "learning_rate": 3.722222222222222e-05, + "loss": 0.0, + "step": 5025 + }, + { + "epoch": 0.22444444444444445, + "grad_norm": 0.00019231459009461105, + "learning_rate": 3.740740740740741e-05, + "loss": 0.0, + "step": 5050 + }, + { + "epoch": 0.22555555555555556, + "grad_norm": 0.0003146059170830995, + "learning_rate": 3.759259259259259e-05, + "loss": 0.0, + "step": 5075 + }, + { + "epoch": 0.22666666666666666, + "grad_norm": 0.00013795519771520048, + "learning_rate": 3.777777777777778e-05, + "loss": 0.0, + "step": 5100 + }, + { + "epoch": 0.22777777777777777, + "grad_norm": 0.00015872673247940838, + "learning_rate": 3.7962962962962964e-05, + "loss": 0.0, + "step": 5125 + }, + { + "epoch": 0.2288888888888889, + "grad_norm": 0.0001416594022884965, + "learning_rate": 3.814814814814815e-05, + "loss": 0.0, + "step": 5150 + }, + { + "epoch": 0.23, + "grad_norm": 0.0001443991350242868, + "learning_rate": 3.8333333333333334e-05, + "loss": 0.0, + "step": 5175 + }, + { + "epoch": 0.2311111111111111, + "grad_norm": 0.0002540118002798408, + "learning_rate": 3.851851851851852e-05, + "loss": 0.0, + "step": 5200 + }, + { + "epoch": 0.23222222222222222, + "grad_norm": 0.0003876437258441001, + "learning_rate": 3.8703703703703705e-05, + "loss": 0.0, + "step": 5225 + }, + { + "epoch": 0.23333333333333334, + "grad_norm": 0.00018251290020998567, + "learning_rate": 3.888888888888889e-05, + "loss": 0.0, + "step": 5250 + }, + { + "epoch": 0.23444444444444446, + "grad_norm": 0.00016606478311587125, + "learning_rate": 3.9074074074074076e-05, + "loss": 0.0, + "step": 5275 + }, + { + "epoch": 0.23555555555555555, + "grad_norm": 0.00022203841945156455, + "learning_rate": 3.925925925925926e-05, + "loss": 0.0, + "step": 5300 + }, + { + "epoch": 0.23666666666666666, + "grad_norm": 0.00011153859668411314, + "learning_rate": 3.944444444444445e-05, + "loss": 0.0, + "step": 5325 + }, + { + "epoch": 0.23777777777777778, + "grad_norm": 0.0001974932529265061, + "learning_rate": 3.962962962962963e-05, + "loss": 0.0, + "step": 5350 + }, + { + "epoch": 0.2388888888888889, + "grad_norm": 0.00015782282571308315, + "learning_rate": 3.981481481481482e-05, + "loss": 0.0, + "step": 5375 + }, + { + "epoch": 0.24, + "grad_norm": 0.00018851501226890832, + "learning_rate": 4e-05, + "loss": 0.0, + "step": 5400 + }, + { + "epoch": 0.2411111111111111, + "grad_norm": 0.00011722772615030408, + "learning_rate": 4.018518518518519e-05, + "loss": 0.0, + "step": 5425 + }, + { + "epoch": 0.24222222222222223, + "grad_norm": 7.547857967438176e-05, + "learning_rate": 4.0370370370370374e-05, + "loss": 0.0, + "step": 5450 + }, + { + "epoch": 0.24333333333333335, + "grad_norm": 0.0001248365588253364, + "learning_rate": 4.055555555555556e-05, + "loss": 0.0, + "step": 5475 + }, + { + "epoch": 0.24444444444444444, + "grad_norm": 0.00011660916788969189, + "learning_rate": 4.074074074074074e-05, + "loss": 0.0, + "step": 5500 + }, + { + "epoch": 0.24555555555555555, + "grad_norm": 0.00015094850095920265, + "learning_rate": 4.092592592592593e-05, + "loss": 0.0, + "step": 5525 + }, + { + "epoch": 0.24666666666666667, + "grad_norm": 0.00011476501822471619, + "learning_rate": 4.111111111111111e-05, + "loss": 0.0, + "step": 5550 + }, + { + "epoch": 0.2477777777777778, + "grad_norm": 0.00010171511530643329, + "learning_rate": 4.12962962962963e-05, + "loss": 0.0, + "step": 5575 + }, + { + "epoch": 0.24888888888888888, + "grad_norm": 0.00010743678285507485, + "learning_rate": 4.148148148148148e-05, + "loss": 0.0, + "step": 5600 + }, + { + "epoch": 0.25, + "grad_norm": 6.62771490169689e-05, + "learning_rate": 4.166666666666667e-05, + "loss": 0.0, + "step": 5625 + }, + { + "epoch": 0.2511111111111111, + "grad_norm": 6.39555073576048e-05, + "learning_rate": 4.185185185185185e-05, + "loss": 0.0, + "step": 5650 + }, + { + "epoch": 0.25222222222222224, + "grad_norm": 8.671484101796523e-05, + "learning_rate": 4.203703703703704e-05, + "loss": 0.0, + "step": 5675 + }, + { + "epoch": 0.25333333333333335, + "grad_norm": 0.00010279325215378776, + "learning_rate": 4.222222222222222e-05, + "loss": 0.0, + "step": 5700 + }, + { + "epoch": 0.2544444444444444, + "grad_norm": 0.0001341535389656201, + "learning_rate": 4.240740740740741e-05, + "loss": 0.0, + "step": 5725 + }, + { + "epoch": 0.25555555555555554, + "grad_norm": 0.0001001319833449088, + "learning_rate": 4.259259259259259e-05, + "loss": 0.0, + "step": 5750 + }, + { + "epoch": 0.25666666666666665, + "grad_norm": 8.330161654157564e-05, + "learning_rate": 4.277777777777778e-05, + "loss": 0.0, + "step": 5775 + }, + { + "epoch": 0.2577777777777778, + "grad_norm": 0.0003465347981546074, + "learning_rate": 4.296296296296296e-05, + "loss": 0.0, + "step": 5800 + }, + { + "epoch": 0.2588888888888889, + "grad_norm": 9.529511589789763e-05, + "learning_rate": 4.314814814814815e-05, + "loss": 0.0, + "step": 5825 + }, + { + "epoch": 0.26, + "grad_norm": 5.540845813811757e-05, + "learning_rate": 4.3333333333333334e-05, + "loss": 0.0, + "step": 5850 + }, + { + "epoch": 0.2611111111111111, + "grad_norm": 0.00013780576409772038, + "learning_rate": 4.351851851851852e-05, + "loss": 0.0, + "step": 5875 + }, + { + "epoch": 0.26222222222222225, + "grad_norm": 9.906753257382661e-05, + "learning_rate": 4.3703703703703705e-05, + "loss": 0.0, + "step": 5900 + }, + { + "epoch": 0.2633333333333333, + "grad_norm": 0.00010535182809690014, + "learning_rate": 4.388888888888889e-05, + "loss": 0.0, + "step": 5925 + }, + { + "epoch": 0.2644444444444444, + "grad_norm": 4.6930141252232715e-05, + "learning_rate": 4.4074074074074076e-05, + "loss": 0.0, + "step": 5950 + }, + { + "epoch": 0.26555555555555554, + "grad_norm": 7.371820538537577e-05, + "learning_rate": 4.425925925925926e-05, + "loss": 0.0, + "step": 5975 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 8.29477867227979e-05, + "learning_rate": 4.4444444444444447e-05, + "loss": 0.0, + "step": 6000 + }, + { + "epoch": 0.2677777777777778, + "grad_norm": 0.00028537207981571555, + "learning_rate": 4.4622222222222226e-05, + "loss": 0.0, + "step": 6025 + }, + { + "epoch": 0.2688888888888889, + "grad_norm": 3.685216142912395e-05, + "learning_rate": 4.480740740740741e-05, + "loss": 0.0, + "step": 6050 + }, + { + "epoch": 0.27, + "grad_norm": 6.191804277477786e-05, + "learning_rate": 4.4992592592592597e-05, + "loss": 0.0, + "step": 6075 + }, + { + "epoch": 0.27111111111111114, + "grad_norm": 5.743051951867528e-05, + "learning_rate": 4.517777777777778e-05, + "loss": 0.0, + "step": 6100 + }, + { + "epoch": 0.2722222222222222, + "grad_norm": 8.179164433386177e-05, + "learning_rate": 4.536296296296296e-05, + "loss": 0.0, + "step": 6125 + }, + { + "epoch": 0.2733333333333333, + "grad_norm": 0.00013445696095004678, + "learning_rate": 4.554814814814815e-05, + "loss": 0.0, + "step": 6150 + }, + { + "epoch": 0.27444444444444444, + "grad_norm": 6.727175059495494e-05, + "learning_rate": 4.573333333333333e-05, + "loss": 0.0, + "step": 6175 + }, + { + "epoch": 0.27555555555555555, + "grad_norm": 0.00010029695113189518, + "learning_rate": 4.5918518518518524e-05, + "loss": 0.0, + "step": 6200 + }, + { + "epoch": 0.27666666666666667, + "grad_norm": 8.836417691782117e-05, + "learning_rate": 4.61037037037037e-05, + "loss": 0.0, + "step": 6225 + }, + { + "epoch": 0.2777777777777778, + "grad_norm": 8.15212624729611e-05, + "learning_rate": 4.6288888888888894e-05, + "loss": 0.0, + "step": 6250 + }, + { + "epoch": 0.2788888888888889, + "grad_norm": 7.330432708840817e-05, + "learning_rate": 4.647407407407407e-05, + "loss": 0.0, + "step": 6275 + }, + { + "epoch": 0.28, + "grad_norm": 5.043514829594642e-05, + "learning_rate": 4.6659259259259265e-05, + "loss": 0.0, + "step": 6300 + }, + { + "epoch": 0.2811111111111111, + "grad_norm": 4.743515819427557e-05, + "learning_rate": 4.6844444444444444e-05, + "loss": 0.0, + "step": 6325 + }, + { + "epoch": 0.2822222222222222, + "grad_norm": 8.319742482854053e-05, + "learning_rate": 4.7029629629629636e-05, + "loss": 0.0, + "step": 6350 + }, + { + "epoch": 0.2833333333333333, + "grad_norm": 8.122144936351106e-05, + "learning_rate": 4.7214814814814815e-05, + "loss": 0.0, + "step": 6375 + }, + { + "epoch": 0.28444444444444444, + "grad_norm": 4.8509180487599224e-05, + "learning_rate": 4.74e-05, + "loss": 0.0, + "step": 6400 + }, + { + "epoch": 0.28555555555555556, + "grad_norm": 0.00010799942538142204, + "learning_rate": 4.7585185185185186e-05, + "loss": 0.0, + "step": 6425 + }, + { + "epoch": 0.2866666666666667, + "grad_norm": 7.794015982653946e-05, + "learning_rate": 4.777037037037037e-05, + "loss": 0.0, + "step": 6450 + }, + { + "epoch": 0.2877777777777778, + "grad_norm": 3.870702857966535e-05, + "learning_rate": 4.7955555555555556e-05, + "loss": 0.0, + "step": 6475 + }, + { + "epoch": 0.28888888888888886, + "grad_norm": 0.000109027125290595, + "learning_rate": 4.814074074074074e-05, + "loss": 0.0, + "step": 6500 + }, + { + "epoch": 0.29, + "grad_norm": 3.4669723390834406e-05, + "learning_rate": 4.832592592592593e-05, + "loss": 0.0, + "step": 6525 + }, + { + "epoch": 0.2911111111111111, + "grad_norm": 3.9730432035867125e-05, + "learning_rate": 4.851111111111111e-05, + "loss": 0.0, + "step": 6550 + }, + { + "epoch": 0.2922222222222222, + "grad_norm": 4.72697829536628e-05, + "learning_rate": 4.86962962962963e-05, + "loss": 0.0, + "step": 6575 + }, + { + "epoch": 0.29333333333333333, + "grad_norm": 0.00010319456487195566, + "learning_rate": 4.8881481481481484e-05, + "loss": 0.0, + "step": 6600 + }, + { + "epoch": 0.29444444444444445, + "grad_norm": 7.106039993232116e-05, + "learning_rate": 4.906666666666667e-05, + "loss": 0.0, + "step": 6625 + }, + { + "epoch": 0.29555555555555557, + "grad_norm": 2.4379643946303986e-05, + "learning_rate": 4.9251851851851854e-05, + "loss": 0.0, + "step": 6650 + }, + { + "epoch": 0.2966666666666667, + "grad_norm": 2.510284866730217e-05, + "learning_rate": 4.943703703703704e-05, + "loss": 0.0, + "step": 6675 + }, + { + "epoch": 0.29777777777777775, + "grad_norm": 0.0001372645201627165, + "learning_rate": 4.9622222222222225e-05, + "loss": 0.0, + "step": 6700 + }, + { + "epoch": 0.29888888888888887, + "grad_norm": 3.705649578478187e-05, + "learning_rate": 4.980740740740741e-05, + "loss": 0.0, + "step": 6725 + }, + { + "epoch": 0.3, + "grad_norm": 8.572530350647867e-05, + "learning_rate": 4.9992592592592596e-05, + "loss": 0.0, + "step": 6750 + }, + { + "epoch": 0.3011111111111111, + "grad_norm": 5.453641642816365e-05, + "learning_rate": 4.9980246913580245e-05, + "loss": 0.0, + "step": 6775 + }, + { + "epoch": 0.3022222222222222, + "grad_norm": 3.7285870348569006e-05, + "learning_rate": 4.995967078189301e-05, + "loss": 0.0, + "step": 6800 + }, + { + "epoch": 0.30333333333333334, + "grad_norm": 4.604971763910726e-05, + "learning_rate": 4.993909465020576e-05, + "loss": 0.0, + "step": 6825 + }, + { + "epoch": 0.30444444444444446, + "grad_norm": 5.983166192891076e-05, + "learning_rate": 4.991851851851852e-05, + "loss": 0.0, + "step": 6850 + }, + { + "epoch": 0.3055555555555556, + "grad_norm": 3.90316745324526e-05, + "learning_rate": 4.989794238683128e-05, + "loss": 0.0, + "step": 6875 + }, + { + "epoch": 0.30666666666666664, + "grad_norm": 2.535378916945774e-05, + "learning_rate": 4.9877366255144035e-05, + "loss": 0.0, + "step": 6900 + }, + { + "epoch": 0.30777777777777776, + "grad_norm": 0.00014265246863942593, + "learning_rate": 4.985679012345679e-05, + "loss": 0.0, + "step": 6925 + }, + { + "epoch": 0.3088888888888889, + "grad_norm": 5.419486842583865e-05, + "learning_rate": 4.983621399176955e-05, + "loss": 0.0, + "step": 6950 + }, + { + "epoch": 0.31, + "grad_norm": 3.310285319457762e-05, + "learning_rate": 4.981563786008231e-05, + "loss": 0.0, + "step": 6975 + }, + { + "epoch": 0.3111111111111111, + "grad_norm": 2.3122955099097453e-05, + "learning_rate": 4.979506172839507e-05, + "loss": 0.0, + "step": 7000 + }, + { + "epoch": 0.31222222222222223, + "grad_norm": 2.0926969227730297e-05, + "learning_rate": 4.977448559670782e-05, + "loss": 0.0, + "step": 7025 + }, + { + "epoch": 0.31333333333333335, + "grad_norm": 3.0121851523290388e-05, + "learning_rate": 4.9753909465020576e-05, + "loss": 0.0, + "step": 7050 + }, + { + "epoch": 0.31444444444444447, + "grad_norm": 2.6248262656736188e-05, + "learning_rate": 4.973333333333334e-05, + "loss": 0.0, + "step": 7075 + }, + { + "epoch": 0.31555555555555553, + "grad_norm": 0.00011922627163585275, + "learning_rate": 4.971275720164609e-05, + "loss": 0.0, + "step": 7100 + }, + { + "epoch": 0.31666666666666665, + "grad_norm": 3.880875010509044e-05, + "learning_rate": 4.969218106995885e-05, + "loss": 0.0, + "step": 7125 + }, + { + "epoch": 0.31777777777777777, + "grad_norm": 5.0680566346272826e-05, + "learning_rate": 4.967160493827161e-05, + "loss": 0.0, + "step": 7150 + }, + { + "epoch": 0.3188888888888889, + "grad_norm": 6.177511386340484e-05, + "learning_rate": 4.9651028806584365e-05, + "loss": 0.0, + "step": 7175 + }, + { + "epoch": 0.32, + "grad_norm": 6.085685163270682e-05, + "learning_rate": 4.9630452674897123e-05, + "loss": 0.0, + "step": 7200 + }, + { + "epoch": 0.3211111111111111, + "grad_norm": 2.860545282601379e-05, + "learning_rate": 4.9609876543209875e-05, + "loss": 0.0, + "step": 7225 + }, + { + "epoch": 0.32222222222222224, + "grad_norm": 1.4948897842259612e-05, + "learning_rate": 4.958930041152264e-05, + "loss": 0.0, + "step": 7250 + }, + { + "epoch": 0.3233333333333333, + "grad_norm": 1.2760516256093979e-05, + "learning_rate": 4.956872427983539e-05, + "loss": 0.0, + "step": 7275 + }, + { + "epoch": 0.3244444444444444, + "grad_norm": 4.602913395501673e-05, + "learning_rate": 4.954814814814815e-05, + "loss": 0.0, + "step": 7300 + }, + { + "epoch": 0.32555555555555554, + "grad_norm": 3.330594699946232e-05, + "learning_rate": 4.952757201646091e-05, + "loss": 0.0, + "step": 7325 + }, + { + "epoch": 0.32666666666666666, + "grad_norm": 3.1269803002942353e-05, + "learning_rate": 4.9506995884773664e-05, + "loss": 0.0, + "step": 7350 + }, + { + "epoch": 0.3277777777777778, + "grad_norm": 2.0696214050985873e-05, + "learning_rate": 4.948641975308642e-05, + "loss": 0.0, + "step": 7375 + }, + { + "epoch": 0.3288888888888889, + "grad_norm": 4.611088297679089e-05, + "learning_rate": 4.946584362139918e-05, + "loss": 0.0, + "step": 7400 + }, + { + "epoch": 0.33, + "grad_norm": 5.298698670230806e-05, + "learning_rate": 4.944526748971194e-05, + "loss": 0.0, + "step": 7425 + }, + { + "epoch": 0.33111111111111113, + "grad_norm": 4.6458000724669546e-05, + "learning_rate": 4.9424691358024696e-05, + "loss": 0.0, + "step": 7450 + }, + { + "epoch": 0.3322222222222222, + "grad_norm": 6.937633588677272e-05, + "learning_rate": 4.940411522633745e-05, + "loss": 0.0, + "step": 7475 + }, + { + "epoch": 0.3333333333333333, + "grad_norm": 7.97714528744109e-05, + "learning_rate": 4.938353909465021e-05, + "loss": 0.0, + "step": 7500 + }, + { + "epoch": 0.33444444444444443, + "grad_norm": 1.6251618944806978e-05, + "learning_rate": 4.936296296296297e-05, + "loss": 0.0, + "step": 7525 + }, + { + "epoch": 0.33555555555555555, + "grad_norm": 2.559417589509394e-05, + "learning_rate": 4.934238683127572e-05, + "loss": 0.0, + "step": 7550 + }, + { + "epoch": 0.33666666666666667, + "grad_norm": 3.42002822435461e-05, + "learning_rate": 4.932181069958848e-05, + "loss": 0.0, + "step": 7575 + }, + { + "epoch": 0.3377777777777778, + "grad_norm": 3.932703475584276e-05, + "learning_rate": 4.930123456790124e-05, + "loss": 0.0, + "step": 7600 + }, + { + "epoch": 0.3388888888888889, + "grad_norm": 5.888443047297187e-05, + "learning_rate": 4.9280658436213995e-05, + "loss": 0.0, + "step": 7625 + }, + { + "epoch": 0.34, + "grad_norm": 0.00010892499994952232, + "learning_rate": 4.926008230452675e-05, + "loss": 0.0, + "step": 7650 + }, + { + "epoch": 0.3411111111111111, + "grad_norm": 1.6265807062154636e-05, + "learning_rate": 4.923950617283951e-05, + "loss": 0.0, + "step": 7675 + }, + { + "epoch": 0.3422222222222222, + "grad_norm": 1.1056032235501334e-05, + "learning_rate": 4.921893004115227e-05, + "loss": 0.0, + "step": 7700 + }, + { + "epoch": 0.3433333333333333, + "grad_norm": 4.702447768067941e-05, + "learning_rate": 4.919835390946502e-05, + "loss": 0.0, + "step": 7725 + }, + { + "epoch": 0.34444444444444444, + "grad_norm": 4.50071383966133e-05, + "learning_rate": 4.917777777777778e-05, + "loss": 0.0, + "step": 7750 + }, + { + "epoch": 0.34555555555555556, + "grad_norm": 2.100879282807e-05, + "learning_rate": 4.915720164609054e-05, + "loss": 0.0, + "step": 7775 + }, + { + "epoch": 0.3466666666666667, + "grad_norm": 1.837060335674323e-05, + "learning_rate": 4.913662551440329e-05, + "loss": 0.0, + "step": 7800 + }, + { + "epoch": 0.3477777777777778, + "grad_norm": 1.6995354599202983e-05, + "learning_rate": 4.911604938271605e-05, + "loss": 0.0, + "step": 7825 + }, + { + "epoch": 0.3488888888888889, + "grad_norm": 3.332683627377264e-05, + "learning_rate": 4.909547325102881e-05, + "loss": 0.0, + "step": 7850 + }, + { + "epoch": 0.35, + "grad_norm": 2.1957508579362184e-05, + "learning_rate": 4.907489711934157e-05, + "loss": 0.0, + "step": 7875 + }, + { + "epoch": 0.3511111111111111, + "grad_norm": 1.9631053874036297e-05, + "learning_rate": 4.9054320987654325e-05, + "loss": 0.0, + "step": 7900 + }, + { + "epoch": 0.3522222222222222, + "grad_norm": 3.14349599648267e-05, + "learning_rate": 4.9033744855967076e-05, + "loss": 0.0, + "step": 7925 + }, + { + "epoch": 0.35333333333333333, + "grad_norm": 1.1541296771611087e-05, + "learning_rate": 4.901316872427984e-05, + "loss": 0.0, + "step": 7950 + }, + { + "epoch": 0.35444444444444445, + "grad_norm": 2.1934287360636517e-05, + "learning_rate": 4.89925925925926e-05, + "loss": 0.0, + "step": 7975 + }, + { + "epoch": 0.35555555555555557, + "grad_norm": 1.2293928193685133e-05, + "learning_rate": 4.897201646090535e-05, + "loss": 0.0, + "step": 8000 + }, + { + "epoch": 0.3566666666666667, + "grad_norm": 1.0795234629767947e-05, + "learning_rate": 4.895226337448559e-05, + "loss": 0.0, + "step": 8025 + }, + { + "epoch": 0.35777777777777775, + "grad_norm": 2.3934106138767675e-05, + "learning_rate": 4.893168724279836e-05, + "loss": 0.0, + "step": 8050 + }, + { + "epoch": 0.35888888888888887, + "grad_norm": 1.9683931895997375e-05, + "learning_rate": 4.8911111111111116e-05, + "loss": 0.0, + "step": 8075 + }, + { + "epoch": 0.36, + "grad_norm": 6.1004302551737055e-05, + "learning_rate": 4.889053497942387e-05, + "loss": 0.0, + "step": 8100 + }, + { + "epoch": 0.3611111111111111, + "grad_norm": 2.0431874872883782e-05, + "learning_rate": 4.886995884773663e-05, + "loss": 0.0, + "step": 8125 + }, + { + "epoch": 0.3622222222222222, + "grad_norm": 1.7730289982864633e-05, + "learning_rate": 4.884938271604938e-05, + "loss": 0.0, + "step": 8150 + }, + { + "epoch": 0.36333333333333334, + "grad_norm": 2.703631980693899e-05, + "learning_rate": 4.882880658436214e-05, + "loss": 0.0, + "step": 8175 + }, + { + "epoch": 0.36444444444444446, + "grad_norm": 2.2555481336894445e-05, + "learning_rate": 4.88082304526749e-05, + "loss": 0.0, + "step": 8200 + }, + { + "epoch": 0.3655555555555556, + "grad_norm": 1.1205183909623884e-05, + "learning_rate": 4.8787654320987656e-05, + "loss": 0.0, + "step": 8225 + }, + { + "epoch": 0.36666666666666664, + "grad_norm": 1.0110710718436167e-05, + "learning_rate": 4.8767078189300414e-05, + "loss": 0.0, + "step": 8250 + }, + { + "epoch": 0.36777777777777776, + "grad_norm": 2.4590701286797412e-05, + "learning_rate": 4.874650205761317e-05, + "loss": 0.0, + "step": 8275 + }, + { + "epoch": 0.3688888888888889, + "grad_norm": 1.2190839697723277e-05, + "learning_rate": 4.872592592592593e-05, + "loss": 0.0, + "step": 8300 + }, + { + "epoch": 0.37, + "grad_norm": 1.2320124369580299e-05, + "learning_rate": 4.870534979423869e-05, + "loss": 0.0, + "step": 8325 + }, + { + "epoch": 0.3711111111111111, + "grad_norm": 1.392321428284049e-05, + "learning_rate": 4.868477366255144e-05, + "loss": 0.0, + "step": 8350 + }, + { + "epoch": 0.37222222222222223, + "grad_norm": 1.2961753782292362e-05, + "learning_rate": 4.86641975308642e-05, + "loss": 0.0, + "step": 8375 + }, + { + "epoch": 0.37333333333333335, + "grad_norm": 2.613424658193253e-05, + "learning_rate": 4.8643621399176955e-05, + "loss": 0.0, + "step": 8400 + }, + { + "epoch": 0.37444444444444447, + "grad_norm": 1.7888192815007642e-05, + "learning_rate": 4.862304526748971e-05, + "loss": 0.0, + "step": 8425 + }, + { + "epoch": 0.37555555555555553, + "grad_norm": 8.296377018268686e-06, + "learning_rate": 4.860246913580247e-05, + "loss": 0.0, + "step": 8450 + }, + { + "epoch": 0.37666666666666665, + "grad_norm": 1.1116044333903119e-05, + "learning_rate": 4.858189300411523e-05, + "loss": 0.0, + "step": 8475 + }, + { + "epoch": 0.37777777777777777, + "grad_norm": 2.385837069596164e-05, + "learning_rate": 4.856131687242799e-05, + "loss": 0.0, + "step": 8500 + }, + { + "epoch": 0.3788888888888889, + "grad_norm": 1.2518356015789323e-05, + "learning_rate": 4.8540740740740745e-05, + "loss": 0.0, + "step": 8525 + }, + { + "epoch": 0.38, + "grad_norm": 1.0318779459339567e-05, + "learning_rate": 4.8520164609053496e-05, + "loss": 0.0, + "step": 8550 + }, + { + "epoch": 0.3811111111111111, + "grad_norm": 8.46498369355686e-06, + "learning_rate": 4.849958847736626e-05, + "loss": 0.0, + "step": 8575 + }, + { + "epoch": 0.38222222222222224, + "grad_norm": 1.2571003935590852e-05, + "learning_rate": 4.847901234567901e-05, + "loss": 0.0, + "step": 8600 + }, + { + "epoch": 0.38333333333333336, + "grad_norm": 4.400196303322446e-06, + "learning_rate": 4.845843621399177e-05, + "loss": 0.0, + "step": 8625 + }, + { + "epoch": 0.3844444444444444, + "grad_norm": 1.4428655049414374e-05, + "learning_rate": 4.8437860082304534e-05, + "loss": 0.0, + "step": 8650 + }, + { + "epoch": 0.38555555555555554, + "grad_norm": 1.6312709703925066e-05, + "learning_rate": 4.8417283950617286e-05, + "loss": 0.0, + "step": 8675 + }, + { + "epoch": 0.38666666666666666, + "grad_norm": 5.266796506475657e-06, + "learning_rate": 4.8396707818930044e-05, + "loss": 0.0, + "step": 8700 + }, + { + "epoch": 0.3877777777777778, + "grad_norm": 1.8769829694065265e-05, + "learning_rate": 4.83761316872428e-05, + "loss": 0.0, + "step": 8725 + }, + { + "epoch": 0.3888888888888889, + "grad_norm": 3.125673902104609e-05, + "learning_rate": 4.835555555555556e-05, + "loss": 0.0, + "step": 8750 + }, + { + "epoch": 0.39, + "grad_norm": 1.5230973076540977e-05, + "learning_rate": 4.833497942386832e-05, + "loss": 0.0, + "step": 8775 + }, + { + "epoch": 0.39111111111111113, + "grad_norm": 6.782939635741059e-06, + "learning_rate": 4.831440329218107e-05, + "loss": 0.0, + "step": 8800 + }, + { + "epoch": 0.39222222222222225, + "grad_norm": 1.4727511370438151e-05, + "learning_rate": 4.829382716049383e-05, + "loss": 0.0, + "step": 8825 + }, + { + "epoch": 0.3933333333333333, + "grad_norm": 9.455272447667085e-06, + "learning_rate": 4.8273251028806584e-05, + "loss": 0.0, + "step": 8850 + }, + { + "epoch": 0.39444444444444443, + "grad_norm": 7.378663212875836e-06, + "learning_rate": 4.825267489711934e-05, + "loss": 0.0, + "step": 8875 + }, + { + "epoch": 0.39555555555555555, + "grad_norm": 3.036719499505125e-05, + "learning_rate": 4.82320987654321e-05, + "loss": 0.0, + "step": 8900 + }, + { + "epoch": 0.39666666666666667, + "grad_norm": 1.205599164677551e-05, + "learning_rate": 4.821152263374486e-05, + "loss": 0.0, + "step": 8925 + }, + { + "epoch": 0.3977777777777778, + "grad_norm": 3.439577267272398e-05, + "learning_rate": 4.8190946502057616e-05, + "loss": 0.0, + "step": 8950 + }, + { + "epoch": 0.3988888888888889, + "grad_norm": 9.072386092157103e-06, + "learning_rate": 4.8170370370370374e-05, + "loss": 0.0, + "step": 8975 + }, + { + "epoch": 0.4, + "grad_norm": 1.1350827662681695e-05, + "learning_rate": 4.814979423868313e-05, + "loss": 0.0, + "step": 9000 + }, + { + "epoch": 0.4011111111111111, + "grad_norm": 1.7779731933842413e-05, + "learning_rate": 4.812921810699589e-05, + "loss": 0.0, + "step": 9025 + }, + { + "epoch": 0.4022222222222222, + "grad_norm": 6.806418241467327e-06, + "learning_rate": 4.810864197530864e-05, + "loss": 0.0, + "step": 9050 + }, + { + "epoch": 0.4033333333333333, + "grad_norm": 6.863742783025373e-06, + "learning_rate": 4.80880658436214e-05, + "loss": 0.0, + "step": 9075 + }, + { + "epoch": 0.40444444444444444, + "grad_norm": 1.1203325811948162e-05, + "learning_rate": 4.8067489711934164e-05, + "loss": 0.0, + "step": 9100 + }, + { + "epoch": 0.40555555555555556, + "grad_norm": 1.904854980239179e-05, + "learning_rate": 4.8046913580246915e-05, + "loss": 0.0, + "step": 9125 + }, + { + "epoch": 0.4066666666666667, + "grad_norm": 2.202028554165736e-05, + "learning_rate": 4.802633744855967e-05, + "loss": 0.0, + "step": 9150 + }, + { + "epoch": 0.4077777777777778, + "grad_norm": 4.742762484966079e-06, + "learning_rate": 4.800576131687243e-05, + "loss": 0.0, + "step": 9175 + }, + { + "epoch": 0.4088888888888889, + "grad_norm": 6.805426892242394e-06, + "learning_rate": 4.798518518518519e-05, + "loss": 0.0, + "step": 9200 + }, + { + "epoch": 0.41, + "grad_norm": 8.710866495675873e-06, + "learning_rate": 4.7964609053497946e-05, + "loss": 0.0, + "step": 9225 + }, + { + "epoch": 0.4111111111111111, + "grad_norm": 4.461071512196213e-06, + "learning_rate": 4.79440329218107e-05, + "loss": 0.0, + "step": 9250 + }, + { + "epoch": 0.4122222222222222, + "grad_norm": 1.6042451534303837e-05, + "learning_rate": 4.792345679012346e-05, + "loss": 0.0, + "step": 9275 + }, + { + "epoch": 0.41333333333333333, + "grad_norm": 9.189521733787842e-06, + "learning_rate": 4.7902880658436213e-05, + "loss": 0.0, + "step": 9300 + }, + { + "epoch": 0.41444444444444445, + "grad_norm": 6.1904538597445935e-06, + "learning_rate": 4.788230452674897e-05, + "loss": 0.0, + "step": 9325 + }, + { + "epoch": 0.41555555555555557, + "grad_norm": 3.749845973288757e-06, + "learning_rate": 4.7861728395061736e-05, + "loss": 0.0, + "step": 9350 + }, + { + "epoch": 0.4166666666666667, + "grad_norm": 7.75433818489546e-06, + "learning_rate": 4.784115226337449e-05, + "loss": 0.0, + "step": 9375 + }, + { + "epoch": 0.4177777777777778, + "grad_norm": 6.6034099290845916e-06, + "learning_rate": 4.7820576131687245e-05, + "loss": 0.0, + "step": 9400 + }, + { + "epoch": 0.41888888888888887, + "grad_norm": 4.569227257888997e-06, + "learning_rate": 4.78e-05, + "loss": 0.0, + "step": 9425 + }, + { + "epoch": 0.42, + "grad_norm": 7.362362339335959e-06, + "learning_rate": 4.777942386831276e-05, + "loss": 0.0, + "step": 9450 + }, + { + "epoch": 0.4211111111111111, + "grad_norm": 5.023977792006917e-06, + "learning_rate": 4.775884773662552e-05, + "loss": 0.0, + "step": 9475 + }, + { + "epoch": 0.4222222222222222, + "grad_norm": 7.216946869448293e-06, + "learning_rate": 4.773827160493827e-05, + "loss": 0.0, + "step": 9500 + }, + { + "epoch": 0.42333333333333334, + "grad_norm": 5.415383839135757e-06, + "learning_rate": 4.771769547325103e-05, + "loss": 0.0, + "step": 9525 + }, + { + "epoch": 0.42444444444444446, + "grad_norm": 4.124377483094577e-06, + "learning_rate": 4.769711934156379e-05, + "loss": 0.0, + "step": 9550 + }, + { + "epoch": 0.4255555555555556, + "grad_norm": 9.787775525182951e-06, + "learning_rate": 4.7676543209876544e-05, + "loss": 0.0, + "step": 9575 + }, + { + "epoch": 0.4266666666666667, + "grad_norm": 5.280126970319543e-06, + "learning_rate": 4.76559670781893e-05, + "loss": 0.0, + "step": 9600 + }, + { + "epoch": 0.42777777777777776, + "grad_norm": 9.278865945816506e-06, + "learning_rate": 4.763539094650206e-05, + "loss": 0.0, + "step": 9625 + }, + { + "epoch": 0.4288888888888889, + "grad_norm": 7.751371413178276e-06, + "learning_rate": 4.761481481481482e-05, + "loss": 0.0, + "step": 9650 + }, + { + "epoch": 0.43, + "grad_norm": 3.949484835175099e-06, + "learning_rate": 4.7594238683127576e-05, + "loss": 0.0, + "step": 9675 + }, + { + "epoch": 0.4311111111111111, + "grad_norm": 1.1599092431424651e-05, + "learning_rate": 4.757366255144033e-05, + "loss": 0.0, + "step": 9700 + }, + { + "epoch": 0.43222222222222223, + "grad_norm": 6.405813110177405e-06, + "learning_rate": 4.755308641975309e-05, + "loss": 0.0, + "step": 9725 + }, + { + "epoch": 0.43333333333333335, + "grad_norm": 5.140179837326286e-06, + "learning_rate": 4.753251028806584e-05, + "loss": 0.0, + "step": 9750 + }, + { + "epoch": 0.43444444444444447, + "grad_norm": 3.408478278288385e-06, + "learning_rate": 4.75119341563786e-05, + "loss": 0.0, + "step": 9775 + }, + { + "epoch": 0.43555555555555553, + "grad_norm": 5.112978215038311e-06, + "learning_rate": 4.7491358024691365e-05, + "loss": 0.0, + "step": 9800 + }, + { + "epoch": 0.43666666666666665, + "grad_norm": 8.64276535139652e-06, + "learning_rate": 4.7470781893004116e-05, + "loss": 0.0, + "step": 9825 + }, + { + "epoch": 0.43777777777777777, + "grad_norm": 7.288152573892148e-06, + "learning_rate": 4.7450205761316874e-05, + "loss": 0.0, + "step": 9850 + }, + { + "epoch": 0.4388888888888889, + "grad_norm": 1.2658803825615905e-05, + "learning_rate": 4.742962962962963e-05, + "loss": 0.0, + "step": 9875 + }, + { + "epoch": 0.44, + "grad_norm": 6.058906365069561e-06, + "learning_rate": 4.740905349794239e-05, + "loss": 0.0, + "step": 9900 + }, + { + "epoch": 0.4411111111111111, + "grad_norm": 8.9222321548732e-06, + "learning_rate": 4.738847736625515e-05, + "loss": 0.0, + "step": 9925 + }, + { + "epoch": 0.44222222222222224, + "grad_norm": 3.846538220386719e-06, + "learning_rate": 4.73679012345679e-05, + "loss": 0.0, + "step": 9950 + }, + { + "epoch": 0.44333333333333336, + "grad_norm": 6.5648710005916655e-06, + "learning_rate": 4.7347325102880664e-05, + "loss": 0.0, + "step": 9975 + }, + { + "epoch": 0.4444444444444444, + "grad_norm": 3.356251227160101e-06, + "learning_rate": 4.732674897119342e-05, + "loss": 0.0, + "step": 10000 + }, + { + "epoch": 0.44555555555555554, + "grad_norm": 6.9105258262425195e-06, + "learning_rate": 4.7306995884773665e-05, + "loss": 0.0, + "step": 10025 + }, + { + "epoch": 0.44666666666666666, + "grad_norm": 1.0301918337063398e-05, + "learning_rate": 4.7286419753086416e-05, + "loss": 0.0, + "step": 10050 + }, + { + "epoch": 0.4477777777777778, + "grad_norm": 9.020444849738851e-06, + "learning_rate": 4.726584362139918e-05, + "loss": 0.0, + "step": 10075 + }, + { + "epoch": 0.4488888888888889, + "grad_norm": 3.4157528716605157e-06, + "learning_rate": 4.724526748971194e-05, + "loss": 0.0, + "step": 10100 + }, + { + "epoch": 0.45, + "grad_norm": 3.1434331049240427e-06, + "learning_rate": 4.722469135802469e-05, + "loss": 0.0, + "step": 10125 + }, + { + "epoch": 0.45111111111111113, + "grad_norm": 5.961044735158794e-06, + "learning_rate": 4.7204115226337455e-05, + "loss": 0.0, + "step": 10150 + }, + { + "epoch": 0.45222222222222225, + "grad_norm": 2.0382813090691343e-06, + "learning_rate": 4.7183539094650206e-05, + "loss": 0.0, + "step": 10175 + }, + { + "epoch": 0.4533333333333333, + "grad_norm": 7.845790605642833e-06, + "learning_rate": 4.7162962962962964e-05, + "loss": 0.0, + "step": 10200 + }, + { + "epoch": 0.45444444444444443, + "grad_norm": 3.069884405704215e-05, + "learning_rate": 4.714238683127572e-05, + "loss": 0.0, + "step": 10225 + }, + { + "epoch": 0.45555555555555555, + "grad_norm": 1.406945739290677e-05, + "learning_rate": 4.712181069958848e-05, + "loss": 0.0, + "step": 10250 + }, + { + "epoch": 0.45666666666666667, + "grad_norm": 2.8438371373340487e-06, + "learning_rate": 4.710123456790124e-05, + "loss": 0.0, + "step": 10275 + }, + { + "epoch": 0.4577777777777778, + "grad_norm": 3.8919097278267145e-06, + "learning_rate": 4.7080658436213995e-05, + "loss": 0.0, + "step": 10300 + }, + { + "epoch": 0.4588888888888889, + "grad_norm": 4.895865913567832e-06, + "learning_rate": 4.706008230452675e-05, + "loss": 0.0, + "step": 10325 + }, + { + "epoch": 0.46, + "grad_norm": 3.1383247005578596e-06, + "learning_rate": 4.703950617283951e-05, + "loss": 0.0, + "step": 10350 + }, + { + "epoch": 0.46111111111111114, + "grad_norm": 1.2430269634933211e-05, + "learning_rate": 4.701893004115226e-05, + "loss": 0.0, + "step": 10375 + }, + { + "epoch": 0.4622222222222222, + "grad_norm": 3.7925208289379952e-06, + "learning_rate": 4.699835390946502e-05, + "loss": 0.0, + "step": 10400 + }, + { + "epoch": 0.4633333333333333, + "grad_norm": 2.8811550691898447e-06, + "learning_rate": 4.6977777777777785e-05, + "loss": 0.0, + "step": 10425 + }, + { + "epoch": 0.46444444444444444, + "grad_norm": 9.991228580474854e-06, + "learning_rate": 4.6957201646090536e-05, + "loss": 0.0, + "step": 10450 + }, + { + "epoch": 0.46555555555555556, + "grad_norm": 3.259323420934379e-05, + "learning_rate": 4.6936625514403294e-05, + "loss": 0.0, + "step": 10475 + }, + { + "epoch": 0.4666666666666667, + "grad_norm": 6.970301910769194e-06, + "learning_rate": 4.691604938271605e-05, + "loss": 0.0, + "step": 10500 + }, + { + "epoch": 0.4677777777777778, + "grad_norm": 3.2475406896992354e-06, + "learning_rate": 4.689547325102881e-05, + "loss": 0.0, + "step": 10525 + }, + { + "epoch": 0.4688888888888889, + "grad_norm": 6.2833651099936105e-06, + "learning_rate": 4.687489711934157e-05, + "loss": 0.0, + "step": 10550 + }, + { + "epoch": 0.47, + "grad_norm": 4.662441369873704e-06, + "learning_rate": 4.685432098765432e-05, + "loss": 0.0, + "step": 10575 + }, + { + "epoch": 0.4711111111111111, + "grad_norm": 2.291957798661315e-06, + "learning_rate": 4.6833744855967084e-05, + "loss": 0.0, + "step": 10600 + }, + { + "epoch": 0.4722222222222222, + "grad_norm": 4.2553242565190885e-06, + "learning_rate": 4.6813168724279835e-05, + "loss": 0.0, + "step": 10625 + }, + { + "epoch": 0.47333333333333333, + "grad_norm": 3.0765334031457314e-06, + "learning_rate": 4.679259259259259e-05, + "loss": 0.0, + "step": 10650 + }, + { + "epoch": 0.47444444444444445, + "grad_norm": 1.7676381958153797e-06, + "learning_rate": 4.677201646090536e-05, + "loss": 0.0, + "step": 10675 + }, + { + "epoch": 0.47555555555555556, + "grad_norm": 7.142313279473456e-06, + "learning_rate": 4.675144032921811e-05, + "loss": 0.0, + "step": 10700 + }, + { + "epoch": 0.4766666666666667, + "grad_norm": 1.218548845827172e-06, + "learning_rate": 4.6730864197530867e-05, + "loss": 0.0, + "step": 10725 + }, + { + "epoch": 0.4777777777777778, + "grad_norm": 2.9100629035383463e-06, + "learning_rate": 4.6710288065843625e-05, + "loss": 0.0, + "step": 10750 + }, + { + "epoch": 0.47888888888888886, + "grad_norm": 2.0084519292140612e-06, + "learning_rate": 4.668971193415638e-05, + "loss": 0.0, + "step": 10775 + }, + { + "epoch": 0.48, + "grad_norm": 2.3679729110881453e-06, + "learning_rate": 4.666913580246914e-05, + "loss": 0.0, + "step": 10800 + }, + { + "epoch": 0.4811111111111111, + "grad_norm": 6.167888841446256e-06, + "learning_rate": 4.664855967078189e-05, + "loss": 0.0, + "step": 10825 + }, + { + "epoch": 0.4822222222222222, + "grad_norm": 2.0017882889078464e-06, + "learning_rate": 4.6627983539094656e-05, + "loss": 0.0, + "step": 10850 + }, + { + "epoch": 0.48333333333333334, + "grad_norm": 5.014261205360526e-06, + "learning_rate": 4.660740740740741e-05, + "loss": 0.0, + "step": 10875 + }, + { + "epoch": 0.48444444444444446, + "grad_norm": 3.5055691114393994e-06, + "learning_rate": 4.6586831275720165e-05, + "loss": 0.0, + "step": 10900 + }, + { + "epoch": 0.4855555555555556, + "grad_norm": 9.858320026978618e-07, + "learning_rate": 4.656625514403292e-05, + "loss": 0.0, + "step": 10925 + }, + { + "epoch": 0.4866666666666667, + "grad_norm": 6.58631643091212e-06, + "learning_rate": 4.654567901234568e-05, + "loss": 0.0, + "step": 10950 + }, + { + "epoch": 0.48777777777777775, + "grad_norm": 1.9263232388766482e-05, + "learning_rate": 4.652510288065844e-05, + "loss": 0.0, + "step": 10975 + }, + { + "epoch": 0.4888888888888889, + "grad_norm": 3.57924250238284e-06, + "learning_rate": 4.65045267489712e-05, + "loss": 0.0, + "step": 11000 + }, + { + "epoch": 0.49, + "grad_norm": 2.3225404675031314e-06, + "learning_rate": 4.6483950617283955e-05, + "loss": 0.0, + "step": 11025 + }, + { + "epoch": 0.4911111111111111, + "grad_norm": 2.1273699530865997e-06, + "learning_rate": 4.646337448559671e-05, + "loss": 0.0, + "step": 11050 + }, + { + "epoch": 0.4922222222222222, + "grad_norm": 9.383206815982703e-07, + "learning_rate": 4.6442798353909464e-05, + "loss": 0.0, + "step": 11075 + }, + { + "epoch": 0.49333333333333335, + "grad_norm": 3.2572197596891783e-06, + "learning_rate": 4.642222222222222e-05, + "loss": 0.0, + "step": 11100 + }, + { + "epoch": 0.49444444444444446, + "grad_norm": 5.9037574828835204e-06, + "learning_rate": 4.640164609053499e-05, + "loss": 0.0, + "step": 11125 + }, + { + "epoch": 0.4955555555555556, + "grad_norm": 4.1290927583759185e-06, + "learning_rate": 4.638106995884774e-05, + "loss": 0.0, + "step": 11150 + }, + { + "epoch": 0.49666666666666665, + "grad_norm": 1.1697014997480437e-05, + "learning_rate": 4.6360493827160496e-05, + "loss": 0.0, + "step": 11175 + }, + { + "epoch": 0.49777777777777776, + "grad_norm": 3.332785126985982e-06, + "learning_rate": 4.6339917695473254e-05, + "loss": 0.0, + "step": 11200 + }, + { + "epoch": 0.4988888888888889, + "grad_norm": 4.559369699563831e-06, + "learning_rate": 4.631934156378601e-05, + "loss": 0.0, + "step": 11225 + }, + { + "epoch": 0.5, + "grad_norm": 1.6357404319933266e-06, + "learning_rate": 4.629876543209877e-05, + "loss": 0.0, + "step": 11250 + }, + { + "epoch": 0.5011111111111111, + "grad_norm": 1.047314981406089e-06, + "learning_rate": 4.627818930041152e-05, + "loss": 0.0, + "step": 11275 + }, + { + "epoch": 0.5022222222222222, + "grad_norm": 2.3157167561294045e-06, + "learning_rate": 4.6257613168724285e-05, + "loss": 0.0, + "step": 11300 + }, + { + "epoch": 0.5033333333333333, + "grad_norm": 2.3914224129839567e-06, + "learning_rate": 4.6237037037037037e-05, + "loss": 0.0, + "step": 11325 + }, + { + "epoch": 0.5044444444444445, + "grad_norm": 1.002529415927711e-06, + "learning_rate": 4.6216460905349794e-05, + "loss": 0.0, + "step": 11350 + }, + { + "epoch": 0.5055555555555555, + "grad_norm": 1.9927999801439e-06, + "learning_rate": 4.619588477366255e-05, + "loss": 0.0, + "step": 11375 + }, + { + "epoch": 0.5066666666666667, + "grad_norm": 2.75726301879331e-06, + "learning_rate": 4.617530864197531e-05, + "loss": 0.0, + "step": 11400 + }, + { + "epoch": 0.5077777777777778, + "grad_norm": 1.0203843885392416e-06, + "learning_rate": 4.615473251028807e-05, + "loss": 0.0, + "step": 11425 + }, + { + "epoch": 0.5088888888888888, + "grad_norm": 9.400907856615959e-07, + "learning_rate": 4.6134156378600826e-05, + "loss": 0.0, + "step": 11450 + }, + { + "epoch": 0.51, + "grad_norm": 1.2264329143363284e-06, + "learning_rate": 4.6113580246913584e-05, + "loss": 0.0, + "step": 11475 + }, + { + "epoch": 0.5111111111111111, + "grad_norm": 2.28714088734705e-06, + "learning_rate": 4.609300411522634e-05, + "loss": 0.0, + "step": 11500 + }, + { + "epoch": 0.5122222222222222, + "grad_norm": 2.661820190041908e-06, + "learning_rate": 4.607242798353909e-05, + "loss": 0.0, + "step": 11525 + }, + { + "epoch": 0.5133333333333333, + "grad_norm": 1.697481275186874e-05, + "learning_rate": 4.605185185185185e-05, + "loss": 0.0, + "step": 11550 + }, + { + "epoch": 0.5144444444444445, + "grad_norm": 6.7703040258493274e-06, + "learning_rate": 4.6031275720164616e-05, + "loss": 0.0, + "step": 11575 + }, + { + "epoch": 0.5155555555555555, + "grad_norm": 9.329677936875669e-07, + "learning_rate": 4.601069958847737e-05, + "loss": 0.0, + "step": 11600 + }, + { + "epoch": 0.5166666666666667, + "grad_norm": 1.2641468174479087e-06, + "learning_rate": 4.5990123456790125e-05, + "loss": 0.0, + "step": 11625 + }, + { + "epoch": 0.5177777777777778, + "grad_norm": 1.390080115015735e-06, + "learning_rate": 4.596954732510288e-05, + "loss": 0.0, + "step": 11650 + }, + { + "epoch": 0.5188888888888888, + "grad_norm": 3.861812729155645e-06, + "learning_rate": 4.594897119341564e-05, + "loss": 0.0, + "step": 11675 + }, + { + "epoch": 0.52, + "grad_norm": 3.1635540835850406e-06, + "learning_rate": 4.59283950617284e-05, + "loss": 0.0, + "step": 11700 + }, + { + "epoch": 0.5211111111111111, + "grad_norm": 2.877781753340969e-06, + "learning_rate": 4.590781893004115e-05, + "loss": 0.0, + "step": 11725 + }, + { + "epoch": 0.5222222222222223, + "grad_norm": 1.347880015600822e-06, + "learning_rate": 4.5887242798353915e-05, + "loss": 0.0, + "step": 11750 + }, + { + "epoch": 0.5233333333333333, + "grad_norm": 1.474578311899677e-06, + "learning_rate": 4.5866666666666666e-05, + "loss": 0.0, + "step": 11775 + }, + { + "epoch": 0.5244444444444445, + "grad_norm": 1.6125100046338048e-06, + "learning_rate": 4.5846090534979424e-05, + "loss": 0.0, + "step": 11800 + }, + { + "epoch": 0.5255555555555556, + "grad_norm": 4.022164830530528e-06, + "learning_rate": 4.582551440329219e-05, + "loss": 0.0, + "step": 11825 + }, + { + "epoch": 0.5266666666666666, + "grad_norm": 1.642525944589579e-06, + "learning_rate": 4.580493827160494e-05, + "loss": 0.0, + "step": 11850 + }, + { + "epoch": 0.5277777777777778, + "grad_norm": 7.073440428939648e-06, + "learning_rate": 4.57843621399177e-05, + "loss": 0.0, + "step": 11875 + }, + { + "epoch": 0.5288888888888889, + "grad_norm": 1.196023390548362e-06, + "learning_rate": 4.5763786008230455e-05, + "loss": 0.0, + "step": 11900 + }, + { + "epoch": 0.53, + "grad_norm": 7.703138180659153e-07, + "learning_rate": 4.574320987654321e-05, + "loss": 0.0, + "step": 11925 + }, + { + "epoch": 0.5311111111111111, + "grad_norm": 1.3850628874934046e-06, + "learning_rate": 4.572263374485597e-05, + "loss": 0.0, + "step": 11950 + }, + { + "epoch": 0.5322222222222223, + "grad_norm": 1.1885379080922576e-06, + "learning_rate": 4.570205761316872e-05, + "loss": 0.0, + "step": 11975 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 9.10244182250608e-07, + "learning_rate": 4.568148148148149e-05, + "loss": 0.0, + "step": 12000 + }, + { + "epoch": 0.5344444444444445, + "grad_norm": 9.835825949267019e-07, + "learning_rate": 4.566172839506173e-05, + "loss": 0.0, + "step": 12025 + }, + { + "epoch": 0.5355555555555556, + "grad_norm": 2.120251338055823e-06, + "learning_rate": 4.564115226337449e-05, + "loss": 0.0, + "step": 12050 + }, + { + "epoch": 0.5366666666666666, + "grad_norm": 4.792908612216706e-07, + "learning_rate": 4.5620576131687246e-05, + "loss": 0.0, + "step": 12075 + }, + { + "epoch": 0.5377777777777778, + "grad_norm": 1.099000087378954e-06, + "learning_rate": 4.5600000000000004e-05, + "loss": 0.0, + "step": 12100 + }, + { + "epoch": 0.5388888888888889, + "grad_norm": 1.479555635341967e-06, + "learning_rate": 4.557942386831276e-05, + "loss": 0.0, + "step": 12125 + }, + { + "epoch": 0.54, + "grad_norm": 2.3477143713535042e-06, + "learning_rate": 4.555884773662551e-05, + "loss": 0.0, + "step": 12150 + }, + { + "epoch": 0.5411111111111111, + "grad_norm": 1.981150035135215e-06, + "learning_rate": 4.553827160493828e-05, + "loss": 0.0, + "step": 12175 + }, + { + "epoch": 0.5422222222222223, + "grad_norm": 2.0858246898569632e-06, + "learning_rate": 4.551769547325103e-05, + "loss": 0.0, + "step": 12200 + }, + { + "epoch": 0.5433333333333333, + "grad_norm": 3.848246706184e-06, + "learning_rate": 4.549711934156379e-05, + "loss": 0.0, + "step": 12225 + }, + { + "epoch": 0.5444444444444444, + "grad_norm": 3.6719845297739084e-07, + "learning_rate": 4.5476543209876545e-05, + "loss": 0.0, + "step": 12250 + }, + { + "epoch": 0.5455555555555556, + "grad_norm": 1.372593146697909e-06, + "learning_rate": 4.54559670781893e-05, + "loss": 0.0, + "step": 12275 + }, + { + "epoch": 0.5466666666666666, + "grad_norm": 7.869608111832349e-07, + "learning_rate": 4.543539094650206e-05, + "loss": 0.0, + "step": 12300 + }, + { + "epoch": 0.5477777777777778, + "grad_norm": 1.3170697457098868e-05, + "learning_rate": 4.541481481481482e-05, + "loss": 0.0, + "step": 12325 + }, + { + "epoch": 0.5488888888888889, + "grad_norm": 1.6573716266066185e-06, + "learning_rate": 4.5394238683127576e-05, + "loss": 0.0, + "step": 12350 + }, + { + "epoch": 0.55, + "grad_norm": 2.29087027037167e-06, + "learning_rate": 4.5373662551440334e-05, + "loss": 0.0, + "step": 12375 + }, + { + "epoch": 0.5511111111111111, + "grad_norm": 3.127025820504059e-06, + "learning_rate": 4.5353086419753085e-05, + "loss": 0.0, + "step": 12400 + }, + { + "epoch": 0.5522222222222222, + "grad_norm": 1.0924188245553523e-05, + "learning_rate": 4.533251028806584e-05, + "loss": 0.0, + "step": 12425 + }, + { + "epoch": 0.5533333333333333, + "grad_norm": 1.0014359759225044e-05, + "learning_rate": 4.531193415637861e-05, + "loss": 0.0, + "step": 12450 + }, + { + "epoch": 0.5544444444444444, + "grad_norm": 2.4238099740614416e-06, + "learning_rate": 4.529135802469136e-05, + "loss": 0.0, + "step": 12475 + }, + { + "epoch": 0.5555555555555556, + "grad_norm": 2.128540700141457e-06, + "learning_rate": 4.527078189300412e-05, + "loss": 0.0, + "step": 12500 + }, + { + "epoch": 0.5566666666666666, + "grad_norm": 9.061051855496771e-07, + "learning_rate": 4.5250205761316875e-05, + "loss": 0.0, + "step": 12525 + }, + { + "epoch": 0.5577777777777778, + "grad_norm": 2.5818396807153476e-06, + "learning_rate": 4.522962962962963e-05, + "loss": 0.0, + "step": 12550 + }, + { + "epoch": 0.5588888888888889, + "grad_norm": 3.7087346527187037e-07, + "learning_rate": 4.520905349794239e-05, + "loss": 0.0, + "step": 12575 + }, + { + "epoch": 0.56, + "grad_norm": 1.222528567268455e-06, + "learning_rate": 4.518847736625514e-05, + "loss": 0.0, + "step": 12600 + }, + { + "epoch": 0.5611111111111111, + "grad_norm": 8.020438713174372e-07, + "learning_rate": 4.516790123456791e-05, + "loss": 0.0, + "step": 12625 + }, + { + "epoch": 0.5622222222222222, + "grad_norm": 8.51862807849102e-07, + "learning_rate": 4.514732510288066e-05, + "loss": 0.0, + "step": 12650 + }, + { + "epoch": 0.5633333333333334, + "grad_norm": 6.434458555304445e-06, + "learning_rate": 4.5126748971193416e-05, + "loss": 0.0, + "step": 12675 + }, + { + "epoch": 0.5644444444444444, + "grad_norm": 3.535533039666916e-07, + "learning_rate": 4.5106172839506174e-05, + "loss": 0.0, + "step": 12700 + }, + { + "epoch": 0.5655555555555556, + "grad_norm": 2.4329435177605774e-07, + "learning_rate": 4.508559670781893e-05, + "loss": 0.0, + "step": 12725 + }, + { + "epoch": 0.5666666666666667, + "grad_norm": 1.952031652763253e-06, + "learning_rate": 4.506502057613169e-05, + "loss": 0.0, + "step": 12750 + }, + { + "epoch": 0.5677777777777778, + "grad_norm": 1.737733555273735e-06, + "learning_rate": 4.504444444444445e-05, + "loss": 0.0, + "step": 12775 + }, + { + "epoch": 0.5688888888888889, + "grad_norm": 2.1233142888377188e-06, + "learning_rate": 4.5023868312757206e-05, + "loss": 0.0, + "step": 12800 + }, + { + "epoch": 0.57, + "grad_norm": 1.556524921397795e-06, + "learning_rate": 4.5003292181069963e-05, + "loss": 0.0, + "step": 12825 + }, + { + "epoch": 0.5711111111111111, + "grad_norm": 2.8549407034006435e-06, + "learning_rate": 4.4982716049382715e-05, + "loss": 0.0, + "step": 12850 + }, + { + "epoch": 0.5722222222222222, + "grad_norm": 1.656042172726302e-06, + "learning_rate": 4.496213991769547e-05, + "loss": 0.0, + "step": 12875 + }, + { + "epoch": 0.5733333333333334, + "grad_norm": 2.732438360908418e-06, + "learning_rate": 4.494156378600824e-05, + "loss": 0.0, + "step": 12900 + }, + { + "epoch": 0.5744444444444444, + "grad_norm": 6.8981012191216e-07, + "learning_rate": 4.492098765432099e-05, + "loss": 0.0, + "step": 12925 + }, + { + "epoch": 0.5755555555555556, + "grad_norm": 5.614095698547317e-06, + "learning_rate": 4.4900411522633746e-05, + "loss": 0.0, + "step": 12950 + }, + { + "epoch": 0.5766666666666667, + "grad_norm": 3.200501907940634e-07, + "learning_rate": 4.4879835390946504e-05, + "loss": 0.0, + "step": 12975 + }, + { + "epoch": 0.5777777777777777, + "grad_norm": 7.23612231467996e-07, + "learning_rate": 4.485925925925926e-05, + "loss": 0.0, + "step": 13000 + }, + { + "epoch": 0.5788888888888889, + "grad_norm": 2.095796617140877e-06, + "learning_rate": 4.483868312757202e-05, + "loss": 0.0, + "step": 13025 + }, + { + "epoch": 0.58, + "grad_norm": 1.3688561750768713e-07, + "learning_rate": 4.481810699588477e-05, + "loss": 0.0, + "step": 13050 + }, + { + "epoch": 0.5811111111111111, + "grad_norm": 4.316835315876233e-07, + "learning_rate": 4.4797530864197536e-05, + "loss": 0.0, + "step": 13075 + }, + { + "epoch": 0.5822222222222222, + "grad_norm": 8.363484994333703e-06, + "learning_rate": 4.477695473251029e-05, + "loss": 0.0, + "step": 13100 + }, + { + "epoch": 0.5833333333333334, + "grad_norm": 8.573680929657712e-07, + "learning_rate": 4.4756378600823045e-05, + "loss": 0.0, + "step": 13125 + }, + { + "epoch": 0.5844444444444444, + "grad_norm": 8.409183465118986e-07, + "learning_rate": 4.473580246913581e-05, + "loss": 0.0, + "step": 13150 + }, + { + "epoch": 0.5855555555555556, + "grad_norm": 1.3688784292753553e-06, + "learning_rate": 4.471522633744856e-05, + "loss": 0.0, + "step": 13175 + }, + { + "epoch": 0.5866666666666667, + "grad_norm": 5.302320914779557e-06, + "learning_rate": 4.469465020576132e-05, + "loss": 0.0, + "step": 13200 + }, + { + "epoch": 0.5877777777777777, + "grad_norm": 8.296588930534199e-06, + "learning_rate": 4.467407407407408e-05, + "loss": 0.0, + "step": 13225 + }, + { + "epoch": 0.5888888888888889, + "grad_norm": 1.8276839455211302e-06, + "learning_rate": 4.4653497942386835e-05, + "loss": 0.0, + "step": 13250 + }, + { + "epoch": 0.59, + "grad_norm": 7.81135611305217e-07, + "learning_rate": 4.463292181069959e-05, + "loss": 0.0, + "step": 13275 + }, + { + "epoch": 0.5911111111111111, + "grad_norm": 8.502359492013056e-07, + "learning_rate": 4.4612345679012344e-05, + "loss": 0.0, + "step": 13300 + }, + { + "epoch": 0.5922222222222222, + "grad_norm": 8.507216193720524e-07, + "learning_rate": 4.459176954732511e-05, + "loss": 0.0, + "step": 13325 + }, + { + "epoch": 0.5933333333333334, + "grad_norm": 2.3740067263133824e-06, + "learning_rate": 4.457119341563786e-05, + "loss": 0.0, + "step": 13350 + }, + { + "epoch": 0.5944444444444444, + "grad_norm": 1.5857756807236e-05, + "learning_rate": 4.455061728395062e-05, + "loss": 0.0, + "step": 13375 + }, + { + "epoch": 0.5955555555555555, + "grad_norm": 7.564545967397862e-07, + "learning_rate": 4.4530041152263375e-05, + "loss": 0.0, + "step": 13400 + }, + { + "epoch": 0.5966666666666667, + "grad_norm": 1.8991647721122717e-07, + "learning_rate": 4.4509465020576133e-05, + "loss": 0.0, + "step": 13425 + }, + { + "epoch": 0.5977777777777777, + "grad_norm": 3.3122171316790627e-06, + "learning_rate": 4.448888888888889e-05, + "loss": 0.0, + "step": 13450 + }, + { + "epoch": 0.5988888888888889, + "grad_norm": 7.808293958078139e-07, + "learning_rate": 4.446831275720165e-05, + "loss": 0.0, + "step": 13475 + }, + { + "epoch": 0.6, + "grad_norm": 4.4887860894959886e-07, + "learning_rate": 4.444773662551441e-05, + "loss": 0.0, + "step": 13500 + }, + { + "epoch": 0.6011111111111112, + "grad_norm": 4.256822307979746e-07, + "learning_rate": 4.4427160493827165e-05, + "loss": 0.0, + "step": 13525 + }, + { + "epoch": 0.6022222222222222, + "grad_norm": 3.8279392811091384e-07, + "learning_rate": 4.4406584362139916e-05, + "loss": 0.0, + "step": 13550 + }, + { + "epoch": 0.6033333333333334, + "grad_norm": 3.7735236446678755e-07, + "learning_rate": 4.4386008230452674e-05, + "loss": 0.0, + "step": 13575 + }, + { + "epoch": 0.6044444444444445, + "grad_norm": 8.649790288473014e-07, + "learning_rate": 4.436543209876544e-05, + "loss": 0.0, + "step": 13600 + }, + { + "epoch": 0.6055555555555555, + "grad_norm": 2.8577446187227906e-07, + "learning_rate": 4.434485596707819e-05, + "loss": 0.0, + "step": 13625 + }, + { + "epoch": 0.6066666666666667, + "grad_norm": 1.5396573189718765e-06, + "learning_rate": 4.432427983539095e-05, + "loss": 0.0, + "step": 13650 + }, + { + "epoch": 0.6077777777777778, + "grad_norm": 1.4140484836389078e-06, + "learning_rate": 4.4303703703703706e-05, + "loss": 0.0, + "step": 13675 + }, + { + "epoch": 0.6088888888888889, + "grad_norm": 3.147155780425237e-07, + "learning_rate": 4.4283127572016464e-05, + "loss": 0.0, + "step": 13700 + }, + { + "epoch": 0.61, + "grad_norm": 1.182464302473818e-06, + "learning_rate": 4.426255144032922e-05, + "loss": 0.0, + "step": 13725 + }, + { + "epoch": 0.6111111111111112, + "grad_norm": 1.0480607670615427e-06, + "learning_rate": 4.424197530864197e-05, + "loss": 0.0, + "step": 13750 + }, + { + "epoch": 0.6122222222222222, + "grad_norm": 8.395163035856967e-07, + "learning_rate": 4.422139917695474e-05, + "loss": 0.0, + "step": 13775 + }, + { + "epoch": 0.6133333333333333, + "grad_norm": 2.8341847269075515e-07, + "learning_rate": 4.420082304526749e-05, + "loss": 0.0, + "step": 13800 + }, + { + "epoch": 0.6144444444444445, + "grad_norm": 1.0584925576040405e-06, + "learning_rate": 4.418024691358025e-05, + "loss": 0.0, + "step": 13825 + }, + { + "epoch": 0.6155555555555555, + "grad_norm": 4.1941245854104636e-07, + "learning_rate": 4.415967078189301e-05, + "loss": 0.0, + "step": 13850 + }, + { + "epoch": 0.6166666666666667, + "grad_norm": 1.4477893728326308e-06, + "learning_rate": 4.413909465020576e-05, + "loss": 0.0, + "step": 13875 + }, + { + "epoch": 0.6177777777777778, + "grad_norm": 3.737382883173268e-07, + "learning_rate": 4.411851851851852e-05, + "loss": 0.0, + "step": 13900 + }, + { + "epoch": 0.6188888888888889, + "grad_norm": 2.694224008337187e-07, + "learning_rate": 4.409794238683128e-05, + "loss": 0.0, + "step": 13925 + }, + { + "epoch": 0.62, + "grad_norm": 8.582859436501167e-07, + "learning_rate": 4.4077366255144036e-05, + "loss": 0.0, + "step": 13950 + }, + { + "epoch": 0.6211111111111111, + "grad_norm": 1.44613329666754e-06, + "learning_rate": 4.4056790123456794e-05, + "loss": 0.0, + "step": 13975 + }, + { + "epoch": 0.6222222222222222, + "grad_norm": 2.490824329015595e-07, + "learning_rate": 4.4036213991769545e-05, + "loss": 0.0, + "step": 14000 + }, + { + "epoch": 0.6233333333333333, + "grad_norm": 4.2954260948135925e-07, + "learning_rate": 4.40164609053498e-05, + "loss": 0.0, + "step": 14025 + }, + { + "epoch": 0.6244444444444445, + "grad_norm": 1.1091145779573708e-06, + "learning_rate": 4.399588477366255e-05, + "loss": 0.0, + "step": 14050 + }, + { + "epoch": 0.6255555555555555, + "grad_norm": 4.052676558785606e-07, + "learning_rate": 4.397530864197531e-05, + "loss": 0.0, + "step": 14075 + }, + { + "epoch": 0.6266666666666667, + "grad_norm": 5.640138169837883e-07, + "learning_rate": 4.395473251028807e-05, + "loss": 0.0, + "step": 14100 + }, + { + "epoch": 0.6277777777777778, + "grad_norm": 9.713122608445701e-07, + "learning_rate": 4.393415637860083e-05, + "loss": 0.0, + "step": 14125 + }, + { + "epoch": 0.6288888888888889, + "grad_norm": 6.414668973775406e-07, + "learning_rate": 4.3913580246913585e-05, + "loss": 0.0, + "step": 14150 + }, + { + "epoch": 0.63, + "grad_norm": 9.575338708600611e-07, + "learning_rate": 4.3893004115226336e-05, + "loss": 0.0, + "step": 14175 + }, + { + "epoch": 0.6311111111111111, + "grad_norm": 1.7228209117092774e-06, + "learning_rate": 4.38724279835391e-05, + "loss": 0.0, + "step": 14200 + }, + { + "epoch": 0.6322222222222222, + "grad_norm": 2.6251200324622914e-07, + "learning_rate": 4.385185185185185e-05, + "loss": 0.0, + "step": 14225 + }, + { + "epoch": 0.6333333333333333, + "grad_norm": 3.912421675522637e-07, + "learning_rate": 4.383127572016461e-05, + "loss": 0.0, + "step": 14250 + }, + { + "epoch": 0.6344444444444445, + "grad_norm": 1.9347581314832496e-07, + "learning_rate": 4.381069958847737e-05, + "loss": 0.0, + "step": 14275 + }, + { + "epoch": 0.6355555555555555, + "grad_norm": 1.3690956848222413e-06, + "learning_rate": 4.3790123456790126e-05, + "loss": 0.0, + "step": 14300 + }, + { + "epoch": 0.6366666666666667, + "grad_norm": 2.086786281552122e-07, + "learning_rate": 4.3769547325102884e-05, + "loss": 0.0, + "step": 14325 + }, + { + "epoch": 0.6377777777777778, + "grad_norm": 2.555111393576226e-07, + "learning_rate": 4.374897119341564e-05, + "loss": 0.0, + "step": 14350 + }, + { + "epoch": 0.6388888888888888, + "grad_norm": 1.2012651495751925e-06, + "learning_rate": 4.372839506172839e-05, + "loss": 0.0, + "step": 14375 + }, + { + "epoch": 0.64, + "grad_norm": 1.7951593633824814e-07, + "learning_rate": 4.370781893004116e-05, + "loss": 0.0, + "step": 14400 + }, + { + "epoch": 0.6411111111111111, + "grad_norm": 7.988931542968203e-07, + "learning_rate": 4.368724279835391e-05, + "loss": 0.0, + "step": 14425 + }, + { + "epoch": 0.6422222222222222, + "grad_norm": 1.6214741549447353e-07, + "learning_rate": 4.3666666666666666e-05, + "loss": 0.0, + "step": 14450 + }, + { + "epoch": 0.6433333333333333, + "grad_norm": 6.482297294496675e-07, + "learning_rate": 4.364609053497943e-05, + "loss": 0.0, + "step": 14475 + }, + { + "epoch": 0.6444444444444445, + "grad_norm": 1.2368182922273263e-07, + "learning_rate": 4.362551440329218e-05, + "loss": 0.0, + "step": 14500 + }, + { + "epoch": 0.6455555555555555, + "grad_norm": 1.9336567902428214e-07, + "learning_rate": 4.360493827160494e-05, + "loss": 0.0, + "step": 14525 + }, + { + "epoch": 0.6466666666666666, + "grad_norm": 1.0954790923278779e-06, + "learning_rate": 4.35843621399177e-05, + "loss": 0.0, + "step": 14550 + }, + { + "epoch": 0.6477777777777778, + "grad_norm": 2.3735485399356548e-07, + "learning_rate": 4.3563786008230456e-05, + "loss": 0.0, + "step": 14575 + }, + { + "epoch": 0.6488888888888888, + "grad_norm": 1.1897606810862271e-07, + "learning_rate": 4.3543209876543214e-05, + "loss": 0.0, + "step": 14600 + }, + { + "epoch": 0.65, + "grad_norm": 2.155570200557122e-06, + "learning_rate": 4.3522633744855965e-05, + "loss": 0.0, + "step": 14625 + }, + { + "epoch": 0.6511111111111111, + "grad_norm": 3.156632715217711e-07, + "learning_rate": 4.350205761316873e-05, + "loss": 0.0, + "step": 14650 + }, + { + "epoch": 0.6522222222222223, + "grad_norm": 7.862913093958923e-07, + "learning_rate": 4.348148148148148e-05, + "loss": 0.0, + "step": 14675 + }, + { + "epoch": 0.6533333333333333, + "grad_norm": 8.020257951102394e-07, + "learning_rate": 4.346090534979424e-05, + "loss": 0.0, + "step": 14700 + }, + { + "epoch": 0.6544444444444445, + "grad_norm": 2.6604024583321007e-07, + "learning_rate": 4.3440329218107e-05, + "loss": 0.0, + "step": 14725 + }, + { + "epoch": 0.6555555555555556, + "grad_norm": 2.769049842754612e-07, + "learning_rate": 4.3419753086419755e-05, + "loss": 0.0, + "step": 14750 + }, + { + "epoch": 0.6566666666666666, + "grad_norm": 1.3414572777037392e-06, + "learning_rate": 4.339917695473251e-05, + "loss": 0.0, + "step": 14775 + }, + { + "epoch": 0.6577777777777778, + "grad_norm": 6.437888941945857e-07, + "learning_rate": 4.337860082304527e-05, + "loss": 0.0, + "step": 14800 + }, + { + "epoch": 0.6588888888888889, + "grad_norm": 2.3374536795017775e-07, + "learning_rate": 4.335802469135803e-05, + "loss": 0.0, + "step": 14825 + }, + { + "epoch": 0.66, + "grad_norm": 6.684410891466541e-07, + "learning_rate": 4.3337448559670787e-05, + "loss": 0.0, + "step": 14850 + }, + { + "epoch": 0.6611111111111111, + "grad_norm": 1.9574262921651098e-07, + "learning_rate": 4.331687242798354e-05, + "loss": 0.0, + "step": 14875 + }, + { + "epoch": 0.6622222222222223, + "grad_norm": 2.2634134211330093e-07, + "learning_rate": 4.3296296296296296e-05, + "loss": 0.0, + "step": 14900 + }, + { + "epoch": 0.6633333333333333, + "grad_norm": 2.4459748715344176e-07, + "learning_rate": 4.327572016460906e-05, + "loss": 0.0, + "step": 14925 + }, + { + "epoch": 0.6644444444444444, + "grad_norm": 6.909834269208659e-07, + "learning_rate": 4.325514403292181e-05, + "loss": 0.0, + "step": 14950 + }, + { + "epoch": 0.6655555555555556, + "grad_norm": 1.1381995363990427e-06, + "learning_rate": 4.323456790123457e-05, + "loss": 0.0, + "step": 14975 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 2.2842229441266682e-07, + "learning_rate": 4.321399176954733e-05, + "loss": 0.0, + "step": 15000 + }, + { + "epoch": 0.6677777777777778, + "grad_norm": 1.869858010650205e-06, + "learning_rate": 4.3193415637860085e-05, + "loss": 0.0, + "step": 15025 + }, + { + "epoch": 0.6688888888888889, + "grad_norm": 4.693400512678636e-07, + "learning_rate": 4.317283950617284e-05, + "loss": 0.0, + "step": 15050 + }, + { + "epoch": 0.67, + "grad_norm": 6.760940323147224e-07, + "learning_rate": 4.3152263374485594e-05, + "loss": 0.0, + "step": 15075 + }, + { + "epoch": 0.6711111111111111, + "grad_norm": 1.3130738807376474e-06, + "learning_rate": 4.313168724279836e-05, + "loss": 0.0, + "step": 15100 + }, + { + "epoch": 0.6722222222222223, + "grad_norm": 8.275517302536173e-07, + "learning_rate": 4.311111111111111e-05, + "loss": 0.0, + "step": 15125 + }, + { + "epoch": 0.6733333333333333, + "grad_norm": 1.708458938765034e-07, + "learning_rate": 4.309053497942387e-05, + "loss": 0.0, + "step": 15150 + }, + { + "epoch": 0.6744444444444444, + "grad_norm": 1.1989592962891038e-07, + "learning_rate": 4.306995884773663e-05, + "loss": 0.0, + "step": 15175 + }, + { + "epoch": 0.6755555555555556, + "grad_norm": 6.775456995455897e-08, + "learning_rate": 4.3049382716049384e-05, + "loss": 0.0, + "step": 15200 + }, + { + "epoch": 0.6766666666666666, + "grad_norm": 2.936818930265872e-07, + "learning_rate": 4.302880658436214e-05, + "loss": 0.0, + "step": 15225 + }, + { + "epoch": 0.6777777777777778, + "grad_norm": 1.78354866875452e-07, + "learning_rate": 4.30082304526749e-05, + "loss": 0.0, + "step": 15250 + }, + { + "epoch": 0.6788888888888889, + "grad_norm": 7.156854735512752e-07, + "learning_rate": 4.298765432098766e-05, + "loss": 0.0, + "step": 15275 + }, + { + "epoch": 0.68, + "grad_norm": 7.66353025483113e-07, + "learning_rate": 4.2967078189300416e-05, + "loss": 0.0, + "step": 15300 + }, + { + "epoch": 0.6811111111111111, + "grad_norm": 6.983875096011616e-07, + "learning_rate": 4.294650205761317e-05, + "loss": 0.0, + "step": 15325 + }, + { + "epoch": 0.6822222222222222, + "grad_norm": 4.5559514205706364e-07, + "learning_rate": 4.292592592592593e-05, + "loss": 0.0, + "step": 15350 + }, + { + "epoch": 0.6833333333333333, + "grad_norm": 8.220304152928293e-07, + "learning_rate": 4.290534979423869e-05, + "loss": 0.0, + "step": 15375 + }, + { + "epoch": 0.6844444444444444, + "grad_norm": 9.073489309230354e-06, + "learning_rate": 4.288477366255144e-05, + "loss": 0.0, + "step": 15400 + }, + { + "epoch": 0.6855555555555556, + "grad_norm": 3.1479780204790586e-07, + "learning_rate": 4.28641975308642e-05, + "loss": 0.0, + "step": 15425 + }, + { + "epoch": 0.6866666666666666, + "grad_norm": 1.1140688371824581e-07, + "learning_rate": 4.2843621399176956e-05, + "loss": 0.0, + "step": 15450 + }, + { + "epoch": 0.6877777777777778, + "grad_norm": 1.9453406707725662e-07, + "learning_rate": 4.2823045267489714e-05, + "loss": 0.0, + "step": 15475 + }, + { + "epoch": 0.6888888888888889, + "grad_norm": 1.547858232697763e-07, + "learning_rate": 4.280246913580247e-05, + "loss": 0.0, + "step": 15500 + }, + { + "epoch": 0.69, + "grad_norm": 1.2652584473471506e-06, + "learning_rate": 4.278189300411523e-05, + "loss": 0.0, + "step": 15525 + }, + { + "epoch": 0.6911111111111111, + "grad_norm": 6.694964440612239e-07, + "learning_rate": 4.276131687242799e-05, + "loss": 0.0, + "step": 15550 + }, + { + "epoch": 0.6922222222222222, + "grad_norm": 7.787272693349223e-07, + "learning_rate": 4.274074074074074e-05, + "loss": 0.0, + "step": 15575 + }, + { + "epoch": 0.6933333333333334, + "grad_norm": 1.9268054529675283e-07, + "learning_rate": 4.27201646090535e-05, + "loss": 0.0, + "step": 15600 + }, + { + "epoch": 0.6944444444444444, + "grad_norm": 1.0812985351549287e-07, + "learning_rate": 4.269958847736626e-05, + "loss": 0.0, + "step": 15625 + }, + { + "epoch": 0.6955555555555556, + "grad_norm": 1.996240598600707e-06, + "learning_rate": 4.267901234567901e-05, + "loss": 0.0, + "step": 15650 + }, + { + "epoch": 0.6966666666666667, + "grad_norm": 1.0645366188555272e-07, + "learning_rate": 4.265843621399177e-05, + "loss": 0.0, + "step": 15675 + }, + { + "epoch": 0.6977777777777778, + "grad_norm": 1.503018722814886e-07, + "learning_rate": 4.263786008230453e-05, + "loss": 0.0, + "step": 15700 + }, + { + "epoch": 0.6988888888888889, + "grad_norm": 1.6967987903626636e-07, + "learning_rate": 4.261728395061729e-05, + "loss": 0.0, + "step": 15725 + }, + { + "epoch": 0.7, + "grad_norm": 2.51759587399647e-07, + "learning_rate": 4.2596707818930045e-05, + "loss": 0.0, + "step": 15750 + }, + { + "epoch": 0.7011111111111111, + "grad_norm": 6.234875513655425e-07, + "learning_rate": 4.2576131687242796e-05, + "loss": 0.0, + "step": 15775 + }, + { + "epoch": 0.7022222222222222, + "grad_norm": 8.101607704702474e-07, + "learning_rate": 4.255555555555556e-05, + "loss": 0.0, + "step": 15800 + }, + { + "epoch": 0.7033333333333334, + "grad_norm": 2.1262711413783109e-07, + "learning_rate": 4.253497942386831e-05, + "loss": 0.0, + "step": 15825 + }, + { + "epoch": 0.7044444444444444, + "grad_norm": 1.1418053418310592e-06, + "learning_rate": 4.251440329218107e-05, + "loss": 0.0, + "step": 15850 + }, + { + "epoch": 0.7055555555555556, + "grad_norm": 1.7519913342312066e-07, + "learning_rate": 4.249382716049383e-05, + "loss": 0.0, + "step": 15875 + }, + { + "epoch": 0.7066666666666667, + "grad_norm": 1.3508473273304844e-07, + "learning_rate": 4.2473251028806586e-05, + "loss": 0.0, + "step": 15900 + }, + { + "epoch": 0.7077777777777777, + "grad_norm": 1.6522255918971496e-07, + "learning_rate": 4.2452674897119344e-05, + "loss": 0.0, + "step": 15925 + }, + { + "epoch": 0.7088888888888889, + "grad_norm": 6.310106641649327e-07, + "learning_rate": 4.24320987654321e-05, + "loss": 0.0, + "step": 15950 + }, + { + "epoch": 0.71, + "grad_norm": 1.6793724455510528e-07, + "learning_rate": 4.241152263374486e-05, + "loss": 0.0, + "step": 15975 + }, + { + "epoch": 0.7111111111111111, + "grad_norm": 2.044463087713666e-07, + "learning_rate": 4.239094650205762e-05, + "loss": 0.0, + "step": 16000 + }, + { + "epoch": 0.7122222222222222, + "grad_norm": 7.893184488239058e-07, + "learning_rate": 4.237119341563786e-05, + "loss": 0.0, + "step": 16025 + }, + { + "epoch": 0.7133333333333334, + "grad_norm": 1.7695488452318386e-07, + "learning_rate": 4.235061728395062e-05, + "loss": 0.0, + "step": 16050 + }, + { + "epoch": 0.7144444444444444, + "grad_norm": 2.0642579556806595e-07, + "learning_rate": 4.2330041152263376e-05, + "loss": 0.0, + "step": 16075 + }, + { + "epoch": 0.7155555555555555, + "grad_norm": 1.9081880964222364e-07, + "learning_rate": 4.2309465020576134e-05, + "loss": 0.0, + "step": 16100 + }, + { + "epoch": 0.7166666666666667, + "grad_norm": 2.7748100706048717e-07, + "learning_rate": 4.228888888888889e-05, + "loss": 0.0, + "step": 16125 + }, + { + "epoch": 0.7177777777777777, + "grad_norm": 1.550934740635057e-07, + "learning_rate": 4.226831275720165e-05, + "loss": 0.0, + "step": 16150 + }, + { + "epoch": 0.7188888888888889, + "grad_norm": 1.8456137240718817e-06, + "learning_rate": 4.224773662551441e-05, + "loss": 0.0, + "step": 16175 + }, + { + "epoch": 0.72, + "grad_norm": 7.061050411039105e-08, + "learning_rate": 4.222716049382716e-05, + "loss": 0.0, + "step": 16200 + }, + { + "epoch": 0.7211111111111111, + "grad_norm": 3.995733948158886e-07, + "learning_rate": 4.220658436213992e-05, + "loss": 0.0, + "step": 16225 + }, + { + "epoch": 0.7222222222222222, + "grad_norm": 2.41627844843606e-07, + "learning_rate": 4.2186008230452675e-05, + "loss": 0.0, + "step": 16250 + }, + { + "epoch": 0.7233333333333334, + "grad_norm": 1.271188807550061e-07, + "learning_rate": 4.216543209876543e-05, + "loss": 0.0, + "step": 16275 + }, + { + "epoch": 0.7244444444444444, + "grad_norm": 1.2078356803613133e-07, + "learning_rate": 4.214485596707819e-05, + "loss": 0.0, + "step": 16300 + }, + { + "epoch": 0.7255555555555555, + "grad_norm": 1.2353814327070722e-06, + "learning_rate": 4.212427983539095e-05, + "loss": 0.0, + "step": 16325 + }, + { + "epoch": 0.7266666666666667, + "grad_norm": 5.9518161066307584e-08, + "learning_rate": 4.210370370370371e-05, + "loss": 0.0, + "step": 16350 + }, + { + "epoch": 0.7277777777777777, + "grad_norm": 1.5454214974397473e-07, + "learning_rate": 4.2083127572016465e-05, + "loss": 0.0, + "step": 16375 + }, + { + "epoch": 0.7288888888888889, + "grad_norm": 2.765199553778075e-07, + "learning_rate": 4.2062551440329216e-05, + "loss": 0.0, + "step": 16400 + }, + { + "epoch": 0.73, + "grad_norm": 1.7808690699894214e-07, + "learning_rate": 4.204197530864198e-05, + "loss": 0.0, + "step": 16425 + }, + { + "epoch": 0.7311111111111112, + "grad_norm": 2.0311946968831762e-07, + "learning_rate": 4.202139917695473e-05, + "loss": 0.0, + "step": 16450 + }, + { + "epoch": 0.7322222222222222, + "grad_norm": 6.834238774899859e-07, + "learning_rate": 4.200082304526749e-05, + "loss": 0.0, + "step": 16475 + }, + { + "epoch": 0.7333333333333333, + "grad_norm": 6.605114890589903e-07, + "learning_rate": 4.1980246913580254e-05, + "loss": 0.0, + "step": 16500 + }, + { + "epoch": 0.7344444444444445, + "grad_norm": 2.290396281523499e-07, + "learning_rate": 4.1959670781893005e-05, + "loss": 0.0, + "step": 16525 + }, + { + "epoch": 0.7355555555555555, + "grad_norm": 2.3497649692671985e-07, + "learning_rate": 4.193909465020576e-05, + "loss": 0.0, + "step": 16550 + }, + { + "epoch": 0.7366666666666667, + "grad_norm": 6.418382980655224e-08, + "learning_rate": 4.191851851851852e-05, + "loss": 0.0, + "step": 16575 + }, + { + "epoch": 0.7377777777777778, + "grad_norm": 7.681778413370921e-08, + "learning_rate": 4.189794238683128e-05, + "loss": 0.0, + "step": 16600 + }, + { + "epoch": 0.7388888888888889, + "grad_norm": 6.351689307848574e-08, + "learning_rate": 4.187736625514404e-05, + "loss": 0.0, + "step": 16625 + }, + { + "epoch": 0.74, + "grad_norm": 2.3105998536721017e-07, + "learning_rate": 4.185679012345679e-05, + "loss": 0.0, + "step": 16650 + }, + { + "epoch": 0.7411111111111112, + "grad_norm": 8.6220900641365e-08, + "learning_rate": 4.183621399176955e-05, + "loss": 0.0, + "step": 16675 + }, + { + "epoch": 0.7422222222222222, + "grad_norm": 1.3463547077208204e-07, + "learning_rate": 4.1815637860082304e-05, + "loss": 0.0, + "step": 16700 + }, + { + "epoch": 0.7433333333333333, + "grad_norm": 2.1635048597090645e-07, + "learning_rate": 4.179506172839506e-05, + "loss": 0.0, + "step": 16725 + }, + { + "epoch": 0.7444444444444445, + "grad_norm": 3.3596728599150083e-07, + "learning_rate": 4.177448559670782e-05, + "loss": 0.0, + "step": 16750 + }, + { + "epoch": 0.7455555555555555, + "grad_norm": 1.1805027497757692e-06, + "learning_rate": 4.175390946502058e-05, + "loss": 0.0, + "step": 16775 + }, + { + "epoch": 0.7466666666666667, + "grad_norm": 2.84891967794465e-07, + "learning_rate": 4.1733333333333336e-05, + "loss": 0.0, + "step": 16800 + }, + { + "epoch": 0.7477777777777778, + "grad_norm": 2.3759186262850562e-07, + "learning_rate": 4.1712757201646094e-05, + "loss": 0.0, + "step": 16825 + }, + { + "epoch": 0.7488888888888889, + "grad_norm": 4.116406771004222e-08, + "learning_rate": 4.169218106995885e-05, + "loss": 0.0, + "step": 16850 + }, + { + "epoch": 0.75, + "grad_norm": 2.6620895710038894e-07, + "learning_rate": 4.167160493827161e-05, + "loss": 0.0, + "step": 16875 + }, + { + "epoch": 0.7511111111111111, + "grad_norm": 1.364595902941801e-07, + "learning_rate": 4.165102880658436e-05, + "loss": 0.0, + "step": 16900 + }, + { + "epoch": 0.7522222222222222, + "grad_norm": 1.0628337321350045e-07, + "learning_rate": 4.163045267489712e-05, + "loss": 0.0, + "step": 16925 + }, + { + "epoch": 0.7533333333333333, + "grad_norm": 6.200441475812113e-07, + "learning_rate": 4.1609876543209883e-05, + "loss": 0.0, + "step": 16950 + }, + { + "epoch": 0.7544444444444445, + "grad_norm": 1.837317711306241e-07, + "learning_rate": 4.1589300411522635e-05, + "loss": 0.0, + "step": 16975 + }, + { + "epoch": 0.7555555555555555, + "grad_norm": 1.5892375415660354e-07, + "learning_rate": 4.156872427983539e-05, + "loss": 0.0, + "step": 17000 + }, + { + "epoch": 0.7566666666666667, + "grad_norm": 1.311047839180901e-07, + "learning_rate": 4.154814814814815e-05, + "loss": 0.0, + "step": 17025 + }, + { + "epoch": 0.7577777777777778, + "grad_norm": 3.812051829754637e-08, + "learning_rate": 4.152757201646091e-05, + "loss": 0.0, + "step": 17050 + }, + { + "epoch": 0.7588888888888888, + "grad_norm": 7.933849843766438e-08, + "learning_rate": 4.1506995884773666e-05, + "loss": 0.0, + "step": 17075 + }, + { + "epoch": 0.76, + "grad_norm": 2.3112065150598937e-07, + "learning_rate": 4.148641975308642e-05, + "loss": 0.0, + "step": 17100 + }, + { + "epoch": 0.7611111111111111, + "grad_norm": 1.2828304818413017e-07, + "learning_rate": 4.146584362139918e-05, + "loss": 0.0, + "step": 17125 + }, + { + "epoch": 0.7622222222222222, + "grad_norm": 3.5283273973618634e-06, + "learning_rate": 4.144526748971193e-05, + "loss": 0.0, + "step": 17150 + }, + { + "epoch": 0.7633333333333333, + "grad_norm": 3.4567282369835084e-08, + "learning_rate": 4.142469135802469e-05, + "loss": 0.0, + "step": 17175 + }, + { + "epoch": 0.7644444444444445, + "grad_norm": 1.865073961937469e-08, + "learning_rate": 4.1404115226337456e-05, + "loss": 0.0, + "step": 17200 + }, + { + "epoch": 0.7655555555555555, + "grad_norm": 1.2435268104127317e-07, + "learning_rate": 4.138353909465021e-05, + "loss": 0.0, + "step": 17225 + }, + { + "epoch": 0.7666666666666667, + "grad_norm": 1.1260398480317235e-07, + "learning_rate": 4.1362962962962965e-05, + "loss": 0.0, + "step": 17250 + }, + { + "epoch": 0.7677777777777778, + "grad_norm": 1.5384321727651695e-07, + "learning_rate": 4.134238683127572e-05, + "loss": 0.0, + "step": 17275 + }, + { + "epoch": 0.7688888888888888, + "grad_norm": 3.32794712676332e-07, + "learning_rate": 4.132181069958848e-05, + "loss": 0.0, + "step": 17300 + }, + { + "epoch": 0.77, + "grad_norm": 1.8359732223416358e-07, + "learning_rate": 4.130123456790124e-05, + "loss": 0.0, + "step": 17325 + }, + { + "epoch": 0.7711111111111111, + "grad_norm": 2.1158383844976925e-07, + "learning_rate": 4.128065843621399e-05, + "loss": 0.0, + "step": 17350 + }, + { + "epoch": 0.7722222222222223, + "grad_norm": 1.2675806715378712e-07, + "learning_rate": 4.1260082304526755e-05, + "loss": 0.0, + "step": 17375 + }, + { + "epoch": 0.7733333333333333, + "grad_norm": 9.685437873940828e-08, + "learning_rate": 4.123950617283951e-05, + "loss": 0.0, + "step": 17400 + }, + { + "epoch": 0.7744444444444445, + "grad_norm": 6.725764478687779e-07, + "learning_rate": 4.1218930041152264e-05, + "loss": 0.0, + "step": 17425 + }, + { + "epoch": 0.7755555555555556, + "grad_norm": 1.9257448968801327e-07, + "learning_rate": 4.119835390946502e-05, + "loss": 0.0, + "step": 17450 + }, + { + "epoch": 0.7766666666666666, + "grad_norm": 1.34586173317075e-06, + "learning_rate": 4.117777777777778e-05, + "loss": 0.0, + "step": 17475 + }, + { + "epoch": 0.7777777777777778, + "grad_norm": 6.642077892138332e-07, + "learning_rate": 4.115720164609054e-05, + "loss": 0.0, + "step": 17500 + }, + { + "epoch": 0.7788888888888889, + "grad_norm": 4.022380650781088e-08, + "learning_rate": 4.1136625514403295e-05, + "loss": 0.0, + "step": 17525 + }, + { + "epoch": 0.78, + "grad_norm": 2.721791361182113e-07, + "learning_rate": 4.1116049382716047e-05, + "loss": 0.0, + "step": 17550 + }, + { + "epoch": 0.7811111111111111, + "grad_norm": 7.130137191779795e-08, + "learning_rate": 4.109547325102881e-05, + "loss": 0.0, + "step": 17575 + }, + { + "epoch": 0.7822222222222223, + "grad_norm": 1.3105491234455258e-06, + "learning_rate": 4.107489711934156e-05, + "loss": 0.0, + "step": 17600 + }, + { + "epoch": 0.7833333333333333, + "grad_norm": 2.0609236628388317e-07, + "learning_rate": 4.105432098765432e-05, + "loss": 0.0, + "step": 17625 + }, + { + "epoch": 0.7844444444444445, + "grad_norm": 8.541574914033845e-08, + "learning_rate": 4.1033744855967085e-05, + "loss": 0.0, + "step": 17650 + }, + { + "epoch": 0.7855555555555556, + "grad_norm": 1.3749074412316986e-07, + "learning_rate": 4.1013168724279836e-05, + "loss": 0.0, + "step": 17675 + }, + { + "epoch": 0.7866666666666666, + "grad_norm": 5.34517567984949e-08, + "learning_rate": 4.0992592592592594e-05, + "loss": 0.0, + "step": 17700 + }, + { + "epoch": 0.7877777777777778, + "grad_norm": 1.5909523654045188e-07, + "learning_rate": 4.097201646090535e-05, + "loss": 0.0, + "step": 17725 + }, + { + "epoch": 0.7888888888888889, + "grad_norm": 9.275804302433244e-08, + "learning_rate": 4.095144032921811e-05, + "loss": 0.0, + "step": 17750 + }, + { + "epoch": 0.79, + "grad_norm": 1.7962072718091804e-07, + "learning_rate": 4.093086419753087e-05, + "loss": 0.0, + "step": 17775 + }, + { + "epoch": 0.7911111111111111, + "grad_norm": 2.381077592872316e-07, + "learning_rate": 4.091028806584362e-05, + "loss": 0.0, + "step": 17800 + }, + { + "epoch": 0.7922222222222223, + "grad_norm": 3.979031504286468e-08, + "learning_rate": 4.0889711934156384e-05, + "loss": 0.0, + "step": 17825 + }, + { + "epoch": 0.7933333333333333, + "grad_norm": 1.5142491349706688e-07, + "learning_rate": 4.086913580246914e-05, + "loss": 0.0, + "step": 17850 + }, + { + "epoch": 0.7944444444444444, + "grad_norm": 3.0703185416314227e-07, + "learning_rate": 4.084855967078189e-05, + "loss": 0.0, + "step": 17875 + }, + { + "epoch": 0.7955555555555556, + "grad_norm": 9.710272053098379e-08, + "learning_rate": 4.082798353909465e-05, + "loss": 0.0, + "step": 17900 + }, + { + "epoch": 0.7966666666666666, + "grad_norm": 9.817106416676324e-08, + "learning_rate": 4.080740740740741e-05, + "loss": 0.0, + "step": 17925 + }, + { + "epoch": 0.7977777777777778, + "grad_norm": 1.1524888066105632e-07, + "learning_rate": 4.078683127572017e-05, + "loss": 0.0, + "step": 17950 + }, + { + "epoch": 0.7988888888888889, + "grad_norm": 1.3456376564136008e-06, + "learning_rate": 4.0766255144032925e-05, + "loss": 0.0, + "step": 17975 + }, + { + "epoch": 0.8, + "grad_norm": 8.288744623996536e-08, + "learning_rate": 4.074567901234568e-05, + "loss": 0.0, + "step": 18000 + }, + { + "epoch": 0.8011111111111111, + "grad_norm": 4.891197846745854e-08, + "learning_rate": 4.0725925925925926e-05, + "loss": 0.0, + "step": 18025 + }, + { + "epoch": 0.8022222222222222, + "grad_norm": 7.510957971135213e-07, + "learning_rate": 4.0705349794238683e-05, + "loss": 0.0, + "step": 18050 + }, + { + "epoch": 0.8033333333333333, + "grad_norm": 6.862352819325679e-08, + "learning_rate": 4.068477366255144e-05, + "loss": 0.0, + "step": 18075 + }, + { + "epoch": 0.8044444444444444, + "grad_norm": 8.81375683547958e-08, + "learning_rate": 4.06641975308642e-05, + "loss": 0.0, + "step": 18100 + }, + { + "epoch": 0.8055555555555556, + "grad_norm": 1.0784353321469098e-07, + "learning_rate": 4.064362139917696e-05, + "loss": 0.0, + "step": 18125 + }, + { + "epoch": 0.8066666666666666, + "grad_norm": 5.996189145207609e-08, + "learning_rate": 4.0623045267489715e-05, + "loss": 0.0, + "step": 18150 + }, + { + "epoch": 0.8077777777777778, + "grad_norm": 5.1186916039114294e-08, + "learning_rate": 4.060246913580247e-05, + "loss": 0.0, + "step": 18175 + }, + { + "epoch": 0.8088888888888889, + "grad_norm": 1.3724070413445588e-07, + "learning_rate": 4.058189300411523e-05, + "loss": 0.0, + "step": 18200 + }, + { + "epoch": 0.81, + "grad_norm": 8.716475008441193e-08, + "learning_rate": 4.056131687242798e-05, + "loss": 0.0, + "step": 18225 + }, + { + "epoch": 0.8111111111111111, + "grad_norm": 1.4221980393358535e-07, + "learning_rate": 4.054074074074074e-05, + "loss": 0.0, + "step": 18250 + }, + { + "epoch": 0.8122222222222222, + "grad_norm": 2.2837893354221706e-08, + "learning_rate": 4.0520164609053505e-05, + "loss": 0.0, + "step": 18275 + }, + { + "epoch": 0.8133333333333334, + "grad_norm": 1.546926142736993e-07, + "learning_rate": 4.0499588477366256e-05, + "loss": 0.0, + "step": 18300 + }, + { + "epoch": 0.8144444444444444, + "grad_norm": 2.5556799343462444e-08, + "learning_rate": 4.0479012345679014e-05, + "loss": 0.0, + "step": 18325 + }, + { + "epoch": 0.8155555555555556, + "grad_norm": 1.7456945045069006e-07, + "learning_rate": 4.045843621399177e-05, + "loss": 0.0, + "step": 18350 + }, + { + "epoch": 0.8166666666666667, + "grad_norm": 2.1472280309353664e-07, + "learning_rate": 4.043786008230453e-05, + "loss": 0.0, + "step": 18375 + }, + { + "epoch": 0.8177777777777778, + "grad_norm": 2.2142235422961676e-07, + "learning_rate": 4.041728395061729e-05, + "loss": 0.0, + "step": 18400 + }, + { + "epoch": 0.8188888888888889, + "grad_norm": 5.408443115584305e-08, + "learning_rate": 4.039670781893004e-05, + "loss": 0.0, + "step": 18425 + }, + { + "epoch": 0.82, + "grad_norm": 5.613863507392125e-08, + "learning_rate": 4.0376131687242804e-05, + "loss": 0.0, + "step": 18450 + }, + { + "epoch": 0.8211111111111111, + "grad_norm": 9.596029570957398e-08, + "learning_rate": 4.0355555555555555e-05, + "loss": 0.0, + "step": 18475 + }, + { + "epoch": 0.8222222222222222, + "grad_norm": 2.1405883288139194e-08, + "learning_rate": 4.033497942386831e-05, + "loss": 0.0, + "step": 18500 + }, + { + "epoch": 0.8233333333333334, + "grad_norm": 6.747659426764585e-07, + "learning_rate": 4.031440329218108e-05, + "loss": 0.0, + "step": 18525 + }, + { + "epoch": 0.8244444444444444, + "grad_norm": 2.1127279481447658e-08, + "learning_rate": 4.029382716049383e-05, + "loss": 0.0, + "step": 18550 + }, + { + "epoch": 0.8255555555555556, + "grad_norm": 2.2696335122418532e-07, + "learning_rate": 4.0273251028806586e-05, + "loss": 0.0, + "step": 18575 + }, + { + "epoch": 0.8266666666666667, + "grad_norm": 1.1106653801107313e-06, + "learning_rate": 4.0252674897119344e-05, + "loss": 0.0, + "step": 18600 + }, + { + "epoch": 0.8277777777777777, + "grad_norm": 6.238992682483513e-07, + "learning_rate": 4.02320987654321e-05, + "loss": 0.0, + "step": 18625 + }, + { + "epoch": 0.8288888888888889, + "grad_norm": 5.953022252924711e-08, + "learning_rate": 4.021152263374486e-05, + "loss": 0.0, + "step": 18650 + }, + { + "epoch": 0.83, + "grad_norm": 4.2105284592253156e-08, + "learning_rate": 4.019094650205761e-05, + "loss": 0.0, + "step": 18675 + }, + { + "epoch": 0.8311111111111111, + "grad_norm": 5.1640551390619294e-08, + "learning_rate": 4.0170370370370376e-05, + "loss": 0.0, + "step": 18700 + }, + { + "epoch": 0.8322222222222222, + "grad_norm": 2.7465003427096235e-07, + "learning_rate": 4.014979423868313e-05, + "loss": 0.0, + "step": 18725 + }, + { + "epoch": 0.8333333333333334, + "grad_norm": 2.6216623538743988e-08, + "learning_rate": 4.0129218106995885e-05, + "loss": 0.0, + "step": 18750 + }, + { + "epoch": 0.8344444444444444, + "grad_norm": 3.4971122886418016e-08, + "learning_rate": 4.010864197530864e-05, + "loss": 0.0, + "step": 18775 + }, + { + "epoch": 0.8355555555555556, + "grad_norm": 1.1908077368616432e-07, + "learning_rate": 4.00880658436214e-05, + "loss": 0.0, + "step": 18800 + }, + { + "epoch": 0.8366666666666667, + "grad_norm": 1.602541175316219e-07, + "learning_rate": 4.006748971193416e-05, + "loss": 0.0, + "step": 18825 + }, + { + "epoch": 0.8377777777777777, + "grad_norm": 1.7420974884885254e-08, + "learning_rate": 4.004691358024692e-05, + "loss": 0.0, + "step": 18850 + }, + { + "epoch": 0.8388888888888889, + "grad_norm": 5.6299505502011016e-08, + "learning_rate": 4.0026337448559675e-05, + "loss": 0.0, + "step": 18875 + }, + { + "epoch": 0.84, + "grad_norm": 7.50843227592668e-08, + "learning_rate": 4.000576131687243e-05, + "loss": 0.0, + "step": 18900 + }, + { + "epoch": 0.8411111111111111, + "grad_norm": 3.9959406450407187e-08, + "learning_rate": 3.9985185185185184e-05, + "loss": 0.0, + "step": 18925 + }, + { + "epoch": 0.8422222222222222, + "grad_norm": 2.86921508774185e-08, + "learning_rate": 3.996460905349794e-05, + "loss": 0.0, + "step": 18950 + }, + { + "epoch": 0.8433333333333334, + "grad_norm": 7.228687337601514e-08, + "learning_rate": 3.9944032921810706e-05, + "loss": 0.0, + "step": 18975 + }, + { + "epoch": 0.8444444444444444, + "grad_norm": 5.1904184061868364e-08, + "learning_rate": 3.992345679012346e-05, + "loss": 0.0, + "step": 19000 + }, + { + "epoch": 0.8455555555555555, + "grad_norm": 7.607641094864448e-08, + "learning_rate": 3.9902880658436216e-05, + "loss": 0.0, + "step": 19025 + }, + { + "epoch": 0.8466666666666667, + "grad_norm": 2.1305911701574587e-08, + "learning_rate": 3.9882304526748973e-05, + "loss": 0.0, + "step": 19050 + }, + { + "epoch": 0.8477777777777777, + "grad_norm": 3.2069900157694065e-07, + "learning_rate": 3.986172839506173e-05, + "loss": 0.0, + "step": 19075 + }, + { + "epoch": 0.8488888888888889, + "grad_norm": 3.823398628810537e-07, + "learning_rate": 3.984115226337449e-05, + "loss": 0.0, + "step": 19100 + }, + { + "epoch": 0.85, + "grad_norm": 4.744386217225838e-08, + "learning_rate": 3.982057613168724e-05, + "loss": 0.0, + "step": 19125 + }, + { + "epoch": 0.8511111111111112, + "grad_norm": 4.418669519168361e-08, + "learning_rate": 3.9800000000000005e-05, + "loss": 0.0, + "step": 19150 + }, + { + "epoch": 0.8522222222222222, + "grad_norm": 1.0017078722057704e-07, + "learning_rate": 3.9779423868312756e-05, + "loss": 0.0, + "step": 19175 + }, + { + "epoch": 0.8533333333333334, + "grad_norm": 2.721318637100012e-08, + "learning_rate": 3.9758847736625514e-05, + "loss": 0.0, + "step": 19200 + }, + { + "epoch": 0.8544444444444445, + "grad_norm": 1.0211729772890976e-07, + "learning_rate": 3.973827160493827e-05, + "loss": 0.0, + "step": 19225 + }, + { + "epoch": 0.8555555555555555, + "grad_norm": 3.518853475270589e-08, + "learning_rate": 3.971769547325103e-05, + "loss": 0.0, + "step": 19250 + }, + { + "epoch": 0.8566666666666667, + "grad_norm": 2.40841888654586e-08, + "learning_rate": 3.969711934156379e-05, + "loss": 0.0, + "step": 19275 + }, + { + "epoch": 0.8577777777777778, + "grad_norm": 3.4186037112249323e-08, + "learning_rate": 3.9676543209876546e-05, + "loss": 0.0, + "step": 19300 + }, + { + "epoch": 0.8588888888888889, + "grad_norm": 7.008900411165087e-07, + "learning_rate": 3.9655967078189304e-05, + "loss": 0.0, + "step": 19325 + }, + { + "epoch": 0.86, + "grad_norm": 3.088114297611355e-08, + "learning_rate": 3.963539094650206e-05, + "loss": 0.0, + "step": 19350 + }, + { + "epoch": 0.8611111111111112, + "grad_norm": 1.5293788635517558e-07, + "learning_rate": 3.961481481481481e-05, + "loss": 0.0, + "step": 19375 + }, + { + "epoch": 0.8622222222222222, + "grad_norm": 2.5831983663238134e-08, + "learning_rate": 3.959423868312757e-05, + "loss": 0.0, + "step": 19400 + }, + { + "epoch": 0.8633333333333333, + "grad_norm": 3.145752103250743e-08, + "learning_rate": 3.9573662551440336e-05, + "loss": 0.0, + "step": 19425 + }, + { + "epoch": 0.8644444444444445, + "grad_norm": 4.306505374529479e-08, + "learning_rate": 3.955308641975309e-05, + "loss": 0.0, + "step": 19450 + }, + { + "epoch": 0.8655555555555555, + "grad_norm": 1.6387922130434163e-07, + "learning_rate": 3.9532510288065845e-05, + "loss": 0.0, + "step": 19475 + }, + { + "epoch": 0.8666666666666667, + "grad_norm": 2.3762456891063266e-08, + "learning_rate": 3.95119341563786e-05, + "loss": 0.0, + "step": 19500 + }, + { + "epoch": 0.8677777777777778, + "grad_norm": 1.3711802182569954e-07, + "learning_rate": 3.949135802469136e-05, + "loss": 0.0, + "step": 19525 + }, + { + "epoch": 0.8688888888888889, + "grad_norm": 1.0624601287645419e-07, + "learning_rate": 3.947078189300412e-05, + "loss": 0.0, + "step": 19550 + }, + { + "epoch": 0.87, + "grad_norm": 7.308613021450583e-07, + "learning_rate": 3.945020576131687e-05, + "loss": 0.0, + "step": 19575 + }, + { + "epoch": 0.8711111111111111, + "grad_norm": 2.499114543752512e-06, + "learning_rate": 3.9429629629629634e-05, + "loss": 0.0, + "step": 19600 + }, + { + "epoch": 0.8722222222222222, + "grad_norm": 6.477984726416253e-08, + "learning_rate": 3.9409053497942385e-05, + "loss": 0.0, + "step": 19625 + }, + { + "epoch": 0.8733333333333333, + "grad_norm": 8.537972462363541e-08, + "learning_rate": 3.9388477366255143e-05, + "loss": 0.0, + "step": 19650 + }, + { + "epoch": 0.8744444444444445, + "grad_norm": 1.9858550359685978e-08, + "learning_rate": 3.936790123456791e-05, + "loss": 0.0, + "step": 19675 + }, + { + "epoch": 0.8755555555555555, + "grad_norm": 4.5879669841042414e-08, + "learning_rate": 3.934732510288066e-05, + "loss": 0.0, + "step": 19700 + }, + { + "epoch": 0.8766666666666667, + "grad_norm": 1.0514568060671081e-07, + "learning_rate": 3.932674897119342e-05, + "loss": 0.0, + "step": 19725 + }, + { + "epoch": 0.8777777777777778, + "grad_norm": 1.144682659770524e-08, + "learning_rate": 3.9306172839506175e-05, + "loss": 0.0, + "step": 19750 + }, + { + "epoch": 0.8788888888888889, + "grad_norm": 2.8756454995004788e-08, + "learning_rate": 3.928559670781893e-05, + "loss": 0.0, + "step": 19775 + }, + { + "epoch": 0.88, + "grad_norm": 4.4100350038434044e-08, + "learning_rate": 3.926502057613169e-05, + "loss": 0.0, + "step": 19800 + }, + { + "epoch": 0.8811111111111111, + "grad_norm": 1.7081555725440012e-08, + "learning_rate": 3.924444444444444e-05, + "loss": 0.0, + "step": 19825 + }, + { + "epoch": 0.8822222222222222, + "grad_norm": 6.385182160784098e-08, + "learning_rate": 3.922386831275721e-05, + "loss": 0.0, + "step": 19850 + }, + { + "epoch": 0.8833333333333333, + "grad_norm": 5.551220638722043e-08, + "learning_rate": 3.9203292181069965e-05, + "loss": 0.0, + "step": 19875 + }, + { + "epoch": 0.8844444444444445, + "grad_norm": 3.049133923127556e-08, + "learning_rate": 3.9182716049382716e-05, + "loss": 0.0, + "step": 19900 + }, + { + "epoch": 0.8855555555555555, + "grad_norm": 8.446400556749722e-08, + "learning_rate": 3.9162139917695474e-05, + "loss": 0.0, + "step": 19925 + }, + { + "epoch": 0.8866666666666667, + "grad_norm": 1.2771853796778032e-08, + "learning_rate": 3.914156378600823e-05, + "loss": 0.0, + "step": 19950 + }, + { + "epoch": 0.8877777777777778, + "grad_norm": 4.0204323425996336e-08, + "learning_rate": 3.912098765432099e-05, + "loss": 0.0, + "step": 19975 + }, + { + "epoch": 0.8888888888888888, + "grad_norm": 1.4432976591649549e-08, + "learning_rate": 3.910041152263375e-05, + "loss": 0.0, + "step": 20000 + }, + { + "epoch": 0.89, + "grad_norm": 1.2371276625344763e-07, + "learning_rate": 3.9080658436214e-05, + "loss": 0.0, + "step": 20025 + }, + { + "epoch": 0.8911111111111111, + "grad_norm": 5.894499111036566e-08, + "learning_rate": 3.906008230452675e-05, + "loss": 0.0, + "step": 20050 + }, + { + "epoch": 0.8922222222222222, + "grad_norm": 1.702962464378288e-07, + "learning_rate": 3.9039506172839507e-05, + "loss": 0.0, + "step": 20075 + }, + { + "epoch": 0.8933333333333333, + "grad_norm": 3.5387557772992295e-08, + "learning_rate": 3.9018930041152264e-05, + "loss": 0.0, + "step": 20100 + }, + { + "epoch": 0.8944444444444445, + "grad_norm": 1.9281090501976905e-08, + "learning_rate": 3.899835390946502e-05, + "loss": 0.0, + "step": 20125 + }, + { + "epoch": 0.8955555555555555, + "grad_norm": 5.5843738522298736e-08, + "learning_rate": 3.897777777777778e-05, + "loss": 0.0, + "step": 20150 + }, + { + "epoch": 0.8966666666666666, + "grad_norm": 1.1890296036654036e-07, + "learning_rate": 3.895720164609054e-05, + "loss": 0.0, + "step": 20175 + }, + { + "epoch": 0.8977777777777778, + "grad_norm": 1.4851042351438082e-07, + "learning_rate": 3.8936625514403296e-05, + "loss": 0.0, + "step": 20200 + }, + { + "epoch": 0.8988888888888888, + "grad_norm": 7.470197260772693e-08, + "learning_rate": 3.8916049382716054e-05, + "loss": 0.0, + "step": 20225 + }, + { + "epoch": 0.9, + "grad_norm": 3.475415866205367e-08, + "learning_rate": 3.8895473251028805e-05, + "loss": 0.0, + "step": 20250 + }, + { + "epoch": 0.9011111111111111, + "grad_norm": 1.252883379265768e-07, + "learning_rate": 3.887489711934156e-05, + "loss": 0.0, + "step": 20275 + }, + { + "epoch": 0.9022222222222223, + "grad_norm": 2.4945748577920313e-08, + "learning_rate": 3.885432098765433e-05, + "loss": 0.0, + "step": 20300 + }, + { + "epoch": 0.9033333333333333, + "grad_norm": 5.7735789482649125e-08, + "learning_rate": 3.883374485596708e-05, + "loss": 0.0, + "step": 20325 + }, + { + "epoch": 0.9044444444444445, + "grad_norm": 3.910911416937779e-08, + "learning_rate": 3.881316872427984e-05, + "loss": 0.0, + "step": 20350 + }, + { + "epoch": 0.9055555555555556, + "grad_norm": 3.3207260941026107e-08, + "learning_rate": 3.8792592592592595e-05, + "loss": 0.0, + "step": 20375 + }, + { + "epoch": 0.9066666666666666, + "grad_norm": 1.6253990153813902e-08, + "learning_rate": 3.877201646090535e-05, + "loss": 0.0, + "step": 20400 + }, + { + "epoch": 0.9077777777777778, + "grad_norm": 2.1175987185984013e-08, + "learning_rate": 3.875144032921811e-05, + "loss": 0.0, + "step": 20425 + }, + { + "epoch": 0.9088888888888889, + "grad_norm": 5.787135748391847e-08, + "learning_rate": 3.873086419753086e-05, + "loss": 0.0, + "step": 20450 + }, + { + "epoch": 0.91, + "grad_norm": 8.148268193508557e-08, + "learning_rate": 3.8710288065843627e-05, + "loss": 0.0, + "step": 20475 + }, + { + "epoch": 0.9111111111111111, + "grad_norm": 9.167182568603494e-09, + "learning_rate": 3.868971193415638e-05, + "loss": 0.0, + "step": 20500 + }, + { + "epoch": 0.9122222222222223, + "grad_norm": 3.269274628792118e-08, + "learning_rate": 3.8669135802469136e-05, + "loss": 0.0, + "step": 20525 + }, + { + "epoch": 0.9133333333333333, + "grad_norm": 7.458714179620074e-08, + "learning_rate": 3.86485596707819e-05, + "loss": 0.0, + "step": 20550 + }, + { + "epoch": 0.9144444444444444, + "grad_norm": 9.583666127355173e-08, + "learning_rate": 3.862798353909465e-05, + "loss": 0.0, + "step": 20575 + }, + { + "epoch": 0.9155555555555556, + "grad_norm": 1.8491519426788727e-08, + "learning_rate": 3.860740740740741e-05, + "loss": 0.0, + "step": 20600 + }, + { + "epoch": 0.9166666666666666, + "grad_norm": 3.2534579474940983e-08, + "learning_rate": 3.858683127572017e-05, + "loss": 0.0, + "step": 20625 + }, + { + "epoch": 0.9177777777777778, + "grad_norm": 6.032392718680057e-08, + "learning_rate": 3.8566255144032925e-05, + "loss": 0.0, + "step": 20650 + }, + { + "epoch": 0.9188888888888889, + "grad_norm": 4.141419651659817e-08, + "learning_rate": 3.854567901234568e-05, + "loss": 0.0, + "step": 20675 + }, + { + "epoch": 0.92, + "grad_norm": 3.490159272701021e-08, + "learning_rate": 3.8525102880658434e-05, + "loss": 0.0, + "step": 20700 + }, + { + "epoch": 0.9211111111111111, + "grad_norm": 7.791673795054521e-08, + "learning_rate": 3.850452674897119e-05, + "loss": 0.0, + "step": 20725 + }, + { + "epoch": 0.9222222222222223, + "grad_norm": 4.0457379668623616e-08, + "learning_rate": 3.848395061728396e-05, + "loss": 0.0, + "step": 20750 + }, + { + "epoch": 0.9233333333333333, + "grad_norm": 2.980848634592803e-08, + "learning_rate": 3.846337448559671e-05, + "loss": 0.0, + "step": 20775 + }, + { + "epoch": 0.9244444444444444, + "grad_norm": 3.1338174721895484e-08, + "learning_rate": 3.8442798353909466e-05, + "loss": 0.0, + "step": 20800 + }, + { + "epoch": 0.9255555555555556, + "grad_norm": 9.640140063993385e-08, + "learning_rate": 3.8422222222222224e-05, + "loss": 0.0, + "step": 20825 + }, + { + "epoch": 0.9266666666666666, + "grad_norm": 6.023613252637006e-08, + "learning_rate": 3.840164609053498e-05, + "loss": 0.0, + "step": 20850 + }, + { + "epoch": 0.9277777777777778, + "grad_norm": 5.572548644749986e-08, + "learning_rate": 3.838106995884774e-05, + "loss": 0.0, + "step": 20875 + }, + { + "epoch": 0.9288888888888889, + "grad_norm": 2.7882661512990126e-08, + "learning_rate": 3.836049382716049e-05, + "loss": 0.0, + "step": 20900 + }, + { + "epoch": 0.93, + "grad_norm": 1.9790975969158353e-08, + "learning_rate": 3.8339917695473256e-05, + "loss": 0.0, + "step": 20925 + }, + { + "epoch": 0.9311111111111111, + "grad_norm": 4.5308805596278034e-08, + "learning_rate": 3.831934156378601e-05, + "loss": 0.0, + "step": 20950 + }, + { + "epoch": 0.9322222222222222, + "grad_norm": 3.3255190601266804e-08, + "learning_rate": 3.8298765432098765e-05, + "loss": 0.0, + "step": 20975 + }, + { + "epoch": 0.9333333333333333, + "grad_norm": 4.8820798070892124e-08, + "learning_rate": 3.827818930041153e-05, + "loss": 0.0, + "step": 21000 + }, + { + "epoch": 0.9344444444444444, + "grad_norm": 1.82097554812799e-08, + "learning_rate": 3.825761316872428e-05, + "loss": 0.0, + "step": 21025 + }, + { + "epoch": 0.9355555555555556, + "grad_norm": 2.295763046333832e-08, + "learning_rate": 3.823703703703704e-05, + "loss": 0.0, + "step": 21050 + }, + { + "epoch": 0.9366666666666666, + "grad_norm": 4.2483367934664784e-08, + "learning_rate": 3.8216460905349797e-05, + "loss": 0.0, + "step": 21075 + }, + { + "epoch": 0.9377777777777778, + "grad_norm": 6.7407439630073895e-09, + "learning_rate": 3.8195884773662554e-05, + "loss": 0.0, + "step": 21100 + }, + { + "epoch": 0.9388888888888889, + "grad_norm": 2.6552733345397428e-08, + "learning_rate": 3.817530864197531e-05, + "loss": 0.0, + "step": 21125 + }, + { + "epoch": 0.94, + "grad_norm": 7.107109212256546e-08, + "learning_rate": 3.8154732510288064e-05, + "loss": 0.0, + "step": 21150 + }, + { + "epoch": 0.9411111111111111, + "grad_norm": 5.6223212752115614e-09, + "learning_rate": 3.813415637860083e-05, + "loss": 0.0, + "step": 21175 + }, + { + "epoch": 0.9422222222222222, + "grad_norm": 3.006966409202505e-08, + "learning_rate": 3.811358024691358e-05, + "loss": 0.0, + "step": 21200 + }, + { + "epoch": 0.9433333333333334, + "grad_norm": 3.6611034204270254e-08, + "learning_rate": 3.809300411522634e-05, + "loss": 0.0, + "step": 21225 + }, + { + "epoch": 0.9444444444444444, + "grad_norm": 1.836755636475118e-08, + "learning_rate": 3.8072427983539095e-05, + "loss": 0.0, + "step": 21250 + }, + { + "epoch": 0.9455555555555556, + "grad_norm": 6.027551791021324e-08, + "learning_rate": 3.805185185185185e-05, + "loss": 0.0, + "step": 21275 + }, + { + "epoch": 0.9466666666666667, + "grad_norm": 1.4414903048987071e-08, + "learning_rate": 3.803127572016461e-05, + "loss": 0.0, + "step": 21300 + }, + { + "epoch": 0.9477777777777778, + "grad_norm": 5.0708489851558625e-08, + "learning_rate": 3.801069958847737e-05, + "loss": 0.0, + "step": 21325 + }, + { + "epoch": 0.9488888888888889, + "grad_norm": 2.1980559594680926e-08, + "learning_rate": 3.799012345679013e-05, + "loss": 0.0, + "step": 21350 + }, + { + "epoch": 0.95, + "grad_norm": 1.6549771331142438e-08, + "learning_rate": 3.7969547325102885e-05, + "loss": 0.0, + "step": 21375 + }, + { + "epoch": 0.9511111111111111, + "grad_norm": 1.5712142698021125e-08, + "learning_rate": 3.7948971193415636e-05, + "loss": 0.0, + "step": 21400 + }, + { + "epoch": 0.9522222222222222, + "grad_norm": 2.3586942177189485e-08, + "learning_rate": 3.7928395061728394e-05, + "loss": 0.0, + "step": 21425 + }, + { + "epoch": 0.9533333333333334, + "grad_norm": 2.5959911553741222e-08, + "learning_rate": 3.790781893004116e-05, + "loss": 0.0, + "step": 21450 + }, + { + "epoch": 0.9544444444444444, + "grad_norm": 6.923404072267658e-08, + "learning_rate": 3.788724279835391e-05, + "loss": 0.0, + "step": 21475 + }, + { + "epoch": 0.9555555555555556, + "grad_norm": 2.379858266010615e-08, + "learning_rate": 3.786666666666667e-05, + "loss": 0.0, + "step": 21500 + }, + { + "epoch": 0.9566666666666667, + "grad_norm": 1.5855077251103467e-08, + "learning_rate": 3.7846090534979426e-05, + "loss": 0.0, + "step": 21525 + }, + { + "epoch": 0.9577777777777777, + "grad_norm": 1.3608853066671145e-07, + "learning_rate": 3.7825514403292184e-05, + "loss": 0.0, + "step": 21550 + }, + { + "epoch": 0.9588888888888889, + "grad_norm": 1.2457680220734346e-08, + "learning_rate": 3.780493827160494e-05, + "loss": 0.0, + "step": 21575 + }, + { + "epoch": 0.96, + "grad_norm": 1.7862140211377664e-08, + "learning_rate": 3.778436213991769e-05, + "loss": 0.0, + "step": 21600 + }, + { + "epoch": 0.9611111111111111, + "grad_norm": 7.448067496085287e-09, + "learning_rate": 3.776378600823046e-05, + "loss": 0.0, + "step": 21625 + }, + { + "epoch": 0.9622222222222222, + "grad_norm": 5.747939901823429e-09, + "learning_rate": 3.774320987654321e-05, + "loss": 0.0, + "step": 21650 + }, + { + "epoch": 0.9633333333333334, + "grad_norm": 2.2290461032525855e-08, + "learning_rate": 3.7722633744855966e-05, + "loss": 0.0, + "step": 21675 + }, + { + "epoch": 0.9644444444444444, + "grad_norm": 2.0286242374822905e-07, + "learning_rate": 3.770205761316873e-05, + "loss": 0.0, + "step": 21700 + }, + { + "epoch": 0.9655555555555555, + "grad_norm": 7.90263943173386e-09, + "learning_rate": 3.768148148148148e-05, + "loss": 0.0, + "step": 21725 + }, + { + "epoch": 0.9666666666666667, + "grad_norm": 5.981634387808299e-08, + "learning_rate": 3.766090534979424e-05, + "loss": 0.0, + "step": 21750 + }, + { + "epoch": 0.9677777777777777, + "grad_norm": 6.4765219853768485e-09, + "learning_rate": 3.7640329218107e-05, + "loss": 0.0, + "step": 21775 + }, + { + "epoch": 0.9688888888888889, + "grad_norm": 1.433678846751718e-07, + "learning_rate": 3.7619753086419756e-05, + "loss": 0.0, + "step": 21800 + }, + { + "epoch": 0.97, + "grad_norm": 1.5478752501962845e-08, + "learning_rate": 3.7599176954732514e-05, + "loss": 0.0, + "step": 21825 + }, + { + "epoch": 0.9711111111111111, + "grad_norm": 3.469119036481061e-08, + "learning_rate": 3.7578600823045265e-05, + "loss": 0.0, + "step": 21850 + }, + { + "epoch": 0.9722222222222222, + "grad_norm": 3.6243910983557726e-08, + "learning_rate": 3.755802469135803e-05, + "loss": 0.0, + "step": 21875 + }, + { + "epoch": 0.9733333333333334, + "grad_norm": 2.266932419558998e-08, + "learning_rate": 3.753744855967079e-05, + "loss": 0.0, + "step": 21900 + }, + { + "epoch": 0.9744444444444444, + "grad_norm": 1.2376703217853446e-08, + "learning_rate": 3.751687242798354e-05, + "loss": 0.0, + "step": 21925 + }, + { + "epoch": 0.9755555555555555, + "grad_norm": 5.250441414972329e-09, + "learning_rate": 3.74962962962963e-05, + "loss": 0.0, + "step": 21950 + }, + { + "epoch": 0.9766666666666667, + "grad_norm": 9.76529506147017e-08, + "learning_rate": 3.7475720164609055e-05, + "loss": 0.0, + "step": 21975 + }, + { + "epoch": 0.9777777777777777, + "grad_norm": 3.0893893665506766e-08, + "learning_rate": 3.745514403292181e-05, + "loss": 0.0, + "step": 22000 + }, + { + "epoch": 0.9788888888888889, + "grad_norm": 9.534746681083561e-08, + "learning_rate": 3.7435390946502056e-05, + "loss": 0.0, + "step": 22025 + }, + { + "epoch": 0.98, + "grad_norm": 5.265806279908247e-08, + "learning_rate": 3.741481481481482e-05, + "loss": 0.0, + "step": 22050 + }, + { + "epoch": 0.9811111111111112, + "grad_norm": 6.565467458585772e-08, + "learning_rate": 3.739423868312757e-05, + "loss": 0.0, + "step": 22075 + }, + { + "epoch": 0.9822222222222222, + "grad_norm": 3.60783580788393e-08, + "learning_rate": 3.737366255144033e-05, + "loss": 0.0, + "step": 22100 + }, + { + "epoch": 0.9833333333333333, + "grad_norm": 8.53501980202509e-09, + "learning_rate": 3.735308641975309e-05, + "loss": 0.0, + "step": 22125 + }, + { + "epoch": 0.9844444444444445, + "grad_norm": 1.4012258908735475e-08, + "learning_rate": 3.7332510288065845e-05, + "loss": 0.0, + "step": 22150 + }, + { + "epoch": 0.9855555555555555, + "grad_norm": 6.121535278680312e-08, + "learning_rate": 3.73119341563786e-05, + "loss": 0.0, + "step": 22175 + }, + { + "epoch": 0.9866666666666667, + "grad_norm": 2.3274740357237533e-08, + "learning_rate": 3.729135802469136e-05, + "loss": 0.0, + "step": 22200 + }, + { + "epoch": 0.9877777777777778, + "grad_norm": 1.7912750394089016e-08, + "learning_rate": 3.727078189300412e-05, + "loss": 0.0, + "step": 22225 + }, + { + "epoch": 0.9888888888888889, + "grad_norm": 4.257301000620828e-08, + "learning_rate": 3.725020576131688e-05, + "loss": 0.0, + "step": 22250 + }, + { + "epoch": 0.99, + "grad_norm": 1.084113065985548e-08, + "learning_rate": 3.722962962962963e-05, + "loss": 0.0, + "step": 22275 + }, + { + "epoch": 0.9911111111111112, + "grad_norm": 4.771711559214964e-08, + "learning_rate": 3.7209053497942386e-05, + "loss": 0.0, + "step": 22300 + }, + { + "epoch": 0.9922222222222222, + "grad_norm": 2.7190802498466837e-08, + "learning_rate": 3.718847736625515e-05, + "loss": 0.0, + "step": 22325 + }, + { + "epoch": 0.9933333333333333, + "grad_norm": 1.0970071073757026e-08, + "learning_rate": 3.71679012345679e-05, + "loss": 0.0, + "step": 22350 + }, + { + "epoch": 0.9944444444444445, + "grad_norm": 1.2168166563242266e-07, + "learning_rate": 3.714732510288066e-05, + "loss": 0.0, + "step": 22375 + }, + { + "epoch": 0.9955555555555555, + "grad_norm": 1.0501924663230966e-07, + "learning_rate": 3.712674897119342e-05, + "loss": 0.0, + "step": 22400 + }, + { + "epoch": 0.9966666666666667, + "grad_norm": 1.0621900692342479e-08, + "learning_rate": 3.7106172839506176e-05, + "loss": 0.0, + "step": 22425 + }, + { + "epoch": 0.9977777777777778, + "grad_norm": 1.124675463870517e-08, + "learning_rate": 3.7085596707818934e-05, + "loss": 0.0, + "step": 22450 + }, + { + "epoch": 0.9988888888888889, + "grad_norm": 2.3832901874243362e-08, + "learning_rate": 3.7065020576131685e-05, + "loss": 0.0, + "step": 22475 + }, + { + "epoch": 1.0, + "grad_norm": 3.799878456334227e-08, + "learning_rate": 3.704444444444445e-05, + "loss": 0.0, + "step": 22500 + }, + { + "epoch": 1.0, + "eval_accuracy": 1.0, + "eval_f1_macro": 1.0, + "eval_f1_micro": 1.0, + "eval_f1_weighted": 1.0, + "eval_loss": 0.0, + "eval_precision_macro": 1.0, + "eval_precision_micro": 1.0, + "eval_precision_weighted": 1.0, + "eval_recall_macro": 1.0, + "eval_recall_micro": 1.0, + "eval_recall_weighted": 1.0, + "eval_runtime": 22.5265, + "eval_samples_per_second": 887.844, + "eval_steps_per_second": 55.49, + "step": 22500 + } + ], + "logging_steps": 25, + "max_steps": 67500, + "num_input_tokens_seen": 0, + "num_train_epochs": 3, + "save_steps": 500, + "stateful_callbacks": { + "EarlyStoppingCallback": { + "args": { + "early_stopping_patience": 5, + "early_stopping_threshold": 0.01 + }, + "attributes": { + "early_stopping_patience_counter": 0 + } + }, + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": false + }, + "attributes": {} + } + }, + "total_flos": 5961139246080000.0, + "train_batch_size": 8, + "trial_name": null, + "trial_params": null +}