Model save

Browse files

Files changed (3) hide show

all_results.json +9 -0
train_results.json +9 -0
trainer_state.json +749 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.7769582932142868,
+    "train_runtime": 3235.4669,
+    "train_samples": 422,
+    "train_samples_per_second": 0.12,
+    "train_steps_per_second": 0.03
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.7769582932142868,
+    "train_runtime": 3235.4669,
+    "train_samples": 422,
+    "train_samples_per_second": 0.12,
+    "train_steps_per_second": 0.03
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,749 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 25,
+  "global_step": 97,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0103359173126615,
+      "grad_norm": 3.4776461124420166,
+      "learning_rate": 0.0001,
+      "loss": 0.2022,
+      "step": 1
+    },
+    {
+      "epoch": 0.020671834625323,
+      "grad_norm": 18.074466705322266,
+      "learning_rate": 9.896907216494846e-05,
+      "loss": 2.2463,
+      "step": 2
+    },
+    {
+      "epoch": 0.031007751937984496,
+      "grad_norm": 25.333541870117188,
+      "learning_rate": 9.793814432989691e-05,
+      "loss": 3.0288,
+      "step": 3
+    },
+    {
+      "epoch": 0.041343669250646,
+      "grad_norm": 5.342225551605225,
+      "learning_rate": 9.690721649484537e-05,
+      "loss": 0.2791,
+      "step": 4
+    },
+    {
+      "epoch": 0.05167958656330749,
+      "grad_norm": 16.2089786529541,
+      "learning_rate": 9.587628865979382e-05,
+      "loss": 2.3307,
+      "step": 5
+    },
+    {
+      "epoch": 0.06201550387596899,
+      "grad_norm": 7.590736389160156,
+      "learning_rate": 9.484536082474227e-05,
+      "loss": 0.5745,
+      "step": 6
+    },
+    {
+      "epoch": 0.07235142118863049,
+      "grad_norm": 12.122525215148926,
+      "learning_rate": 9.381443298969073e-05,
+      "loss": 1.5927,
+      "step": 7
+    },
+    {
+      "epoch": 0.082687338501292,
+      "grad_norm": 8.720907211303711,
+      "learning_rate": 9.278350515463918e-05,
+      "loss": 0.6878,
+      "step": 8
+    },
+    {
+      "epoch": 0.09302325581395349,
+      "grad_norm": 16.62272834777832,
+      "learning_rate": 9.175257731958763e-05,
+      "loss": 0.6334,
+      "step": 9
+    },
+    {
+      "epoch": 0.10335917312661498,
+      "grad_norm": 30.24419403076172,
+      "learning_rate": 9.072164948453609e-05,
+      "loss": 3.2154,
+      "step": 10
+    },
+    {
+      "epoch": 0.11369509043927649,
+      "grad_norm": 6.775628089904785,
+      "learning_rate": 8.969072164948454e-05,
+      "loss": 0.4518,
+      "step": 11
+    },
+    {
+      "epoch": 0.12403100775193798,
+      "grad_norm": 4.872361183166504,
+      "learning_rate": 8.865979381443299e-05,
+      "loss": 0.392,
+      "step": 12
+    },
+    {
+      "epoch": 0.1343669250645995,
+      "grad_norm": 10.680950164794922,
+      "learning_rate": 8.762886597938145e-05,
+      "loss": 1.3972,
+      "step": 13
+    },
+    {
+      "epoch": 0.14470284237726097,
+      "grad_norm": 2.141592264175415,
+      "learning_rate": 8.65979381443299e-05,
+      "loss": 0.1657,
+      "step": 14
+    },
+    {
+      "epoch": 0.15503875968992248,
+      "grad_norm": 10.623418807983398,
+      "learning_rate": 8.556701030927835e-05,
+      "loss": 1.2684,
+      "step": 15
+    },
+    {
+      "epoch": 0.165374677002584,
+      "grad_norm": 8.769332885742188,
+      "learning_rate": 8.453608247422681e-05,
+      "loss": 0.9647,
+      "step": 16
+    },
+    {
+      "epoch": 0.17571059431524547,
+      "grad_norm": 9.13052749633789,
+      "learning_rate": 8.350515463917527e-05,
+      "loss": 0.96,
+      "step": 17
+    },
+    {
+      "epoch": 0.18604651162790697,
+      "grad_norm": 2.1440060138702393,
+      "learning_rate": 8.247422680412371e-05,
+      "loss": 0.2028,
+      "step": 18
+    },
+    {
+      "epoch": 0.19638242894056848,
+      "grad_norm": 6.703273773193359,
+      "learning_rate": 8.144329896907217e-05,
+      "loss": 0.3948,
+      "step": 19
+    },
+    {
+      "epoch": 0.20671834625322996,
+      "grad_norm": 4.315890312194824,
+      "learning_rate": 8.041237113402063e-05,
+      "loss": 0.3812,
+      "step": 20
+    },
+    {
+      "epoch": 0.21705426356589147,
+      "grad_norm": 3.0346481800079346,
+      "learning_rate": 7.938144329896907e-05,
+      "loss": 0.3261,
+      "step": 21
+    },
+    {
+      "epoch": 0.22739018087855298,
+      "grad_norm": 9.196224212646484,
+      "learning_rate": 7.835051546391753e-05,
+      "loss": 1.0096,
+      "step": 22
+    },
+    {
+      "epoch": 0.23772609819121446,
+      "grad_norm": 6.244184494018555,
+      "learning_rate": 7.731958762886599e-05,
+      "loss": 0.6852,
+      "step": 23
+    },
+    {
+      "epoch": 0.24806201550387597,
+      "grad_norm": 9.198563575744629,
+      "learning_rate": 7.628865979381443e-05,
+      "loss": 1.3265,
+      "step": 24
+    },
+    {
+      "epoch": 0.25839793281653745,
+      "grad_norm": 8.720876693725586,
+      "learning_rate": 7.525773195876289e-05,
+      "loss": 0.9248,
+      "step": 25
+    },
+    {
+      "epoch": 0.25839793281653745,
+      "eval_accuracy": 0.43902439024390244,
+      "eval_loss": 0.9799439311027527,
+      "eval_runtime": 96.9318,
+      "eval_samples_per_second": 0.423,
+      "eval_steps_per_second": 0.217,
+      "step": 25
+    },
+    {
+      "epoch": 0.268733850129199,
+      "grad_norm": 5.846583843231201,
+      "learning_rate": 7.422680412371135e-05,
+      "loss": 0.4893,
+      "step": 26
+    },
+    {
+      "epoch": 0.27906976744186046,
+      "grad_norm": 6.042626857757568,
+      "learning_rate": 7.319587628865979e-05,
+      "loss": 0.6472,
+      "step": 27
+    },
+    {
+      "epoch": 0.28940568475452194,
+      "grad_norm": 5.381496429443359,
+      "learning_rate": 7.216494845360825e-05,
+      "loss": 0.581,
+      "step": 28
+    },
+    {
+      "epoch": 0.2997416020671835,
+      "grad_norm": 3.3443357944488525,
+      "learning_rate": 7.113402061855671e-05,
+      "loss": 0.464,
+      "step": 29
+    },
+    {
+      "epoch": 0.31007751937984496,
+      "grad_norm": 3.9191789627075195,
+      "learning_rate": 7.010309278350515e-05,
+      "loss": 0.3809,
+      "step": 30
+    },
+    {
+      "epoch": 0.32041343669250644,
+      "grad_norm": 4.756009578704834,
+      "learning_rate": 6.907216494845361e-05,
+      "loss": 0.5774,
+      "step": 31
+    },
+    {
+      "epoch": 0.330749354005168,
+      "grad_norm": 3.4911065101623535,
+      "learning_rate": 6.804123711340207e-05,
+      "loss": 0.2184,
+      "step": 32
+    },
+    {
+      "epoch": 0.34108527131782945,
+      "grad_norm": 8.012396812438965,
+      "learning_rate": 6.701030927835051e-05,
+      "loss": 0.7935,
+      "step": 33
+    },
+    {
+      "epoch": 0.35142118863049093,
+      "grad_norm": 11.829768180847168,
+      "learning_rate": 6.597938144329897e-05,
+      "loss": 1.2495,
+      "step": 34
+    },
+    {
+      "epoch": 0.36175710594315247,
+      "grad_norm": 5.451401710510254,
+      "learning_rate": 6.494845360824743e-05,
+      "loss": 0.6983,
+      "step": 35
+    },
+    {
+      "epoch": 0.37209302325581395,
+      "grad_norm": 5.636115550994873,
+      "learning_rate": 6.391752577319587e-05,
+      "loss": 0.7448,
+      "step": 36
+    },
+    {
+      "epoch": 0.38242894056847543,
+      "grad_norm": 3.40533185005188,
+      "learning_rate": 6.288659793814433e-05,
+      "loss": 0.3883,
+      "step": 37
+    },
+    {
+      "epoch": 0.39276485788113696,
+      "grad_norm": 4.675537586212158,
+      "learning_rate": 6.185567010309279e-05,
+      "loss": 0.3897,
+      "step": 38
+    },
+    {
+      "epoch": 0.40310077519379844,
+      "grad_norm": 6.9506731033325195,
+      "learning_rate": 6.0824742268041234e-05,
+      "loss": 1.0316,
+      "step": 39
+    },
+    {
+      "epoch": 0.4134366925064599,
+      "grad_norm": 6.975220680236816,
+      "learning_rate": 5.979381443298969e-05,
+      "loss": 0.9857,
+      "step": 40
+    },
+    {
+      "epoch": 0.42377260981912146,
+      "grad_norm": 5.598294734954834,
+      "learning_rate": 5.876288659793815e-05,
+      "loss": 0.7466,
+      "step": 41
+    },
+    {
+      "epoch": 0.43410852713178294,
+      "grad_norm": 6.038373947143555,
+      "learning_rate": 5.7731958762886594e-05,
+      "loss": 0.7051,
+      "step": 42
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 12.064945220947266,
+      "learning_rate": 5.670103092783505e-05,
+      "loss": 1.6664,
+      "step": 43
+    },
+    {
+      "epoch": 0.45478036175710596,
+      "grad_norm": 10.026833534240723,
+      "learning_rate": 5.567010309278351e-05,
+      "loss": 1.1244,
+      "step": 44
+    },
+    {
+      "epoch": 0.46511627906976744,
+      "grad_norm": 6.381928443908691,
+      "learning_rate": 5.4639175257731955e-05,
+      "loss": 0.796,
+      "step": 45
+    },
+    {
+      "epoch": 0.4754521963824289,
+      "grad_norm": 5.155933380126953,
+      "learning_rate": 5.360824742268041e-05,
+      "loss": 0.5749,
+      "step": 46
+    },
+    {
+      "epoch": 0.48578811369509045,
+      "grad_norm": 9.592456817626953,
+      "learning_rate": 5.257731958762887e-05,
+      "loss": 1.2015,
+      "step": 47
+    },
+    {
+      "epoch": 0.49612403100775193,
+      "grad_norm": 4.840389728546143,
+      "learning_rate": 5.1546391752577315e-05,
+      "loss": 0.3744,
+      "step": 48
+    },
+    {
+      "epoch": 0.5064599483204134,
+      "grad_norm": 5.06065034866333,
+      "learning_rate": 5.051546391752577e-05,
+      "loss": 0.753,
+      "step": 49
+    },
+    {
+      "epoch": 0.5167958656330749,
+      "grad_norm": 3.183397054672241,
+      "learning_rate": 4.948453608247423e-05,
+      "loss": 0.2727,
+      "step": 50
+    },
+    {
+      "epoch": 0.5167958656330749,
+      "eval_accuracy": 0.43902439024390244,
+      "eval_loss": 0.8627240061759949,
+      "eval_runtime": 114.166,
+      "eval_samples_per_second": 0.359,
+      "eval_steps_per_second": 0.184,
+      "step": 50
+    },
+    {
+      "epoch": 0.5271317829457365,
+      "grad_norm": 5.550570011138916,
+      "learning_rate": 4.845360824742268e-05,
+      "loss": 0.6691,
+      "step": 51
+    },
+    {
+      "epoch": 0.537467700258398,
+      "grad_norm": 3.9809603691101074,
+      "learning_rate": 4.7422680412371134e-05,
+      "loss": 0.3063,
+      "step": 52
+    },
+    {
+      "epoch": 0.5478036175710594,
+      "grad_norm": 3.5835907459259033,
+      "learning_rate": 4.639175257731959e-05,
+      "loss": 0.4591,
+      "step": 53
+    },
+    {
+      "epoch": 0.5581395348837209,
+      "grad_norm": 6.936642169952393,
+      "learning_rate": 4.536082474226804e-05,
+      "loss": 0.6994,
+      "step": 54
+    },
+    {
+      "epoch": 0.5684754521963824,
+      "grad_norm": 5.786340713500977,
+      "learning_rate": 4.4329896907216494e-05,
+      "loss": 0.8737,
+      "step": 55
+    },
+    {
+      "epoch": 0.5788113695090439,
+      "grad_norm": 4.627039909362793,
+      "learning_rate": 4.329896907216495e-05,
+      "loss": 0.7124,
+      "step": 56
+    },
+    {
+      "epoch": 0.5891472868217055,
+      "grad_norm": 2.9738147258758545,
+      "learning_rate": 4.2268041237113404e-05,
+      "loss": 0.2404,
+      "step": 57
+    },
+    {
+      "epoch": 0.599483204134367,
+      "grad_norm": 4.692768096923828,
+      "learning_rate": 4.1237113402061855e-05,
+      "loss": 0.5189,
+      "step": 58
+    },
+    {
+      "epoch": 0.6098191214470284,
+      "grad_norm": 4.4202561378479,
+      "learning_rate": 4.020618556701031e-05,
+      "loss": 0.5649,
+      "step": 59
+    },
+    {
+      "epoch": 0.6201550387596899,
+      "grad_norm": 10.227799415588379,
+      "learning_rate": 3.9175257731958764e-05,
+      "loss": 1.4142,
+      "step": 60
+    },
+    {
+      "epoch": 0.6304909560723514,
+      "grad_norm": 3.4684948921203613,
+      "learning_rate": 3.8144329896907216e-05,
+      "loss": 0.4295,
+      "step": 61
+    },
+    {
+      "epoch": 0.6408268733850129,
+      "grad_norm": 3.624891519546509,
+      "learning_rate": 3.7113402061855674e-05,
+      "loss": 0.5815,
+      "step": 62
+    },
+    {
+      "epoch": 0.6511627906976745,
+      "grad_norm": 4.949793815612793,
+      "learning_rate": 3.6082474226804125e-05,
+      "loss": 0.7469,
+      "step": 63
+    },
+    {
+      "epoch": 0.661498708010336,
+      "grad_norm": 5.192891597747803,
+      "learning_rate": 3.5051546391752576e-05,
+      "loss": 0.6927,
+      "step": 64
+    },
+    {
+      "epoch": 0.6718346253229974,
+      "grad_norm": 5.358509063720703,
+      "learning_rate": 3.4020618556701034e-05,
+      "loss": 0.6752,
+      "step": 65
+    },
+    {
+      "epoch": 0.6821705426356589,
+      "grad_norm": 4.354433536529541,
+      "learning_rate": 3.2989690721649485e-05,
+      "loss": 0.5655,
+      "step": 66
+    },
+    {
+      "epoch": 0.6925064599483204,
+      "grad_norm": 5.125238418579102,
+      "learning_rate": 3.1958762886597937e-05,
+      "loss": 0.4504,
+      "step": 67
+    },
+    {
+      "epoch": 0.7028423772609819,
+      "grad_norm": 2.409564256668091,
+      "learning_rate": 3.0927835051546395e-05,
+      "loss": 0.1813,
+      "step": 68
+    },
+    {
+      "epoch": 0.7131782945736435,
+      "grad_norm": 5.781549453735352,
+      "learning_rate": 2.9896907216494846e-05,
+      "loss": 0.9296,
+      "step": 69
+    },
+    {
+      "epoch": 0.7235142118863049,
+      "grad_norm": 4.349827289581299,
+      "learning_rate": 2.8865979381443297e-05,
+      "loss": 0.7134,
+      "step": 70
+    },
+    {
+      "epoch": 0.7338501291989664,
+      "grad_norm": 2.254243850708008,
+      "learning_rate": 2.7835051546391755e-05,
+      "loss": 0.2136,
+      "step": 71
+    },
+    {
+      "epoch": 0.7441860465116279,
+      "grad_norm": 4.898633003234863,
+      "learning_rate": 2.6804123711340206e-05,
+      "loss": 0.44,
+      "step": 72
+    },
+    {
+      "epoch": 0.7545219638242894,
+      "grad_norm": 2.420814275741577,
+      "learning_rate": 2.5773195876288658e-05,
+      "loss": 0.1553,
+      "step": 73
+    },
+    {
+      "epoch": 0.7648578811369509,
+      "grad_norm": 11.088196754455566,
+      "learning_rate": 2.4742268041237116e-05,
+      "loss": 1.8921,
+      "step": 74
+    },
+    {
+      "epoch": 0.7751937984496124,
+      "grad_norm": 7.634116172790527,
+      "learning_rate": 2.3711340206185567e-05,
+      "loss": 1.2523,
+      "step": 75
+    },
+    {
+      "epoch": 0.7751937984496124,
+      "eval_accuracy": 0.4634146341463415,
+      "eval_loss": 0.8188944458961487,
+      "eval_runtime": 116.0417,
+      "eval_samples_per_second": 0.353,
+      "eval_steps_per_second": 0.181,
+      "step": 75
+    },
+    {
+      "epoch": 0.7855297157622739,
+      "grad_norm": 2.6209282875061035,
+      "learning_rate": 2.268041237113402e-05,
+      "loss": 0.2504,
+      "step": 76
+    },
+    {
+      "epoch": 0.7958656330749354,
+      "grad_norm": 6.270251750946045,
+      "learning_rate": 2.1649484536082476e-05,
+      "loss": 1.0045,
+      "step": 77
+    },
+    {
+      "epoch": 0.8062015503875969,
+      "grad_norm": 9.073151588439941,
+      "learning_rate": 2.0618556701030927e-05,
+      "loss": 1.2293,
+      "step": 78
+    },
+    {
+      "epoch": 0.8165374677002584,
+      "grad_norm": 7.216558933258057,
+      "learning_rate": 1.9587628865979382e-05,
+      "loss": 1.1463,
+      "step": 79
+    },
+    {
+      "epoch": 0.8268733850129198,
+      "grad_norm": 5.713375568389893,
+      "learning_rate": 1.8556701030927837e-05,
+      "loss": 0.6553,
+      "step": 80
+    },
+    {
+      "epoch": 0.8372093023255814,
+      "grad_norm": 6.03870964050293,
+      "learning_rate": 1.7525773195876288e-05,
+      "loss": 0.8425,
+      "step": 81
+    },
+    {
+      "epoch": 0.8475452196382429,
+      "grad_norm": 4.563985347747803,
+      "learning_rate": 1.6494845360824743e-05,
+      "loss": 0.5306,
+      "step": 82
+    },
+    {
+      "epoch": 0.8578811369509044,
+      "grad_norm": 4.291099548339844,
+      "learning_rate": 1.5463917525773197e-05,
+      "loss": 0.6263,
+      "step": 83
+    },
+    {
+      "epoch": 0.8682170542635659,
+      "grad_norm": 3.6169426441192627,
+      "learning_rate": 1.4432989690721649e-05,
+      "loss": 0.4065,
+      "step": 84
+    },
+    {
+      "epoch": 0.8785529715762274,
+      "grad_norm": 3.3586318492889404,
+      "learning_rate": 1.3402061855670103e-05,
+      "loss": 0.5428,
+      "step": 85
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 4.2463226318359375,
+      "learning_rate": 1.2371134020618558e-05,
+      "loss": 0.7002,
+      "step": 86
+    },
+    {
+      "epoch": 0.8992248062015504,
+      "grad_norm": 4.7999958992004395,
+      "learning_rate": 1.134020618556701e-05,
+      "loss": 0.7588,
+      "step": 87
+    },
+    {
+      "epoch": 0.9095607235142119,
+      "grad_norm": 4.986218452453613,
+      "learning_rate": 1.0309278350515464e-05,
+      "loss": 0.5885,
+      "step": 88
+    },
+    {
+      "epoch": 0.9198966408268734,
+      "grad_norm": 4.087247848510742,
+      "learning_rate": 9.278350515463918e-06,
+      "loss": 0.4967,
+      "step": 89
+    },
+    {
+      "epoch": 0.9302325581395349,
+      "grad_norm": 10.784661293029785,
+      "learning_rate": 8.247422680412371e-06,
+      "loss": 1.0732,
+      "step": 90
+    },
+    {
+      "epoch": 0.9405684754521964,
+      "grad_norm": 4.600091934204102,
+      "learning_rate": 7.216494845360824e-06,
+      "loss": 0.4195,
+      "step": 91
+    },
+    {
+      "epoch": 0.9509043927648578,
+      "grad_norm": 5.874855041503906,
+      "learning_rate": 6.185567010309279e-06,
+      "loss": 0.7885,
+      "step": 92
+    },
+    {
+      "epoch": 0.9612403100775194,
+      "grad_norm": 4.497281074523926,
+      "learning_rate": 5.154639175257732e-06,
+      "loss": 0.8218,
+      "step": 93
+    },
+    {
+      "epoch": 0.9715762273901809,
+      "grad_norm": 5.87256383895874,
+      "learning_rate": 4.123711340206186e-06,
+      "loss": 0.6213,
+      "step": 94
+    },
+    {
+      "epoch": 0.9819121447028424,
+      "grad_norm": 5.737720966339111,
+      "learning_rate": 3.0927835051546395e-06,
+      "loss": 0.876,
+      "step": 95
+    },
+    {
+      "epoch": 0.9922480620155039,
+      "grad_norm": 4.816653728485107,
+      "learning_rate": 2.061855670103093e-06,
+      "loss": 0.5846,
+      "step": 96
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 5.251804351806641,
+      "learning_rate": 1.0309278350515464e-06,
+      "loss": 0.5277,
+      "step": 97
+    },
+    {
+      "epoch": 1.0,
+      "step": 97,
+      "total_flos": 0.0,
+      "train_loss": 0.7769582932142868,
+      "train_runtime": 3235.4669,
+      "train_samples_per_second": 0.12,
+      "train_steps_per_second": 0.03
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 97,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}