visolex
/

bartpho-spam-binary

@@ -1,144 +1,71 @@
 {
-  "best_global_step": 3568,
-  "best_metric": 0.8764965343415249,
-  "best_model_checkpoint": "outputs/bartpho-spam-binary/checkpoint-3568",
-  "epoch": 8.0,
   "eval_steps": 500,
-  "global_step": 3568,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 5.2079925537109375,
-      "learning_rate": 4.998771926094749e-05,
-      "loss": 0.4627,
       "step": 446
     },
-    {
-      "epoch": 1.0,
-      "eval_accuracy": 0.8084436042848141,
-      "eval_loss": 0.4561808407306671,
-      "eval_runtime": 19.4902,
-      "eval_samples_per_second": 81.426,
-      "eval_steps_per_second": 2.565,
-      "step": 446
-    },
-    {
-      "epoch": 2.0,
-      "grad_norm": 5.896441459655762,
-      "learning_rate": 4.995077872180951e-05,
-      "loss": 0.3735,
-      "step": 892
-    },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8418399495904222,
-      "eval_loss": 0.3941121995449066,
-      "eval_runtime": 19.0372,
-      "eval_samples_per_second": 83.363,
-      "eval_steps_per_second": 2.626,
       "step": 892
     },
     {
       "epoch": 3.0,
-      "grad_norm": 2.555406332015991,
-      "learning_rate": 4.988921477641713e-05,
-      "loss": 0.3147,
       "step": 1338
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.8613736609955892,
-      "eval_loss": 0.3282012343406677,
-      "eval_runtime": 19.0715,
-      "eval_samples_per_second": 83.213,
-      "eval_steps_per_second": 2.622,
-      "step": 1338
     },
     {
       "epoch": 4.0,
-      "grad_norm": 2.6473870277404785,
-      "learning_rate": 4.980308818095173e-05,
-      "loss": 0.2677,
       "step": 1784
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.8714555765595463,
-      "eval_loss": 0.29463911056518555,
-      "eval_runtime": 19.1426,
-      "eval_samples_per_second": 82.904,
-      "eval_steps_per_second": 2.612,
-      "step": 1784
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 7.139180660247803,
-      "learning_rate": 4.9692483931964865e-05,
-      "loss": 0.2441,
-      "step": 2230
-    },
-    {
-      "epoch": 5.0,
-      "eval_accuracy": 0.868935097668557,
-      "eval_loss": 0.32677021622657776,
-      "eval_runtime": 19.0711,
-      "eval_samples_per_second": 83.215,
-      "eval_steps_per_second": 2.622,
-      "step": 2230
-    },
-    {
-      "epoch": 6.0,
-      "grad_norm": 1.7669497728347778,
-      "learning_rate": 4.9557511182496865e-05,
-      "loss": 0.2137,
-      "step": 2676
-    },
-    {
-      "epoch": 6.0,
-      "eval_accuracy": 0.8752362948960303,
-      "eval_loss": 0.37486177682876587,
-      "eval_runtime": 19.1107,
-      "eval_samples_per_second": 83.042,
-      "eval_steps_per_second": 2.616,
-      "step": 2676
-    },
-    {
-      "epoch": 7.0,
-      "grad_norm": 3.3637311458587646,
-      "learning_rate": 4.939830313435599e-05,
-      "loss": 0.1957,
-      "step": 3122
-    },
-    {
-      "epoch": 7.0,
-      "eval_accuracy": 0.8720856962822936,
-      "eval_loss": 0.43288952112197876,
-      "eval_runtime": 19.1972,
-      "eval_samples_per_second": 82.668,
-      "eval_steps_per_second": 2.605,
-      "step": 3122
-    },
-    {
-      "epoch": 8.0,
-      "grad_norm": 7.402363300323486,
-      "learning_rate": 4.9215016906664344e-05,
-      "loss": 0.1769,
-      "step": 3568
-    },
-    {
-      "epoch": 8.0,
-      "eval_accuracy": 0.8764965343415249,
-      "eval_loss": 0.4071377217769623,
-      "eval_runtime": 19.1521,
-      "eval_samples_per_second": 82.863,
-      "eval_steps_per_second": 2.611,
-      "step": 3568
     }
   ],
-  "logging_steps": 446,
   "max_steps": 44600,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 100,
@@ -164,8 +91,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.101365327850419e+16,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_global_step": 1784,
+  "best_metric": 0.8369551504363162,
+  "best_model_checkpoint": "outputs/bartpho-spam-binary/checkpoint-1784",
+  "epoch": 4.0,
   "eval_steps": 500,
+  "global_step": 1784,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8298676748582231,
+      "eval_f1": 0.7260364185059205,
+      "eval_loss": 0.5030027627944946,
+      "eval_precision": 0.8798270552001894,
+      "eval_recall": 0.6933528974291974,
+      "eval_runtime": 7.8161,
+      "eval_samples_per_second": 203.043,
+      "eval_steps_per_second": 25.46,
       "step": 446
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8412098298676749,
+      "eval_f1": 0.7812241521918941,
+      "eval_loss": 0.5157436728477478,
+      "eval_precision": 0.8159241618542106,
+      "eval_recall": 0.7610439991155957,
+      "eval_runtime": 7.8183,
+      "eval_samples_per_second": 202.986,
+      "eval_steps_per_second": 25.453,
       "step": 892
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.780718336483932,
+      "eval_f1": 0.7410714285714286,
+      "eval_loss": 0.5297622084617615,
+      "eval_precision": 0.730682044108667,
+      "eval_recall": 0.761203794898595,
+      "eval_runtime": 7.8172,
+      "eval_samples_per_second": 203.014,
+      "eval_steps_per_second": 25.457,
       "step": 1338
     },
     {
+      "epoch": 3.9960740325294446,
+      "grad_norm": 3.245978593826294,
+      "learning_rate": 4.980352910793417e-05,
+      "loss": 0.3948,
+      "step": 1782
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8783868935097668,
+      "eval_f1": 0.8369551504363162,
+      "eval_loss": 0.31898775696754456,
+      "eval_precision": 0.8619013459042153,
+      "eval_recall": 0.8194197101565798,
+      "eval_runtime": 7.8168,
+      "eval_samples_per_second": 203.024,
+      "eval_steps_per_second": 25.458,
       "step": 1784
     }
   ],
+  "logging_steps": 1782,
   "max_steps": 44600,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 100,
       "attributes": {}
     }
   },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }