"""
Train DavidBeans: The Dynamic Duo
==================================

           ┌─────────────────┐
           │   BEANS         │  "I see the patches..."
           │   (ViT Backbone)│  
           │   🫘 → 🫘 → 🫘   │  Cantor-routed sparse attention
           └────────┬────────┘
                    │
                    ▼
           ┌─────────────────┐
           │   DAVID         │  "I know the crystals..."
           │   (Classifier)  │
           │   💎 → 💎 → 💎   │  Multi-scale projection
           └────────┬────────┘
                    │
                    ▼
              [Prediction]

Cross-contrast learning aligns patch features with crystal anchors.
Unified Cayley-Menger loss maintains geometric structure throughout.

Features:
- HuggingFace Hub integration for model upload
- Automatic model card generation
- Checkpoint management

Author: AbstractPhil
Date: November 28, 2025
"""

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import DataLoader
from torch.optim import AdamW
from torch.optim.lr_scheduler import CosineAnnealingLR, OneCycleLR
from tqdm.auto import tqdm
import time
import math
from pathlib import Path
from typing import Dict, Optional, Tuple, List
from dataclasses import dataclass, field
import json
import os
from datetime import datetime

# Import the model
from geofractal.model.david_beans.model import DavidBeans, DavidBeansConfig

# HuggingFace Hub integration
try:
    from huggingface_hub import HfApi, create_repo, upload_folder
    HF_HUB_AVAILABLE = True
except ImportError:
    HF_HUB_AVAILABLE = False
    print("  [!] huggingface_hub not installed. Run: pip install huggingface_hub")

# Safetensors support
try:
    from safetensors.torch import save_file as save_safetensors
    SAFETENSORS_AVAILABLE = True
except ImportError:
    SAFETENSORS_AVAILABLE = False

# TensorBoard support
try:
    from torch.utils.tensorboard import SummaryWriter
    TENSORBOARD_AVAILABLE = True
except ImportError:
    TENSORBOARD_AVAILABLE = False
    print("  [!] tensorboard not installed. Run: pip install tensorboard")


# ============================================================================
# TRAINING CONFIGURATION
# ============================================================================

@dataclass
class TrainingConfig:
    """Training hyperparameters."""
    
    # Run identification
    run_name: str = "default"  # Descriptive name for this run
    run_number: Optional[int] = None  # Auto-incremented if None
    
    # Data
    dataset: str = "cifar10"
    image_size: int = 32
    batch_size: int = 128
    num_workers: int = 4
    
    # Training schedule
    epochs: int = 100
    warmup_epochs: int = 5
    
    # Optimizer
    learning_rate: float = 1e-3
    weight_decay: float = 0.05
    betas: Tuple[float, float] = (0.9, 0.999)
    
    # Learning rate schedule
    scheduler: str = "cosine"
    min_lr: float = 1e-6
    
    # Loss weights
    ce_weight: float = 1.0
    cayley_weight: float = 0.01
    contrast_weight: float = 0.5
    scale_ce_weight: float = 0.1
    
    # Regularization
    gradient_clip: float = 1.0
    label_smoothing: float = 0.1
    
    # Augmentation
    use_augmentation: bool = True
    mixup_alpha: float = 0.2
    cutmix_alpha: float = 1.0
    
    # Checkpointing
    save_interval: int = 10
    output_dir: str = "./checkpoints"
    resume_from: Optional[str] = None  # Path to checkpoint or "latest"
    
    # TensorBoard
    use_tensorboard: bool = True
    log_interval: int = 50  # Log every N batches
    
    # HuggingFace Hub
    push_to_hub: bool = False
    hub_repo_id: Optional[str] = None
    hub_private: bool = False
    hub_append_run: bool = True  # Append run info to repo_id (e.g., repo-run001-baseline)
    
    # Device
    device: str = "cuda" if torch.cuda.is_available() else "cpu"
    
    def to_dict(self) -> Dict:
        return {k: v for k, v in self.__dict__.items()}


# ============================================================================
# HUGGINGFACE HUB INTEGRATION
# ============================================================================

def generate_model_card(
    model_config: DavidBeansConfig,
    train_config: TrainingConfig,
    best_acc: float,
    training_history: Optional[Dict] = None
) -> str:
    """Generate a model card for HuggingFace Hub."""
    
    scales_str = ", ".join([str(s) for s in model_config.scales])
    
    dataset_info = {
        "cifar10": ("CIFAR-10", 10, "Image classification on 32x32 images"),
        "cifar100": ("CIFAR-100", 100, "Fine-grained image classification on 32x32 images"),
    }.get(train_config.dataset, (train_config.dataset, model_config.num_classes, ""))
    
    card_content = f"""---
library_name: pytorch
license: apache-2.0
tags:
  - vision
  - image-classification
  - geometric-deep-learning
  - vit
  - cantor-routing
  - pentachoron
  - multi-scale
datasets:
  - {train_config.dataset}
metrics:
  - accuracy
model-index:
  - name: DavidBeans
    results:
      - task:
          type: image-classification
          name: Image Classification
        dataset:
          name: {dataset_info[0]}
          type: {train_config.dataset}
        metrics:
          - type: accuracy
            value: {best_acc:.2f}
            name: Top-1 Accuracy
---

# 🫘💎 DavidBeans: Unified Vision-to-Crystal Architecture

DavidBeans combines **ViT-Beans** (Cantor-routed sparse attention) with **David** (multi-scale crystal classification) into a unified geometric deep learning architecture.

## Model Description

This model implements several novel techniques:

- **Hybrid Cantor Routing**: Combines fractal Cantor set distances with positional proximity for sparse attention patterns
- **Pentachoron Experts**: 5-vertex simplex structure with Cayley-Menger geometric regularization
- **Multi-Scale Crystal Projection**: Projects features to multiple representation scales with learned fusion
- **Cross-Contrastive Learning**: Aligns patch-level features with crystal anchors

## Architecture

```
Image [B, 3, {model_config.image_size}, {model_config.image_size}]
       │
       ▼
┌─────────────────────────────────────────┐
│  BEANS BACKBONE                         │
│  ├─ Patch Embed → [{model_config.num_patches} patches, {model_config.dim}d]
│  ├─ Hybrid Cantor Router (α={model_config.cantor_weight})
│  ├─ {model_config.num_layers} × Attention Blocks ({model_config.num_heads} heads)
│  └─ {model_config.num_layers} × Pentachoron Expert Layers
└─────────────────────────────────────────┘
       │
       ▼
┌─────────────────────────────────────────┐
│  DAVID HEAD                             │
│  ├─ Multi-scale projection: [{scales_str}]
│  ├─ Per-scale Crystal Heads
│  └─ Geometric Fusion (learned weights)
└─────────────────────────────────────────┘
       │
       ▼
    [{model_config.num_classes} classes]
```

## Training Details

| Parameter | Value |
|-----------|-------|
| Dataset | {dataset_info[0]} |
| Classes | {model_config.num_classes} |
| Image Size | {model_config.image_size}×{model_config.image_size} |
| Patch Size | {model_config.patch_size}×{model_config.patch_size} |
| Embedding Dim | {model_config.dim} |
| Layers | {model_config.num_layers} |
| Attention Heads | {model_config.num_heads} |
| Experts | {model_config.num_experts} (pentachoron) |
| Sparse Neighbors | k={model_config.k_neighbors} |
| Scales | [{scales_str}] |
| Epochs | {train_config.epochs} |
| Batch Size | {train_config.batch_size} |
| Learning Rate | {train_config.learning_rate} |
| Weight Decay | {train_config.weight_decay} |
| Mixup α | {train_config.mixup_alpha} |
| CutMix α | {train_config.cutmix_alpha} |
| Label Smoothing | {train_config.label_smoothing} |

## Results

| Metric | Value |
|--------|-------|
| **Top-1 Accuracy** | **{best_acc:.2f}%** |

## TensorBoard Logs

Training logs are included in the `tensorboard/` directory. To view:

```bash
tensorboard --logdir tensorboard/
```

## Usage

```python
import torch
from safetensors.torch import load_file
from david_beans import DavidBeans, DavidBeansConfig

# Load config
config = DavidBeansConfig(
    image_size={model_config.image_size},
    patch_size={model_config.patch_size},
    dim={model_config.dim},
    num_layers={model_config.num_layers},
    num_heads={model_config.num_heads},
    num_experts={model_config.num_experts},
    k_neighbors={model_config.k_neighbors},
    cantor_weight={model_config.cantor_weight},
    scales={model_config.scales},
    num_classes={model_config.num_classes}
)

# Create model and load weights
model = DavidBeans(config)
state_dict = load_file("model.safetensors")
model.load_state_dict(state_dict)

# Inference
model.eval()
with torch.no_grad():
    output = model(images)
    predictions = output['logits'].argmax(dim=-1)
```

## Citation

```bibtex
@misc{{davidbeans2025,
  author = {{AbstractPhil}},
  title = {{DavidBeans: Unified Vision-to-Crystal Architecture}},
  year = {{2025}},
  publisher = {{HuggingFace}},
  url = {{https://huggingface.co/{train_config.hub_repo_id or 'AbstractPhil/david-beans'}}}
}}
```

## License

Apache 2.0
"""
    
    return card_content


def save_for_hub(
    model: DavidBeans,
    model_config: DavidBeansConfig,
    train_config: TrainingConfig,
    best_acc: float,
    output_dir: Path,
    training_history: Optional[Dict] = None
) -> Path:
    """Save model in HuggingFace Hub format."""
    
    hub_dir = output_dir / "hub"
    hub_dir.mkdir(parents=True, exist_ok=True)
    
    # 1. Save model weights - clone to avoid shared memory issues
    state_dict = {k: v.clone() for k, v in model.state_dict().items()}
    
    if SAFETENSORS_AVAILABLE:
        try:
            save_safetensors(state_dict, hub_dir / "model.safetensors")
            print(f"  ✓ Saved model.safetensors")
        except Exception as e:
            print(f"  [!] Safetensors failed ({e}), using pytorch format only")
    
    # Also save PyTorch format for compatibility
    torch.save(state_dict, hub_dir / "pytorch_model.bin")
    print(f"  ✓ Saved pytorch_model.bin")
    
    # 2. Save config
    config_dict = {
        "architecture": "DavidBeans",
        "model_type": "david_beans",
        **model_config.__dict__
    }
    with open(hub_dir / "config.json", "w") as f:
        json.dump(config_dict, f, indent=2, default=str)
    print(f"  ✓ Saved config.json")
    
    # 3. Save training config
    with open(hub_dir / "training_config.json", "w") as f:
        json.dump(train_config.to_dict(), f, indent=2, default=str)
    
    # 4. Generate and save model card
    model_card = generate_model_card(model_config, train_config, best_acc, training_history)
    with open(hub_dir / "README.md", "w") as f:
        f.write(model_card)
    print(f"  ✓ Generated README.md (model card)")
    
    # 5. Save training history if available
    if training_history:
        with open(hub_dir / "training_history.json", "w") as f:
            json.dump(training_history, f, indent=2)
    
    # 6. Copy TensorBoard logs if they exist
    tb_dir = output_dir / "tensorboard"
    if tb_dir.exists():
        import shutil
        hub_tb_dir = hub_dir / "tensorboard"
        if hub_tb_dir.exists():
            shutil.rmtree(hub_tb_dir)
        shutil.copytree(tb_dir, hub_tb_dir)
        print(f"  ✓ Copied TensorBoard logs")
    
    return hub_dir


def push_to_hub(
    hub_dir: Path,
    repo_id: str,
    private: bool = False,
    commit_message: Optional[str] = None
) -> str:
    """Push model to HuggingFace Hub."""
    
    if not HF_HUB_AVAILABLE:
        raise RuntimeError("huggingface_hub not installed. Run: pip install huggingface_hub")
    
    api = HfApi()
    
    # Create repo if it doesn't exist
    try:
        create_repo(repo_id, private=private, exist_ok=True)
        print(f"  ✓ Repository ready: {repo_id}")
    except Exception as e:
        print(f"  [!] Repo creation note: {e}")
    
    # Upload
    if commit_message is None:
        commit_message = f"Upload DavidBeans model - {datetime.now().strftime('%Y-%m-%d %H:%M')}"
    
    url = upload_folder(
        folder_path=str(hub_dir),
        repo_id=repo_id,
        commit_message=commit_message
    )
    
    print(f"  ✓ Uploaded to: https://huggingface.co/{repo_id}")
    
    return url


# ============================================================================
# DATA LOADING
# ============================================================================

def get_dataloaders(config: TrainingConfig) -> Tuple[DataLoader, DataLoader, int]:
    """Get train and test dataloaders."""
    
    try:
        import torchvision
        import torchvision.transforms as T
        
        if config.dataset == "cifar10":
            if config.use_augmentation:
                train_transform = T.Compose([
                    T.RandomCrop(32, padding=4),
                    T.RandomHorizontalFlip(),
                    T.AutoAugment(T.AutoAugmentPolicy.CIFAR10),
                    T.ToTensor(),
                    T.Normalize((0.4914, 0.4822, 0.4465), (0.2470, 0.2435, 0.2616))
                ])
            else:
                train_transform = T.Compose([
                    T.ToTensor(),
                    T.Normalize((0.4914, 0.4822, 0.4465), (0.2470, 0.2435, 0.2616))
                ])
            
            test_transform = T.Compose([
                T.ToTensor(),
                T.Normalize((0.4914, 0.4822, 0.4465), (0.2470, 0.2435, 0.2616))
            ])
            
            train_dataset = torchvision.datasets.CIFAR10(
                root='./data', train=True, download=True, transform=train_transform
            )
            test_dataset = torchvision.datasets.CIFAR10(
                root='./data', train=False, download=True, transform=test_transform
            )
            num_classes = 10
            
        elif config.dataset == "cifar100":
            if config.use_augmentation:
                train_transform = T.Compose([
                    T.RandomCrop(32, padding=4),
                    T.RandomHorizontalFlip(),
                    T.AutoAugment(T.AutoAugmentPolicy.CIFAR10),
                    T.ToTensor(),
                    T.Normalize((0.5071, 0.4867, 0.4408), (0.2675, 0.2565, 0.2761))
                ])
            else:
                train_transform = T.Compose([
                    T.ToTensor(),
                    T.Normalize((0.5071, 0.4867, 0.4408), (0.2675, 0.2565, 0.2761))
                ])
            
            test_transform = T.Compose([
                T.ToTensor(),
                T.Normalize((0.5071, 0.4867, 0.4408), (0.2675, 0.2565, 0.2761))
            ])
            
            train_dataset = torchvision.datasets.CIFAR100(
                root='./data', train=True, download=True, transform=train_transform
            )
            test_dataset = torchvision.datasets.CIFAR100(
                root='./data', train=False, download=True, transform=test_transform
            )
            num_classes = 100
        else:
            raise ValueError(f"Unknown dataset: {config.dataset}")
        
        train_loader = DataLoader(
            train_dataset,
            batch_size=config.batch_size,
            shuffle=True,
            num_workers=config.num_workers,
            pin_memory=True,
            persistent_workers=config.num_workers > 0,
            drop_last=True
        )
        test_loader = DataLoader(
            test_dataset,
            batch_size=config.batch_size,
            shuffle=False,
            num_workers=config.num_workers,
            pin_memory=True,
            persistent_workers=config.num_workers > 0
        )
        
        return train_loader, test_loader, num_classes
        
    except ImportError:
        print("  [!] torchvision not available, using synthetic data")
        return get_synthetic_dataloaders(config)


def get_synthetic_dataloaders(config: TrainingConfig) -> Tuple[DataLoader, DataLoader, int]:
    """Fallback synthetic data for testing."""
    
    class SyntheticDataset(torch.utils.data.Dataset):
        def __init__(self, size: int, image_size: int, num_classes: int):
            self.size = size
            self.image_size = image_size
            self.num_classes = num_classes
            
        def __len__(self):
            return self.size
            
        def __getitem__(self, idx):
            x = torch.randn(3, self.image_size, self.image_size)
            y = idx % self.num_classes
            return x, y
    
    num_classes = 10
    train_dataset = SyntheticDataset(5000, config.image_size, num_classes)
    test_dataset = SyntheticDataset(1000, config.image_size, num_classes)
    
    train_loader = DataLoader(train_dataset, batch_size=config.batch_size, shuffle=True)
    test_loader = DataLoader(test_dataset, batch_size=config.batch_size, shuffle=False)
    
    return train_loader, test_loader, num_classes


# ============================================================================
# MIXUP / CUTMIX AUGMENTATION
# ============================================================================

def mixup_data(x: torch.Tensor, y: torch.Tensor, alpha: float = 0.2):
    """Mixup augmentation."""
    if alpha > 0:
        lam = torch.distributions.Beta(alpha, alpha).sample().item()
    else:
        lam = 1.0
    
    batch_size = x.size(0)
    index = torch.randperm(batch_size, device=x.device)
    
    mixed_x = lam * x + (1 - lam) * x[index]
    y_a, y_b = y, y[index]
    
    return mixed_x, y_a, y_b, lam


def cutmix_data(x: torch.Tensor, y: torch.Tensor, alpha: float = 1.0):
    """CutMix augmentation."""
    if alpha > 0:
        lam = torch.distributions.Beta(alpha, alpha).sample().item()
    else:
        lam = 1.0
    
    batch_size = x.size(0)
    index = torch.randperm(batch_size, device=x.device)
    
    _, _, H, W = x.shape
    
    cut_ratio = math.sqrt(1 - lam)
    cut_h = int(H * cut_ratio)
    cut_w = int(W * cut_ratio)
    
    cx = torch.randint(0, H, (1,)).item()
    cy = torch.randint(0, W, (1,)).item()
    
    x1 = max(0, cx - cut_h // 2)
    x2 = min(H, cx + cut_h // 2)
    y1 = max(0, cy - cut_w // 2)
    y2 = min(W, cy + cut_w // 2)
    
    mixed_x = x.clone()
    mixed_x[:, :, x1:x2, y1:y2] = x[index, :, x1:x2, y1:y2]
    
    lam = 1 - ((x2 - x1) * (y2 - y1)) / (H * W)
    
    y_a, y_b = y, y[index]
    
    return mixed_x, y_a, y_b, lam


# ============================================================================
# METRICS TRACKER
# ============================================================================

class MetricsTracker:
    """Track training metrics with EMA smoothing."""
    
    def __init__(self, ema_decay: float = 0.9):
        self.ema_decay = ema_decay
        self.metrics = {}
        self.ema_metrics = {}
        self.history = {}
    
    def update(self, **kwargs):
        for k, v in kwargs.items():
            if isinstance(v, torch.Tensor):
                v = v.item()
            
            if k not in self.metrics:
                self.metrics[k] = []
                self.ema_metrics[k] = v
                self.history[k] = []
            
            self.metrics[k].append(v)
            self.ema_metrics[k] = self.ema_decay * self.ema_metrics[k] + (1 - self.ema_decay) * v
    
    def get_ema(self, key: str) -> float:
        return self.ema_metrics.get(key, 0.0)
    
    def get_epoch_mean(self, key: str) -> float:
        values = self.metrics.get(key, [])
        return sum(values) / len(values) if values else 0.0
    
    def end_epoch(self):
        for k, v in self.metrics.items():
            if v:
                self.history[k].append(sum(v) / len(v))
        self.metrics = {k: [] for k in self.metrics}
    
    def get_history(self) -> Dict:
        return self.history


# ============================================================================
# CHECKPOINT UTILITIES
# ============================================================================

def find_latest_checkpoint(output_dir: Path) -> Optional[Path]:
    """Find the most recent checkpoint in output directory."""
    checkpoints = list(output_dir.glob("checkpoint_epoch_*.pt"))
    
    if not checkpoints:
        # Try best_model.pt as fallback
        best_model = output_dir / "best_model.pt"
        if best_model.exists():
            return best_model
        return None
    
    # Sort by epoch number
    def get_epoch(p):
        try:
            return int(p.stem.split("_")[-1])
        except:
            return 0
    
    checkpoints.sort(key=get_epoch, reverse=True)
    return checkpoints[0]


def get_next_run_number(base_dir: Path) -> int:
    """Get the next run number by scanning existing run directories."""
    if not base_dir.exists():
        return 1
    
    max_num = 0
    for d in base_dir.iterdir():
        if d.is_dir() and d.name.startswith("run_"):
            try:
                # Extract number from "run_XXX_name_timestamp"
                num = int(d.name.split("_")[1])
                max_num = max(max_num, num)
            except (IndexError, ValueError):
                continue
    
    return max_num + 1


def generate_run_dir_name(run_number: int, run_name: str) -> str:
    """Generate a run directory name with number, name, and timestamp."""
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    # Sanitize run_name: lowercase, replace spaces with underscores, remove special chars
    safe_name = "".join(c if c.isalnum() or c == "_" else "_" for c in run_name.lower())
    safe_name = "_".join(filter(None, safe_name.split("_")))  # Remove consecutive underscores
    return f"run_{run_number:03d}_{safe_name}_{timestamp}"


def find_latest_run_dir(base_dir: Path) -> Optional[Path]:
    """Find the most recent run directory."""
    if not base_dir.exists():
        return None
    
    run_dirs = [d for d in base_dir.iterdir() if d.is_dir() and d.name.startswith("run_")]
    
    if not run_dirs:
        return None
    
    # Sort by modification time (most recent first)
    run_dirs.sort(key=lambda d: d.stat().st_mtime, reverse=True)
    return run_dirs[0]


def find_checkpoint_in_runs(base_dir: Path, resume_from: str) -> Optional[Path]:
    """
    Find a checkpoint to resume from.
    
    Args:
        base_dir: Base checkpoint directory (e.g., ./checkpoints/cifar100)
        resume_from: Either "latest", a run directory name, or a full path
    
    Returns:
        Path to checkpoint file, or None
    """
    if resume_from == "latest":
        # Find most recent run directory
        run_dir = find_latest_run_dir(base_dir)
        if run_dir:
            return find_latest_checkpoint(run_dir)
        # Fallback: check base_dir itself (for old-style checkpoints)
        return find_latest_checkpoint(base_dir)
    
    # Check if it's a full path
    full_path = Path(resume_from)
    if full_path.exists():
        if full_path.is_file():
            return full_path
        elif full_path.is_dir():
            return find_latest_checkpoint(full_path)
    
    # Check if it's a run directory name within base_dir
    run_path = base_dir / resume_from
    if run_path.exists():
        return find_latest_checkpoint(run_path)
    
    return None


def load_checkpoint(
    checkpoint_path: Path,
    model: DavidBeans,
    optimizer: Optional[torch.optim.Optimizer] = None,
    device: str = "cuda"
) -> Tuple[int, float]:
    """
    Load checkpoint and return (start_epoch, best_acc).
    
    Returns:
        start_epoch: Epoch to resume from (checkpoint_epoch + 1)
        best_acc: Best accuracy so far
    """
    print(f"\n📂 Loading checkpoint: {checkpoint_path}")
    checkpoint = torch.load(checkpoint_path, map_location=device)
    
    model.load_state_dict(checkpoint['model_state_dict'])
    print(f"  ✓ Loaded model weights")
    
    if optimizer is not None and 'optimizer_state_dict' in checkpoint:
        optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
        print(f"  ✓ Loaded optimizer state")
    
    epoch = checkpoint.get('epoch', 0)
    best_acc = checkpoint.get('best_acc', 0.0)
    
    print(f"  ✓ Loaded checkpoint from epoch {epoch + 1}, best_acc={best_acc:.2f}%")
    print(f"  ✓ Will resume training from epoch {epoch + 2}")
    
    return epoch + 1, best_acc


def get_config_from_checkpoint(checkpoint_path: Path) -> Tuple[DavidBeansConfig, dict]:
    """
    Extract model and training configs from a checkpoint.
    
    Returns:
        (model_config, train_config_dict)
    """
    checkpoint = torch.load(checkpoint_path, map_location='cpu')
    
    model_config_dict = checkpoint.get('model_config', {})
    train_config_dict = checkpoint.get('train_config', {})
    
    # Handle tuple conversion for betas
    if 'betas' in train_config_dict and isinstance(train_config_dict['betas'], list):
        train_config_dict['betas'] = tuple(train_config_dict['betas'])
    
    model_config = DavidBeansConfig(**model_config_dict)
    
    return model_config, train_config_dict


# ============================================================================
# TRAINING LOOP
# ============================================================================

def train_epoch(
    model: DavidBeans,
    train_loader: DataLoader,
    optimizer: torch.optim.Optimizer,
    scheduler: Optional[torch.optim.lr_scheduler._LRScheduler],
    config: TrainingConfig,
    epoch: int,
    tracker: MetricsTracker,
    writer: Optional['SummaryWriter'] = None
) -> Dict[str, float]:
    """Train for one epoch."""
    
    model.train()
    device = config.device
    
    total_loss = 0.0
    total_correct = 0
    total_samples = 0
    global_step = epoch * len(train_loader)
    
    pbar = tqdm(train_loader, desc=f"Epoch {epoch + 1}", leave=True)
    
    for batch_idx, (images, targets) in enumerate(pbar):
        images = images.to(device, non_blocking=True)
        targets = targets.to(device, non_blocking=True)
        
        # Apply mixup/cutmix
        use_mixup = config.use_augmentation and config.mixup_alpha > 0
        use_cutmix = config.use_augmentation and config.cutmix_alpha > 0
        
        mixed = False
        if use_mixup or use_cutmix:
            r = torch.rand(1).item()
            if r < 0.5:
                pass
            elif r < 0.75 and use_mixup:
                images, targets_a, targets_b, lam = mixup_data(images, targets, config.mixup_alpha)
                mixed = True
            elif use_cutmix:
                images, targets_a, targets_b, lam = cutmix_data(images, targets, config.cutmix_alpha)
                mixed = True
        
        # Forward pass
        result = model(images, targets=targets, return_loss=True)
        losses = result['losses']
        
        if mixed:
            logits = result['logits']
            ce_loss = lam * F.cross_entropy(logits, targets_a, label_smoothing=config.label_smoothing) + \
                      (1 - lam) * F.cross_entropy(logits, targets_b, label_smoothing=config.label_smoothing)
            losses['ce'] = ce_loss
        
        # Compute total loss
        loss = (
            config.ce_weight * losses['ce'] +
            config.cayley_weight * losses.get('geometric', torch.tensor(0.0, device=device)) +
            config.contrast_weight * losses.get('contrast', torch.tensor(0.0, device=device))
        )
        
        for scale in model.config.scales:
            scale_ce = losses.get(f'ce_{scale}', 0.0)
            if isinstance(scale_ce, torch.Tensor):
                loss = loss + config.scale_ce_weight * scale_ce
        
        # Backward pass
        optimizer.zero_grad()
        loss.backward()
        
        if config.gradient_clip > 0:
            grad_norm = torch.nn.utils.clip_grad_norm_(model.parameters(), config.gradient_clip)
        else:
            grad_norm = 0.0
        
        optimizer.step()
        
        if scheduler is not None and config.scheduler == "onecycle":
            scheduler.step()
        
        # Compute accuracy
        with torch.no_grad():
            logits = result['logits']
            preds = logits.argmax(dim=-1)
            
            if mixed:
                correct = (lam * (preds == targets_a).float() + 
                          (1 - lam) * (preds == targets_b).float()).sum()
            else:
                correct = (preds == targets).sum()
            
            total_correct += correct.item()
            total_samples += targets.size(0)
            total_loss += loss.item()
        
        # Track metrics
        def to_float(v):
            return v.item() if isinstance(v, torch.Tensor) else float(v)
        
        geo_loss = to_float(losses.get('geometric', 0.0))
        contrast_loss = to_float(losses.get('contrast', 0.0))
        expert_vol = to_float(losses.get('expert_volume', 0.0))
        expert_collapse = to_float(losses.get('expert_collapse', 0.0))
        expert_edge = to_float(losses.get('expert_edge_dev', 0.0))
        current_lr = optimizer.param_groups[0]['lr']
        
        tracker.update(
            loss=loss.item(),
            ce=losses['ce'].item(),
            geo=geo_loss,
            contrast=contrast_loss,
            expert_vol=expert_vol,
            expert_collapse=expert_collapse,
            expert_edge=expert_edge,
            lr=current_lr
        )
        
        # TensorBoard logging (every log_interval batches)
        if writer is not None and (batch_idx + 1) % config.log_interval == 0:
            step = global_step + batch_idx
            
            # Loss components
            writer.add_scalar('train/loss_total', loss.item(), step)
            writer.add_scalar('train/loss_ce', losses['ce'].item(), step)
            writer.add_scalar('train/loss_geometric', geo_loss, step)
            writer.add_scalar('train/loss_contrast', contrast_loss, step)
            
            # Geometric metrics
            writer.add_scalar('train/expert_volume', expert_vol, step)
            writer.add_scalar('train/expert_collapse', expert_collapse, step)
            writer.add_scalar('train/expert_edge_dev', expert_edge, step)
            
            # Training dynamics
            writer.add_scalar('train/learning_rate', current_lr, step)
            writer.add_scalar('train/grad_norm', to_float(grad_norm), step)
            writer.add_scalar('train/batch_acc', 100.0 * correct.item() / targets.size(0), step)
        
        pbar.set_postfix({
            'loss': f"{tracker.get_ema('loss'):.3f}",
            'acc': f"{100.0 * total_correct / total_samples:.1f}%",
            'geo': f"{tracker.get_ema('geo'):.4f}",
            'vol': f"{tracker.get_ema('expert_vol'):.4f}"
        })
    
    if scheduler is not None and config.scheduler == "cosine":
        scheduler.step()
    
    return {
        'loss': total_loss / len(train_loader),
        'acc': 100.0 * total_correct / total_samples
    }


@torch.no_grad()
def evaluate(
    model: DavidBeans,
    test_loader: DataLoader,
    config: TrainingConfig
) -> Dict[str, float]:
    """Evaluate on test set."""
    
    model.eval()
    device = config.device
    
    total_loss = 0.0
    total_correct = 0
    total_samples = 0
    scale_correct = {s: 0 for s in model.config.scales}
    
    for images, targets in test_loader:
        images = images.to(device, non_blocking=True)
        targets = targets.to(device, non_blocking=True)
        
        result = model(images, targets=targets, return_loss=True)
        
        logits = result['logits']
        losses = result['losses']
        
        loss = losses['total']
        preds = logits.argmax(dim=-1)
        
        total_loss += loss.item() * targets.size(0)
        total_correct += (preds == targets).sum().item()
        total_samples += targets.size(0)
        
        for i, scale in enumerate(model.config.scales):
            scale_logits = result['scale_logits'][i]
            scale_preds = scale_logits.argmax(dim=-1)
            scale_correct[scale] += (scale_preds == targets).sum().item()
    
    metrics = {
        'loss': total_loss / total_samples,
        'acc': 100.0 * total_correct / total_samples
    }
    
    for scale, correct in scale_correct.items():
        metrics[f'acc_{scale}'] = 100.0 * correct / total_samples
    
    return metrics


# ============================================================================
# MAIN TRAINING FUNCTION
# ============================================================================

def train_david_beans(
    model_config: Optional[DavidBeansConfig] = None,
    train_config: Optional[TrainingConfig] = None
):
    """Main training function."""
    
    print("=" * 70)
    print("  DAVID-BEANS TRAINING: The Dynamic Duo")
    print("=" * 70)
    print()
    print("       🫘 BEANS (ViT)  +  💎 DAVID (Crystal)")
    print("       Sparse Attention     Multi-Scale Projection")
    print()
    print("=" * 70)
    
    if train_config is None:
        train_config = TrainingConfig()
    
    base_output_dir = Path(train_config.output_dir)
    base_output_dir.mkdir(parents=True, exist_ok=True)
    
    # Check for resume FIRST - load config from checkpoint if resuming
    checkpoint_path = None
    run_dir = None  # Will be set either from resume or new run
    
    if train_config.resume_from:
        # Find checkpoint using the new directory structure
        checkpoint_path = find_checkpoint_in_runs(base_output_dir, train_config.resume_from)
        
        if checkpoint_path and checkpoint_path.exists():
            print(f"\n📂 Found checkpoint: {checkpoint_path}")
            # The run directory is the parent of the checkpoint
            run_dir = checkpoint_path.parent
            print(f"  ✓ Resuming in run directory: {run_dir.name}")
            
            # Load config from checkpoint to ensure architecture matches
            loaded_model_config, loaded_train_config_dict = get_config_from_checkpoint(checkpoint_path)
            
            if model_config is None:
                model_config = loaded_model_config
                print(f"  ✓ Using model config from checkpoint")
            else:
                # Warn if configs differ
                if model_config.dim != loaded_model_config.dim or model_config.scales != loaded_model_config.scales:
                    print(f"  ⚠ WARNING: Provided config differs from checkpoint!")
                    print(f"    Checkpoint: dim={loaded_model_config.dim}, scales={loaded_model_config.scales}")
                    print(f"    Provided:   dim={model_config.dim}, scales={model_config.scales}")
                    print(f"  ✓ Using checkpoint config to ensure compatibility")
                    model_config = loaded_model_config
        else:
            print(f"  [!] Checkpoint not found: {train_config.resume_from}")
            checkpoint_path = None
    
    # If not resuming (or resume failed), create new run directory
    if run_dir is None:
        # Get run number
        if train_config.run_number is None:
            run_number = get_next_run_number(base_output_dir)
        else:
            run_number = train_config.run_number
        
        # Generate run directory name
        run_dir_name = generate_run_dir_name(run_number, train_config.run_name)
        run_dir = base_output_dir / run_dir_name
        run_dir.mkdir(parents=True, exist_ok=True)
        
        print(f"\n📁 New run: {run_dir_name}")
        print(f"  Run #{run_number}: {train_config.run_name}")
    else:
        # Extract run number from existing directory name for hub repo
        try:
            run_number = int(run_dir.name.split("_")[1])
        except (IndexError, ValueError):
            run_number = 1
    
    # Update output_dir to point to the run directory
    output_dir = run_dir
    
    # Generate effective hub repo ID with run info
    effective_hub_repo_id = train_config.hub_repo_id
    if train_config.hub_repo_id and train_config.hub_append_run:
        # Extract run name from directory (run_XXX_name_timestamp -> name)
        parts = run_dir.name.split("_")
        if len(parts) >= 3:
            run_name_part = parts[2]  # Get the name part
        else:
            run_name_part = train_config.run_name
        effective_hub_repo_id = f"{train_config.hub_repo_id}-run{run_number:03d}-{run_name_part}"
        print(f"  Hub repo: {effective_hub_repo_id}")
    
    if model_config is None:
        model_config = DavidBeansConfig(
            image_size=train_config.image_size,
            patch_size=4,
            dim=256,
            num_layers=6,
            num_heads=8,
            num_experts=5,
            k_neighbors=16,
            cantor_weight=0.3,
            scales=[64, 128, 256],
            num_classes=10,
            contrast_weight=train_config.contrast_weight,
            cayley_weight=train_config.cayley_weight,
            dropout=0.1
        )
    
    device = train_config.device
    print(f"\nDevice: {device}")
    
    # Data
    print("\nLoading data...")
    train_loader, test_loader, num_classes = get_dataloaders(train_config)
    print(f"  Dataset: {train_config.dataset}")
    print(f"  Train: {len(train_loader.dataset)}, Test: {len(test_loader.dataset)}")
    print(f"  Classes: {num_classes}")
    
    model_config.num_classes = num_classes
    
    # Model
    print("\nBuilding model...")
    model = DavidBeans(model_config)
    model = model.to(device)
    
    print(f"\n{model}")
    
    num_params = sum(p.numel() for p in model.parameters())
    num_trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)
    print(f"\nParameters: {num_params:,} ({num_trainable:,} trainable)")
    
    # Optimizer
    print("\nSetting up optimizer...")
    
    decay_params = []
    no_decay_params = []
    
    for name, param in model.named_parameters():
        if not param.requires_grad:
            continue
        if 'bias' in name or 'norm' in name or 'embedding' in name:
            no_decay_params.append(param)
        else:
            decay_params.append(param)
    
    optimizer = AdamW([
        {'params': decay_params, 'weight_decay': train_config.weight_decay},
        {'params': no_decay_params, 'weight_decay': 0.0}
    ], lr=train_config.learning_rate, betas=train_config.betas)
    
    if train_config.scheduler == "cosine":
        scheduler = CosineAnnealingLR(
            optimizer,
            T_max=train_config.epochs - train_config.warmup_epochs,
            eta_min=train_config.min_lr
        )
    elif train_config.scheduler == "onecycle":
        scheduler = OneCycleLR(
            optimizer,
            max_lr=train_config.learning_rate,
            epochs=train_config.epochs,
            steps_per_epoch=len(train_loader),
            pct_start=train_config.warmup_epochs / train_config.epochs
        )
    else:
        scheduler = None
    
    print(f"  Optimizer: AdamW (lr={train_config.learning_rate}, wd={train_config.weight_decay})")
    print(f"  Scheduler: {train_config.scheduler}")
    print(f"  TensorBoard: {output_dir / 'tensorboard'}")
    
    tracker = MetricsTracker()
    best_acc = 0.0
    start_epoch = 0
    
    print(f"\nOutput directory: {output_dir}")
    
    # Load weights from checkpoint if we found one earlier
    if checkpoint_path and checkpoint_path.exists():
        start_epoch, best_acc = load_checkpoint(
            checkpoint_path, model, optimizer, device
        )
        
        # Adjust scheduler to correct position
        if scheduler is not None and train_config.scheduler == "cosine":
            for _ in range(start_epoch):
                scheduler.step()
    
    # TensorBoard setup
    writer = None
    if train_config.use_tensorboard and TENSORBOARD_AVAILABLE:
        tb_dir = output_dir / "tensorboard"
        tb_dir.mkdir(parents=True, exist_ok=True)
        writer = SummaryWriter(log_dir=str(tb_dir))
        print(f"  TensorBoard: {tb_dir}")
        
        # Log model config as text
        config_text = json.dumps(model_config.__dict__, indent=2, default=str)
        writer.add_text("config/model", f"```json\n{config_text}\n```", 0)
        
        train_text = json.dumps(train_config.to_dict(), indent=2, default=str)
        writer.add_text("config/training", f"```json\n{train_text}\n```", 0)
    elif train_config.use_tensorboard:
        print("  [!] TensorBoard requested but not available")
    
    with open(output_dir / "model_config.json", "w") as f:
        json.dump(model_config.__dict__, f, indent=2, default=str)
    with open(output_dir / "train_config.json", "w") as f:
        json.dump(train_config.to_dict(), f, indent=2, default=str)
    
    print(f"\nOutput directory: {output_dir}")
    
    # Training loop
    print("\n" + "=" * 70)
    print("  TRAINING")
    print("=" * 70)
    
    if start_epoch > 0:
        print(f"  Resuming from epoch {start_epoch + 1}/{train_config.epochs}")
    
    for epoch in range(start_epoch, train_config.epochs):
        epoch_start = time.time()
        
        if epoch < train_config.warmup_epochs and train_config.scheduler == "cosine":
            warmup_lr = train_config.learning_rate * (epoch + 1) / train_config.warmup_epochs
            for param_group in optimizer.param_groups:
                param_group['lr'] = warmup_lr
        
        train_metrics = train_epoch(
            model, train_loader, optimizer, scheduler,
            train_config, epoch, tracker, writer
        )
        
        test_metrics = evaluate(model, test_loader, train_config)
        
        epoch_time = time.time() - epoch_start
        
        # TensorBoard epoch logging
        if writer is not None:
            # Epoch-level metrics
            writer.add_scalar('epoch/train_loss', train_metrics['loss'], epoch)
            writer.add_scalar('epoch/train_acc', train_metrics['acc'], epoch)
            writer.add_scalar('epoch/test_loss', test_metrics['loss'], epoch)
            writer.add_scalar('epoch/test_acc', test_metrics['acc'], epoch)
            writer.add_scalar('epoch/learning_rate', optimizer.param_groups[0]['lr'], epoch)
            writer.add_scalar('epoch/time_seconds', epoch_time, epoch)
            
            # Per-scale accuracies
            for scale in model.config.scales:
                writer.add_scalar(f'scales/acc_{scale}', test_metrics[f'acc_{scale}'], epoch)
            
            # Generalization gap
            writer.add_scalar('epoch/generalization_gap', test_metrics['acc'] - train_metrics['acc'], epoch)
            
            # Flush periodically
            if (epoch + 1) % 5 == 0:
                writer.flush()
        
        scale_accs = " | ".join([f"{s}:{test_metrics[f'acc_{s}']:.1f}%" for s in model.config.scales])
        star = "★" if test_metrics['acc'] > best_acc else ""
        
        print(f"  → Train: {train_metrics['acc']:.1f}% | Test: {test_metrics['acc']:.1f}% | "
              f"Scales: [{scale_accs}] | {epoch_time:.0f}s {star}")
        
        if test_metrics['acc'] > best_acc:
            best_acc = test_metrics['acc']
            
            torch.save({
                'epoch': epoch,
                'model_state_dict': model.state_dict(),
                'optimizer_state_dict': optimizer.state_dict(),
                'best_acc': best_acc,
                'model_config': model_config.__dict__,
                'train_config': train_config.to_dict()
            }, output_dir / "best_model.pt")
        
        if (epoch + 1) % train_config.save_interval == 0:
            torch.save({
                'epoch': epoch,
                'model_state_dict': model.state_dict(),
                'optimizer_state_dict': optimizer.state_dict(),
                'best_acc': best_acc
            }, output_dir / f"checkpoint_epoch_{epoch + 1}.pt")
            
            # Periodic HuggingFace Hub upload
            if train_config.push_to_hub and HF_HUB_AVAILABLE and effective_hub_repo_id:
                try:
                    # Save current best for upload
                    checkpoint = torch.load(output_dir / "best_model.pt", map_location='cpu')
                    model_cpu = DavidBeans(model_config)
                    model_cpu.load_state_dict(checkpoint['model_state_dict'])
                    
                    hub_dir = save_for_hub(
                        model=model_cpu,
                        model_config=model_config,
                        train_config=train_config,
                        best_acc=best_acc,
                        output_dir=output_dir,
                        training_history=tracker.get_history()
                    )
                    
                    push_to_hub(
                        hub_dir=hub_dir,
                        repo_id=effective_hub_repo_id,
                        private=train_config.hub_private,
                        commit_message=f"Checkpoint epoch {epoch + 1} - {best_acc:.2f}% acc"
                    )
                    print(f"  📤 Uploaded to {effective_hub_repo_id}")
                except Exception as e:
                    print(f"  [!] Hub upload failed: {e}")
        
        tracker.end_epoch()
    
    # Final summary
    print("\n" + "=" * 70)
    print("  TRAINING COMPLETE")
    print("=" * 70)
    print(f"\n  Best Test Accuracy: {best_acc:.2f}%")
    print(f"  Model saved to: {output_dir / 'best_model.pt'}")
    
    # Save training history
    history = tracker.get_history()
    with open(output_dir / "training_history.json", "w") as f:
        json.dump(history, f, indent=2)
    
    # Final TensorBoard logging
    if writer is not None:
        # Log best accuracy as hparam metric
        hparams = {
            'dim': model_config.dim,
            'num_layers': model_config.num_layers,
            'num_heads': model_config.num_heads,
            'num_experts': model_config.num_experts,
            'k_neighbors': model_config.k_neighbors,
            'cantor_weight': model_config.cantor_weight,
            'learning_rate': train_config.learning_rate,
            'weight_decay': train_config.weight_decay,
            'batch_size': train_config.batch_size,
            'mixup_alpha': train_config.mixup_alpha,
            'cutmix_alpha': train_config.cutmix_alpha,
        }
        writer.add_hparams(hparams, {'hparam/best_acc': best_acc})
        writer.add_scalar('final/best_acc', best_acc, 0)
        writer.close()
        print(f"  TensorBoard logs: {output_dir / 'tensorboard'}")
    
    # HuggingFace Hub upload
    if train_config.push_to_hub:
        print("\n" + "=" * 70)
        print("  UPLOADING TO HUGGINGFACE HUB")
        print("=" * 70)
        
        if not HF_HUB_AVAILABLE:
            print("  [!] huggingface_hub not installed. Skipping upload.")
        elif not effective_hub_repo_id:
            print("  [!] hub_repo_id not set. Skipping upload.")
        else:
            checkpoint = torch.load(output_dir / "best_model.pt", map_location='cpu')
            model.load_state_dict(checkpoint['model_state_dict'])
            
            print(f"\n  Preparing model for upload...")
            hub_dir = save_for_hub(
                model=model,
                model_config=model_config,
                train_config=train_config,
                best_acc=best_acc,
                output_dir=output_dir,
                training_history=history
            )
            
            print(f"\n  Uploading to {effective_hub_repo_id}...")
            push_to_hub(
                hub_dir=hub_dir,
                repo_id=effective_hub_repo_id,
                private=train_config.hub_private
            )
            
            print(f"\n  🎉 Model uploaded to: https://huggingface.co/{effective_hub_repo_id}")
    
    return model, best_acc


# ============================================================================
# PRESETS
# ============================================================================

def train_cifar10_small(run_name: str = "cifar10_small"):
    """Small model for CIFAR-10."""
    model_config = DavidBeansConfig(
        image_size=32, patch_size=4, dim=256, num_layers=4,
        num_heads=4, num_experts=5, k_neighbors=16,
        cantor_weight=0.3, scales=[64, 128, 256, 512],
        num_classes=10, dropout=0.1
    )
    
    train_config = TrainingConfig(
        run_name=run_name,
        dataset="cifar10", epochs=50, batch_size=128,
        learning_rate=1e-3, weight_decay=0.05, warmup_epochs=5,
        cayley_weight=0.01, contrast_weight=0.3,
        output_dir="./checkpoints/cifar10"
    )
    
    return train_david_beans(model_config, train_config)


def train_cifar100(
    run_name: str = "cifar100_base",
    push_to_hub: bool = False, 
    hub_repo_id: Optional[str] = None, 
    resume: bool = False
):
    """Model for CIFAR-100 with optional HF Hub upload and resume."""
    model_config = DavidBeansConfig(
        image_size=32, patch_size=4, dim=512, num_layers=8,
        num_heads=8, num_experts=5, k_neighbors=32,
        cantor_weight=0.3, scales=[256, 512, 768],
        num_classes=100, dropout=0.15
    )
    
    train_config = TrainingConfig(
        run_name=run_name,
        dataset="cifar100", epochs=200, batch_size=128,
        learning_rate=5e-4, weight_decay=0.1, warmup_epochs=20,
        cayley_weight=0.01, contrast_weight=0.5,
        label_smoothing=0.1, mixup_alpha=0.3, cutmix_alpha=1.0,
        output_dir="./checkpoints/cifar100",
        resume_from="latest" if resume else None,
        push_to_hub=push_to_hub, hub_repo_id=hub_repo_id, hub_private=False
    )
    
    return train_david_beans(model_config, train_config)


def resume_training(
    checkpoint_dir: str = "./checkpoints/cifar100",
    push_to_hub: bool = False,
    hub_repo_id: Optional[str] = None
):
    """
    Resume training from the latest checkpoint in a directory.
    
    Usage:
        resume_training("./checkpoints/cifar100", push_to_hub=True, hub_repo_id="user/repo")
    """
    output_dir = Path(checkpoint_dir)
    
    # Load configs from checkpoint directory
    model_config_path = output_dir / "model_config.json"
    train_config_path = output_dir / "train_config.json"
    
    if not model_config_path.exists():
        raise FileNotFoundError(f"No model_config.json in {output_dir}")
    
    with open(model_config_path) as f:
        model_config_dict = json.load(f)
    
    with open(train_config_path) as f:
        train_config_dict = json.load(f)
    
    # Handle tuple conversion for betas
    if 'betas' in train_config_dict and isinstance(train_config_dict['betas'], list):
        train_config_dict['betas'] = tuple(train_config_dict['betas'])
    
    model_config = DavidBeansConfig(**model_config_dict)
    train_config = TrainingConfig(**train_config_dict)
    
    # Override with resume settings
    train_config.resume_from = "latest"
    train_config.push_to_hub = push_to_hub
    if hub_repo_id:
        train_config.hub_repo_id = hub_repo_id
    
    return train_david_beans(model_config, train_config)


# ============================================================================
# STANDALONE UPLOAD FUNCTION
# ============================================================================

def upload_checkpoint(
    checkpoint_path: str,
    repo_id: str,
    best_acc: Optional[float] = None,
    private: bool = False
):
    """
    Upload an existing checkpoint to HuggingFace Hub.
    
    Usage:
        upload_checkpoint(
            checkpoint_path="./checkpoints/cifar100/best_model.pt",
            repo_id="AbstractPhil/david-beans-cifar100",
            best_acc=70.0  # Optional, will read from checkpoint if available
        )
    """
    if not HF_HUB_AVAILABLE:
        raise RuntimeError("huggingface_hub not installed. Run: pip install huggingface_hub")
    
    print(f"\n📦 Loading checkpoint: {checkpoint_path}")
    checkpoint = torch.load(checkpoint_path, map_location='cpu')
    
    # Reconstruct configs
    model_config_dict = checkpoint.get('model_config', {})
    train_config_dict = checkpoint.get('train_config', {})
    
    model_config = DavidBeansConfig(**model_config_dict)
    train_config = TrainingConfig(**train_config_dict)
    train_config.hub_repo_id = repo_id
    
    # Build model and load weights
    model = DavidBeans(model_config)
    model.load_state_dict(checkpoint['model_state_dict'])
    
    actual_best_acc = best_acc or checkpoint.get('best_acc', 0.0)
    
    # Prepare and upload
    output_dir = Path(checkpoint_path).parent
    
    print(f"\n📝 Preparing files for upload...")
    hub_dir = save_for_hub(
        model=model,
        model_config=model_config,
        train_config=train_config,
        best_acc=actual_best_acc,
        output_dir=output_dir
    )
    
    print(f"\n🚀 Uploading to {repo_id}...")
    push_to_hub(hub_dir, repo_id, private=private)
    
    print(f"\n🎉 Done! https://huggingface.co/{repo_id}")


# ============================================================================
# MAIN
# ============================================================================

if __name__ == "__main__":
    # =====================================================
    # CONFIGURATION
    # =====================================================
    
    PRESET = "cifar100"  # "test", "small", "cifar100", "resume"
    RESUME = False       # Set True to resume from latest checkpoint
    RUN_NAME = "5expert_3scale"  # Descriptive name for this run
    
    # HuggingFace Hub settings
    PUSH_TO_HUB = False
    HUB_REPO_ID = "AbstractPhil/geovit-david-beans"
    
    # =====================================================
    # RUN
    # =====================================================
    
    if PRESET == "test":
        print("🧪 Quick test...")
        model_config = DavidBeansConfig(
            image_size=32, patch_size=4, dim=128, num_layers=2,
            num_heads=4, num_experts=5, k_neighbors=8,
            scales=[32, 64, 128], num_classes=10
        )
        train_config = TrainingConfig(
            run_name="test",
            epochs=2, batch_size=32,
            use_augmentation=False, mixup_alpha=0.0, cutmix_alpha=0.0
        )
        model, acc = train_david_beans(model_config, train_config)
        
    elif PRESET == "small":
        print("🫘💎 Training DavidBeans - Small (CIFAR-10)...")
        model, acc = train_cifar10_small()
        
    elif PRESET == "cifar100":
        print("🫘💎 Training DavidBeans - CIFAR-100...")
        model, acc = train_cifar100(
            run_name=RUN_NAME,
            push_to_hub=PUSH_TO_HUB, 
            hub_repo_id=HUB_REPO_ID,
            resume=RESUME
        )
        
    elif PRESET == "resume":
        print("🔄 Resuming training from latest checkpoint...")
        model, acc = resume_training(
            checkpoint_dir="./checkpoints/cifar100",
            push_to_hub=PUSH_TO_HUB,
            hub_repo_id=HUB_REPO_ID
        )
        
    else:
        raise ValueError(f"Unknown preset: {PRESET}")
    
    print(f"\n🎉 Done! Best accuracy: {acc:.2f}%")