22. Iteration

Chapter 22 of 24 · 20 min

KEY INSIGHT

Iteration velocity in local AI products depends on your ability to test new models against existing user history—without possessing that history. Synthetic benchmarking and staged rollouts become your primary iteration tools. Cloud products iterate quickly because they have live user traffic to test against. Local products must simulate this environment through benchmarks, telemetry from willing users, and gradual rollout strategies that minimize blast radius when experiments fail. ```python # iteration_manager.py from dataclasses import dataclass, field from typing import List, Dict, Optional, Callable from datetime import datetime, timedelta import random @dataclass class ExperimentConfig: experiment_id: str name: str description: str model_a: str # Control model_b: str # Variant rollout_percentage: float # 0.0 - 1.0 metrics_to_track: List[str] min_sample_size: int duration_days: int @dataclass class ExperimentResult: experiment_id: str variant: str # 'a' or 'b' sample_size: int metric_name: str mean_value: float std_dev: float confidence_interval: tuple p_value: Optional[float] = None recommendation: str = "" @dataclass class RolloutPlan: rollout_id: str model_id: str target_cohort_percentage: float current_percentage: float canary_duration_days: int automatic_promotion: bool rollback_trigger_pct: float # Error rate threshold class LocalModelIterationManager: def __init__(self, benchmark_suite): self.benchmark_suite = benchmark_suite self.active_experiments: List[ExperimentConfig] = [] self.experiment_results: Dict[str, List[ExperimentResult]] = {} self.rollout_plans: List[RolloutPlan] = [] def run_benchmark_comparison(self, model_a: str, model_b: str, benchmark_tasks: List[str]) -> Dict: """ Compare two models using your benchmark suite. Results inform which model to prioritize. """ results_a = self.benchmark_suite.run_suite(model_a, benchmark_tasks) results_b = self.benchmark_suite.run_suite(model_b, benchmark_tasks) comparison = {} for task in benchmark_tasks: comparison[task] = { "model_a": results_a.get(task, {}), "model_b": results_b.get(task, {}), "delta": self._calculate_delta( results_a.get(task, {}).get('score', 0), results_b.get(task, {}).get('score', 0) ), "recommendation": self._determine_recommendation( results_a.get(task, {}).get('score', 0), results_b.get(task, {}).get('score', 0) ) } return comparison def _calculate_delta(self, score_a: float, score_b: float) -> float: return ((score_b - score_a) / score_a * 100) if score_a > 0 else 0 def _determine_recommendation(self, score_a: float, score_b: float) -> str: delta_pct = abs(self._calculate_delta(score_a, score_b)) if delta_pct < 2: return "equivalent" elif score_b > score_a: return "model_b_preferred" else: return "model_a_preferred" def create_experiment(self, name: str, model_a: str, model_b: str, rollout_pct: float = 0.1, metrics: Dict[str, List[str]] = None) -> ExperimentConfig: """ Set up A/B experiment for gradual rollout. """ experiment = ExperimentConfig( experiment_id=f"exp_{datetime.now().strftime('%Y%m%d_%H%M%S')}", name=name, description=f"Compare {model_a} vs {model_b}", model_a=model_a, model_b=model_b, rollout_percentage=rollout_pct, metrics_to_track=metrics.get('primary', ['rating', 'latency']), min_sample_size=100, duration_days=7 ) self.active_experiments.append(experiment) return experiment def assign_variant(self, user_id: str, experiment: ExperimentConfig) -> str: """ Deterministic assignment ensures same user gets same variant. """ assignment_seed = f"{experiment.experiment_id}:{user_id}" hash_value = sum(ord(c) for c in assignment_seed) variant = 'a' if hash_value % 100 < experiment.rollout_percentage * 100 else 'b' return variant def record_experiment_metric(self, experiment_id: str, variant: str, metric_name: str, value: float) -> None: """Record metric value during experiment.""" result = ExperimentResult( experiment_id=experiment_id, variant=variant, sample_size=1, metric_name=metric_name, mean_value=self._running_mean(value), std_dev=0, # Simplified confidence_interval=(0, 0) ) if experiment_id not in self.experiment_results: self.experiment_results[experiment_id] = [] self.experiment_results[experiment_id].append(result) def _running_mean(self, new_value: float) -> float: """Calculate running mean of metric.""" # Placeholder—implement proper running statistics return new_value def analyze_experiment(self, experiment_id: str) -> Dict: """ Analyze experiment results when completed. """ results = self.experiment_results.get(experiment_id, []) if not results: return {"status": "no_data"} # Aggregate by variant variant_a = [r for r in results if r.variant == 'a'] variant_b = [r for r in results if r.variant == 'b'] return { "experiment_id": experiment_id, "variant_a_samples": len(variant_a), "variant_b_samples": len(variant_b), "variant_a_avg_rating": self._aggregate_metric(variant_a, 'rating'), "variant_b_avg_rating": self._aggregate_metric(variant_b, 'rating'), "recommendation": "promote_b" if self._aggregate_metric(variant_a, 'rating') < self._aggregate_metric(variant_b, 'rating') else "promote_a" } def _aggregate_metric(self, results: List[ExperimentResult], metric_name: str) -> Optional[float]: filtered = [r for r in results if r.metric_name == metric_name] if not filtered: return None return sum(r.mean_value for r in filtered) / len(filtered) def create_rollout_plan(self, model_id: str, canary_pct: float = 0.05, auto_promote: bool = True) -> RolloutPlan: """Create gradual rollout plan for new model.""" plan = RolloutPlan( rollout_id=f"rollout_{datetime.now().strftime('%Y%m%d_%H%M%S')}", model_id=model_id, target_cohort_percentage=1.0, current_percentage=0.0, canary_duration_days=7, automatic_promotion=auto_promote, target_cohort_percentage=canary_pct ) self.rollout_plans.append(plan) return plan def progress_rollout(self, rollout_id: str) -> RolloutPlan: """Progress rollout to next stage if metrics are healthy.""" plan = next((p for p in self.rollout_plans if p.rollout_id == rollout_id), None) if not plan: raise ValueError(f"Unknown rollout: {rollout_id}") # Calculate next stage stages = [0.01, 0.05, 0.25, 0.50, 1.0] current_stage_idx = next( (i for i, s in enumerate(stages) if plan.current_percentage <= s), len(stages) - 1 ) if current_stage_idx < len(stages) - 1: plan.current_percentage = stages[current_stage_idx + 1] return plan ``` Benchmark quality determines iteration quality. Invest in benchmark suites that map to real user tasks. Generic benchmarks (MMLU, HumanEval) tell you about general capability—domain-specific benchmarks tell you about your users' actual needs.

EXERCISE

Design an iteration workflow that includes benchmark-led model evaluation, staged rollout with automatic promotion based on quality metrics, and emergency rollback triggers. Implement a system that tracks which models users prefer across different task categories.