tag

2025-09-30 15:25:32 +02:00 · 2025-09-30 15:25:32 +02:00 · 92032f67a4
commit 92032f67a4
parent ee9fe1bca2
3 changed files with 0 additions and 448 deletions
--- a/Rapport2.pdf
+++ b/Rapport2.pdf
--- a/Rapport2.typ
+++ b/Rapport2.typ
@ -1,445 +0,0 @@
 // Using native Typst table instead of tablex for compatibility
 #set document(title: "Projet CS:GO - Pipeline MLOps", author: "Équipe MLOps")
 #set page(margin: 2cm, numbering: "1")
 #set text(size: 11pt)
 #set heading(numbering: "1.1")
 #align(center)[
  #text(18pt, weight: "bold")[Projet CS:GO Esports Intelligence Platform]
  #v(0.5cm)
  #text(14pt)[Pipeline MLOps et Stratégie de Monitoring]
  #v(0.3cm)
  #line(length: 100%)
  #v(0.5cm)
  #grid(
    columns: (1fr, 1fr),
    [*Équipe : Paul Roost, Axelle Desthombes, Alexis Bruneteau* ], [*Date :* #datetime.today().display()]
  )
  #v(0.2cm)
  *Dataset :* CS:GO Professional Matches (Kaggle - 25K+ matches) \
  *Objectif :* Prédiction des résultats de matchs et optimisation des stratégies esports
 ]
 #v(1cm)
 = Atelier 1 : Pipeline du Fil Rouge
 == Architecture Générale du Pipeline
 #figure(
  image("images/pipeline2.svg", width: 60%),
  caption: [Architecture complète du pipeline MLOps CS:GO]
 ) <pipeline-arch>
 == Étapes Détaillées du Pipeline
 === Collecte et Ingestion des Données
 *Sources de données :*
 - *HLTV.org* : Résultats historiques, classements équipes
 - *Steam API* : Données joueurs en temps réel  
 - *Tournament APIs* : Calendriers, formats de compétition
 *Pipeline d'ingestion automatisé avec Apache Airflow :*
 ```python
@dag(schedule_interval="@hourly", start_date=datetime(2024,1,1))
 def csgo_data_ingestion():
    extract_hltv_matches = PythonOperator(
        task_id='extract_hltv',
        python_callable=scrape_hltv_matches
    )
    validate_data = PythonOperator(
        task_id='validate_raw_data', 
        python_callable=validate_match_schema
    )
    store_s3 = PythonOperator(
        task_id='store_to_s3',
        python_callable=upload_to_s3
    )
    extract_hltv_matches >> validate_data >> store_s3
 ```
 === Feature Engineering Multi-Niveaux
 #table(
  columns: (2fr, 3fr),
  stroke: 0.5pt,
  [*Catégorie*], [*Features*],
  [*Team-level*], [
    • `recent_form_10_matches` - Ratio W/L récent \
    • `map_pool_strength` - Win rate par map \
    • `clutch_success_rate` - Performance clutch \
    • `eco_round_conversion` - Gestion économique
  ],
  [*Context*], [
    • `tournament_tier` - Prestige de l'événement \
    • `prize_pool_amount` - Facteur de pression \
    • `head_to_head_record` - Historique direct \
    • `current_game_patch` - Version meta game
  ],
  [*Live*], [
    • `current_score_difference` - Score en cours \
    • `momentum_last_5_rounds` - Élan récent \
    • `economy_advantage` - Avantage économique
  ]
 )
 === Entraînement Multi-Target
 Architecture d'apprentissage multitâche avec PyTorch :
 ```python
 class CSGOPredictor(nn.Module):
    def __init__(self, input_dim):
        super().__init__()
        self.shared_layers = nn.Sequential(
            nn.Linear(input_dim, 256),
            nn.ReLU(), 
            nn.Dropout(0.3),
            nn.Linear(256, 128)
        )
        # Têtes spécialisées par tâche
        self.match_winner = nn.Linear(128, 2)    # Classification binaire
        self.final_score = nn.Linear(128, 2)     # Régression scores
        self.total_maps = nn.Linear(128, 4)      # Nombre de maps
    def forward(self, x):
        shared_repr = self.shared_layers(x)
        return {
            'match_winner': self.match_winner(shared_repr),
            'final_score': self.final_score(shared_repr), 
            'total_maps': self.total_maps(shared_repr)
        }
 ```
 == Automatisation et Points de Contrôle
 === Stratégie d'Automatisation
 #table(
  columns: (2fr, 1fr, 3fr),
  stroke: 0.5pt,
  [*Étape*], [*Status*], [*Justification*],
  [*Ingestion données*], [AUTO], [Nouveaux matchs quotidiens, obsolescence rapide],
  [*Feature Engineering*], [AUTO], [Features dépendent de données temps-réel],
  [*Model Retraining*], [AUTO], [Meta game évolue (patches, transferts)],
  [*Deployment*], [AUTO], [Évite erreurs humaines, rollback rapide],
  [*Model Selection*], [MANUEL], [Décisions business complexes nécessitant expertise]
 )
 === Points de Contrôle Critiques
 *Validation des Données :*
 ```python
 def validate_match_data(df):
    """Validation avant feature engineering"""
    checks = [
        ('schema_compliance', validate_schema(df)),
        ('completeness', check_missing_values(df, threshold=0.05)),
        ('consistency', validate_team_names(df)),
        ('freshness', check_data_age(df, max_hours=24)),
        ('volume', validate_daily_match_count(df, min_matches=50))
    ]
    for check_name, result in checks:
        if not result.passed:
            raise DataValidationError(f"{check_name} failed")
 ```
 *Validation des Performances :*
 ```python
 def validate_model_performance(model, validation_data):
    """Validation avant déploiement"""
    metrics = evaluate_model(model, validation_data)
    # Seuils minimaux
    assert metrics['accuracy'] > 0.65, "Accuracy insuffisante"
    assert metrics['roi_betting'] > 1.05, "ROI non profitable"  
    assert metrics['upset_detection'] > 0.20, "Détection upsets faible"
    return True
 ```
 === Difficultés Techniques et Solutions
 *Défi 1 : Concept Drift Extrême*
 Les mises à jour du jeu modifient significativement les stratégies et l'équilibre, ce qui peut rendre les modèles existants moins performants.
 *Solution :* Détection automatisée de drift + retraining d'urgence
 ```python
 def detect_meta_shift(recent_matches, baseline):
    """Détecte changements post-patch"""
    map_rates = calculate_map_win_rates(recent_matches)
    baseline_rates = baseline['map_win_rates']
    for map_name in map_rates:
        ks_stat, p_value = ks_2samp(map_rates[map_name], 
                                   baseline_rates[map_name])
        if p_value < 0.01:  # Drift significatif
            return True
    return False
 ```
 *Défi 2 : Cold Start Problem*
 Les nouvelles équipes ou changements de composition ne disposent pas d'historique suffisant pour l'entraînement.
 *Solution :* Transfer learning via embeddings joueurs
 ```python
 def handle_cold_start_team(roster, player_db):
    """Prédictions via similarité joueurs"""
    team_embedding = [player_db.get_embedding(p.id) for p in roster]
    similar_teams = find_similar_teams(team_embedding, top_k=5)
    return weighted_prediction_from_similar(similar_teams)
 ```
 #pagebreak()
 = Atelier 2 : Expériences et Monitoring
 == Tracking des Expériences avec MLflow
 === Configuration et Logging Structuré
 ```python
 mlflow.set_tracking_uri("http://mlflow-server:5000")
 mlflow.set_experiment("csgo-match-prediction")
 def train_and_log_experiment(config):
    with mlflow.start_run(run_name=f"csgo-v{config.version}"):
        # Hyperparamètres
        mlflow.log_params({
            "model_type": config.model_type,
            "learning_rate": config.lr,
            "batch_size": config.batch_size,
            "data_version": config.data_version
        })
        # Métriques par époque
        for epoch in range(config.epochs):
            train_loss = train_one_epoch(model, train_loader)
            val_metrics = evaluate_model(model, val_loader)
            mlflow.log_metrics({
                "train_loss": train_loss,
                "val_accuracy": val_metrics['accuracy'],
                "betting_roi": val_metrics['roi'],
                "upset_detection": val_metrics['upset_rate']
            }, step=epoch)
        # Artefacts finaux
        mlflow.pytorch.log_model(model, "model")
        mlflow.log_artifacts("evaluation_plots/")
 ```
 === Métriques Trackées
 #table(
  columns: (2fr, 3fr),
  stroke: 0.5pt,
  [*Catégorie*], [*Métriques*],
  [*Performance ML*], [
    • Accuracy, Precision, Recall, F1-Score \
    • ROC-AUC, Calibration Error \
    • Performance par segment (tier tournoi)
  ],
  [*Business*], [
    • ROI betting, Profit/Loss \
    • Sharpe Ratio, Upset Detection Rate \
    • User Engagement, Revenue Impact
  ],
  [*Computational*], [
    • Training Time, Inference Latency \
    • Model Size, Memory Usage \
    • API Response Time
  ]
 )
 == Stratégie de Monitoring Complète
 === Métriques de Surveillance Multi-Niveaux
 *Surveillance de la qualité des données :*
 ```python
 class DataMonitoring:
    def monitor_data_quality(self, new_batch):
        metrics = {}
        # Volume et couverture
        metrics['daily_match_count'] = len(new_batch)
        metrics['team_coverage'] = new_batch['team_name'].nunique()
        # Qualité
        metrics['missing_rate'] = new_batch.isnull().mean().mean()
        metrics['duplicates'] = new_batch.duplicated().sum()
        # Drift distribution
        for col in ['team_ranking', 'match_duration']:
            drift = calculate_drift_score(new_batch[col], baseline[col])
            metrics[f'{col}_drift'] = drift
        return metrics
 ```
 *Model Performance Monitoring :*
 ```python
 def monitor_model_performance(predictions, actuals):
    """Monitoring performance temps-réel"""
    rolling_metrics = {}
    # Fenêtres glissantes
    for window in [1, 7, 30]:  # jours
        recent = get_recent_data(window)
        rolling_metrics[f'accuracy_{window}d'] = accuracy_score(
            recent['actual'], recent['predicted']
        )
        rolling_metrics[f'roi_{window}d'] = calculate_roi(
            recent['predictions'], recent['outcomes']
        )
    return rolling_metrics
 ```
 === Système d'Alertes Intelligent
 #table(
  columns: (1fr, 2fr, 2fr),
  stroke: 0.5pt,
  [*Sévérité*], [*Seuils*], [*Actions*],
  [*CRITIQUE*], [
    • Accuracy 7j \< 60% \
    • ROI 7j \< 100% \
    • API errors \> 5%
  ], [
    • PagerDuty + Slack \
    • Email équipe oncall \
    • Rollback automatique
  ],
  [*WARNING*], [
    • Accuracy trending ↓ \
    • Concept drift p\<0.05 \
    • Latency \> 300ms
  ], [
    • Slack \#alerts \
    • Email ML team \
    • Investigation requise
  ],
  [*INFO*], [
    • Nouveaux tournaments \
    • Performance updates \
    • System health
  ], [
    • Slack \#monitoring \
    • Dashboard updates
  ]
 )
 === Dashboards et Rapports
 *Dashboard Temps-Réel (Grafana) :*
 - *Model Performance* : Accuracy, ROI, Calibration trends
 - *Data Pipeline Health* : Volume, freshness, quality scores  
 - *API Performance* : Latency P95, request rate, error rate
 - *Business Metrics* : Revenue impact, user engagement
 *Rapports Hebdomadaires Automatisés :*
 ```python
 class WeeklyReportGenerator:
    def generate_performance_report(self, week_start, week_end):
        sections = [
            self.executive_summary(),      # KPIs clés
            self.model_performance(),      # Analyse détaillée
            self.business_impact(),        # Valeur générée  
            self.technical_health(),       # Infrastructure
            self.recommendations()         # Actions recommandées
        ]
        return self.compile_html_report(sections)
 ```
 == Architecture de Monitoring Production
 === Alerting Multi-Canal
 ```python
 class AlertManager:
    def __init__(self):
        self.channels = {
            'slack': SlackNotifier(SLACK_WEBHOOK),
            'email': EmailNotifier(EMAIL_CONFIG), 
            'pagerduty': PagerDutyNotifier(PAGERDUTY_KEY)
        }
    def send_alert(self, alert):
        if alert['severity'] == 'CRITICAL':
            // Alertes critiques sur tous les canaux
            self.channels['pagerduty'].send(alert)
            self.channels['slack'].send_critical(alert)
            self.channels['email'].send_oncall(alert)
        elif alert['severity'] == 'WARNING':
            // Warnings vers Slack et email
            self.channels['slack'].send_warning(alert)
            self.channels['email'].send_team(alert)
 ```
 === Runbooks d'Incident
 *Alerte Critique : Accuracy < 60%*
 1. *Actions Immédiates (0-15min)*
   - Vérifier qualité des données récentes
   - Identifier changements meta/tournois  
   - Rollback si accuracy < 55%
 2. *Investigation (15-60min)*
   - Analyse drift sur données récentes
   - Comparaison prédictions vs résultats
   - Validation pipeline features
 3. *Résolution (1-4h)*
   - Retraining d'urgence si drift détecté
   - Fix pipeline si problème data quality
   - Rollback si problème infrastructure
 = Conclusion
 L'architecture MLOps développée pour ce projet CS:GO présente plusieurs caractéristiques importantes :
 *Architecture de production robuste :*
 - Apprentissage multi-tâches permettant des prédictions variées selon les besoins métier
 - Service en temps réel respectant les contraintes de latence
 - Gestion de la dérive conceptuelle liée à l'évolution du meta-jeu
 - Surveillance complète des données, modèles et métriques business
 *Mesure de la valeur métier :*
 - Suivi du retour sur investissement pour les applications de paris et fantasy leagues
 - Métriques d'engagement utilisateur pour optimiser la rétention
 - Impact sur le chiffre d'affaires pour justifier les investissements
 *Fiabilité opérationnelle :*
 - Retour en arrière automatique en cas de dégradation des performances
 - Système d'alertes multi-canaux pour une réaction rapide
 - Procédures documentées pour la résolution d'incidents
 - Plan de continuité d'activité pour les événements critiques
 Ce travail démontre l'application des principes MLOps modernes à un domaine spécialisé, en mettant l'accent sur la création de valeur métier et la fiabilité opérationnelle.
 #align(center)[
  #line(length: 50%)
  #v(0.3cm)
  *Équipe MLOps - Projet CS:GO Intelligence Platform*
 ]
--- a/images/pipeline2.svg
+++ b/images/pipeline2.svg