Applied Machine Learning QCM

Tags
Published
Author
  1. Quel est la différence entre « supervisé » et  « non-supervisé ». Donner des exemples de tâches supervisées et non-supervisées ?
    1. supervisé → données avec label
      non supervisé → données sans label
      exemple supervisé → classification, regression linéaire, regression logique, KNN, Decision Tree, Random Forest, Gradient Boosting, XGBoost, Support Vector Machine(SVM), Neural Networks, Naive Bays,
      exemple non supervisé → K-means, clustering
  1. Qu’est ce que la penalisation (regularization) ? Quel est son intérêt ?
    1. Penalisation est ajouter un terme de pénalisation dans le fonction d’objet
      pour éviter overfitting
      pour réduire la complecité du modèle
      l’algorithme lasso → L1
  1. Comment normaliser des données ? Quel est l’intérêt ? Qu’est ce que la standardisation ?
    1. normalisation : mettre les données entre 0 et 1
      formule :
      pour utiliser normalisation, min(X) ≠ max(X), ça veux dire variable ne peut pas être constante.
      Intérêt : avoir des coefficients homogènes donc interprétables
      formule :
  1. Qu’est-ce qu’un GLM ? Qu’est-ce qu’un « maximum de vraisemblance可能性 » ?
    1. 什么是广义线性模型(GLM)?什么是最大似然估计(MLE)?
      Classe de modèle soit disant lineaire
      Régression linéaire / regression logistique
      maximum de vraisemblance appliqué à un paramétrisation linéaire  du paramètre à estimer
  1. Donner un exemple de classification binaire ou une des 2 classes est plus représentée que l’autre. Cela peut-il poser problème ? Quelles stratégies peut-on adopter pour résoudre ce problème ? prédiction défaillance d’entreprise
    1. l’observation sur la classe peu représenté est trop peu Oui parce que si le modèle prédire toujours la classe qui est le plus présenté alors le modèle semble bien quand même il y a très peu d’exemples pour apprendre la classe minoritaire downsampling, upsampling, SMOTE
  1. Qu’appelle-t-on des données « structurées ». Donnez des exemples de types de données non-structurées
    1. données structurées : Les données structurées sont des données tabulaires, organisées sous forme de matrices avec un nombre fixe de colonnes (variables).
      exemple : CSV, SQL, Excel
      données non structurées : Les données non-structurées sont des données qui ne suivent pas un format fixe ou tabulaire.
      exemple : HTML, texte, image, vidéo
  1. Transformation des données non numériques / catégorielles en données numériques
    1. texte : embeddings, bag of words
      les variables catégorielles : : one-hot encoding
  1. Valeurs manquantes
      • Si > 90 % de valeurs manquantes → supprimer la variable
      • Si < 10 % :
        • catégorielle → créer une nouvelle modalité “manquant”
        • numérique → remplacer par la médiane ou valeur aberrante
  1. Pourquoi faut-il séparer train / test après préparation ?
      • Préparer avant la séparation risque de fuite de données(data leakage)
      • Par exemple:
        • Une normalisation faite sur tout le jeu inclurait les infos du test
        • One-hot encoding peut produire des colonnes différentes entre train et test(ex. métier non présent dans le train)
  1. Pourquoi séparer train / test ?
  • Pour évaluer la généralisation du modèle
  • Éviter le sur-apprentissage(overfitting)
    • → Quand un modèle est trop adapté aux données d'entraînement mais ne performe pas sur de nouvelles données.
  1. Comment sélectionner les variables les plus pertinentes pour un modèle ? Quelles sont les variables qui doivent être forcément enlevées ?
 
🇨🇳 中文要点
🇫🇷 Point clé en français
一、变量必须剔除的四大类
1. Variables à supprimer systématiquement
1. 常数列:所有行取值相同,没有信息量。2. 身份识别型变量:如合同号、身份证号,粒度过细只会“记忆”个体。3. 事后变量:交易结果、本应预测的字段,留在模型会“作弊”。4. 法律或业务禁止使用的敏感变量:如某些保险费率模型不能使用性别。
1. Constantes : aucune variance, information nulle.2. Identifiants : numéro de police, ID client, trop granulaires ⇒ sur-apprentissage garanti.3. Variables a posteriori : ex. “montant payé” lorsque l’on prédit l’achat, fausse amélioration des performances.4. Variables sensibles interdites : p.ex. le sexe dans certaines tarifications d’assurance.
二、筛选关键变量的常用方法
2. Méthodes pour choisir les variables pertinentes
(1) 统计相关性:• 计算与目标的相关/反相关系数,剔除极弱相关。• 主成分分析 (PCA) 做降维,选取独立主成分。
(1) Corrélations & PCA :• Analyse (anti-)corrélation avec la cible (sauf pour arbres).• PCA pour obtenir des composantes orthogonales et réduire la dimension.
(2) 模型内置重要度:• 决策树 / 随机森林 / 梯度提升按分裂增益给变量排序。树模型对共线性不敏感。
(2) Importance intégrée :• Arbres de décision, Random Forest, Gradient Boosting fournissent l’importance des variables et gèrent bien les corrélations.
(3) 正则化惩罚:• L1(Lasso)把系数推到 0,自动做特征选择。• L2(Ridge)缩小权重,缓解多重共线。L(θ)+λ∥θ∥\displaystyle L(\theta)+\lambda\|\theta\|
(3) Pénalisation :• L1 / Lasso (norme 1) met vite des coefficients à 0 ⇒ sélection.• L2 / Ridge (norme 2) rétrécit les poids pour réduire la colinéarité.L(θ)+λ∥θ∥\displaystyle L(\theta)+\lambda\|\theta\|
(4) 高基数类别处理:• 手工或聚类合并职业等过多类别。• 少于阈值(如 <10 %)的稀有类别归为 “Other”。
(4) Catégories à forte cardinalité :• Regrouper manuellement ou via clustering (ex. salaire, années d’expérience).• Regrouper les modalités rares (<10 %) dans “Autre”.
三、交互项与变量组合
3. Interactions et croisements
• 对系数模型(线/逻辑回归)可显式添加交互项,如“性别 × 婚姻状态”,以捕获非线性效应。• 对树模型意义不大——树本身会自动做分区组合。
• Dans les modèles à coefficients (GLM, régression linéaire/logistique), ajouter des interactions peut révéler des effets combinés.• Inutile pour les arbres — ils gèrent déjà les partitions croisées.
四、类别不平衡与采样策略(引申)
4. Déséquilibre de classes & sampling (bonus)
• 类别极端不平衡时,可做上采样、下采样或合成样本 (SMOTE)。
• Pour un fort déséquilibre, appliquer sur-/sous-échantillonnage ou générer des données synthétiques (SMOTE).
算法名称
用途
特点说明
线性回归(Linear Regression)
回归
简单线性模型,解释性强
逻辑回归(Logistic Regression)
分类
二分类/多分类,输出概率
K近邻(K-Nearest Neighbors, KNN)
分类 / 回归
基于距离,惰性学习
决策树(Decision Tree)
分类 / 回归
可解释性强,容易过拟合
随机森林(Random Forest)
分类 / 回归
多棵树集成,抗过拟合,较稳定
梯度提升树(Gradient Boosting, XGBoost / LightGBM / CatBoost)
分类 / 回归
精度高,适合结构化数据
支持向量机(Support Vector Machine, SVM)
分类 / 回归
高维数据效果好,需调参
神经网络(Neural Networks)
分类 / 回归
可处理复杂问题,需大数据和计算资源
朴素贝叶斯(Naive Bayes)
分类
假设特征独立,速度快
广义线性模型(GLM)
分类 / 回归
概率建模方法,如Poisson回归、Logit回归等