Applied Machine Learning QCM

Quel est la différence entre « supervisé » et « non-supervisé ». Donner des exemples de tâches supervisées et non-supervisées ?

supervisé → données avec label

non supervisé → données sans label

exemple supervisé → classification, regression linéaire, regression logique, KNN, Decision Tree, Random Forest, Gradient Boosting, XGBoost, Support Vector Machine(SVM), Neural Networks, Naive Bays,

exemple non supervisé → K-means, clustering

Qu’est ce que la penalisation (regularization) ? Quel est son intérêt ?

Penalisation est ajouter un terme de pénalisation dans le fonction d’objet

pour éviter overfitting

pour réduire la complecité du modèle

l’algorithme lasso → L1

Comment normaliser des données ? Quel est l’intérêt ? Qu’est ce que la standardisation ?

normalisation : mettre les données entre 0 et 1

formule :

pour utiliser normalisation, min(X) ≠ max(X), ça veux dire variable ne peut pas être constante.

Intérêt : avoir des coefficients homogènes donc interprétables

formule :

Qu’est-ce qu’un GLM ? Qu’est-ce qu’un « maximum de vraisemblance可能性 » ?

什么是广义线性模型（GLM）？什么是最大似然估计（MLE）？

Classe de modèle soit disant lineaire

Régression linéaire / regression logistique

maximum de vraisemblance appliqué à un paramétrisation linéaire du paramètre à estimer

Donner un exemple de classification binaire ou une des 2 classes est plus représentée que l’autre. Cela peut-il poser problème ? Quelles stratégies peut-on adopter pour résoudre ce problème ? prédiction défaillance d’entreprise

l’observation sur la classe peu représenté est trop peu Oui parce que si le modèle prédire toujours la classe qui est le plus présenté alors le modèle semble bien quand même il y a très peu d’exemples pour apprendre la classe minoritaire downsampling, upsampling, SMOTE

Qu’appelle-t-on des données « structurées ». Donnez des exemples de types de données non-structurées

données structurées : Les données structurées sont des données tabulaires, organisées sous forme de matrices avec un nombre fixe de colonnes (variables).

exemple : CSV, SQL, Excel

données non structurées : Les données non-structurées sont des données qui ne suivent pas un format fixe ou tabulaire.

exemple : HTML, texte, image, vidéo

Transformation des données non numériques / catégorielles en données numériques

texte : embeddings, bag of words

les variables catégorielles : : one-hot encoding

Valeurs manquantes

Si > 90 % de valeurs manquantes → supprimer la variable

Si < 10 % :

catégorielle → créer une nouvelle modalité “manquant”
numérique → remplacer par la médiane ou valeur aberrante

Pourquoi faut-il séparer train / test après préparation ?

Préparer avant la séparation risque de fuite de données（data leakage）

Par exemple：

Une normalisation faite sur tout le jeu inclurait les infos du test
One-hot encoding peut produire des colonnes différentes entre train et test（ex. métier non présent dans le train）

Pourquoi séparer train / test ?

Pour évaluer la généralisation du modèle

Éviter le sur-apprentissage（overfitting）

→ Quand un modèle est trop adapté aux données d'entraînement mais ne performe pas sur de nouvelles données.

Comment sélectionner les variables les plus pertinentes pour un modèle ? Quelles sont les variables qui doivent être forcément enlevées ?

🇨🇳 中文要点	🇫🇷 Point clé en français
一、变量必须剔除的四大类	1. Variables à supprimer systématiquement
1. 常数列：所有行取值相同，没有信息量。2. 身份识别型变量：如合同号、身份证号，粒度过细只会“记忆”个体。3. 事后变量：交易结果、本应预测的字段，留在模型会“作弊”。4. 法律或业务禁止使用的敏感变量：如某些保险费率模型不能使用性别。	1. Constantes : aucune variance, information nulle.2. Identifiants : numéro de police, ID client, trop granulaires ⇒ sur-apprentissage garanti.3. Variables a posteriori : ex. “montant payé” lorsque l’on prédit l’achat, fausse amélioration des performances.4. Variables sensibles interdites : p.ex. le sexe dans certaines tarifications d’assurance.
二、筛选关键变量的常用方法	2. Méthodes pour choisir les variables pertinentes
(1) 统计相关性：• 计算与目标的相关/反相关系数，剔除极弱相关。• 主成分分析 (PCA) 做降维，选取独立主成分。	(1) Corrélations & PCA :• Analyse (anti-)corrélation avec la cible (sauf pour arbres).• PCA pour obtenir des composantes orthogonales et réduire la dimension.
(2) 模型内置重要度：• 决策树 / 随机森林 / 梯度提升按分裂增益给变量排序。树模型对共线性不敏感。	(2) Importance intégrée :• Arbres de décision, Random Forest, Gradient Boosting fournissent l’importance des variables et gèrent bien les corrélations.
(3) 正则化惩罚：• L1（Lasso）把系数推到 0，自动做特征选择。• L2（Ridge）缩小权重，缓解多重共线。L(θ)+λ∥θ∥\displaystyle L(\theta)+\lambda\\|\theta\\|	(3) Pénalisation :• L1 / Lasso (norme 1) met vite des coefficients à 0 ⇒ sélection.• L2 / Ridge (norme 2) rétrécit les poids pour réduire la colinéarité.L(θ)+λ∥θ∥\displaystyle L(\theta)+\lambda\\|\theta\\|
(4) 高基数类别处理：• 手工或聚类合并职业等过多类别。• 少于阈值（如 <10 %）的稀有类别归为 “Other”。	(4) Catégories à forte cardinalité :• Regrouper manuellement ou via clustering (ex. salaire, années d’expérience).• Regrouper les modalités rares (<10 %) dans “Autre”.
三、交互项与变量组合	3. Interactions et croisements
• 对系数模型（线/逻辑回归）可显式添加交互项，如“性别 × 婚姻状态”，以捕获非线性效应。• 对树模型意义不大——树本身会自动做分区组合。	• Dans les modèles à coefficients (GLM, régression linéaire/logistique), ajouter des interactions peut révéler des effets combinés.• Inutile pour les arbres — ils gèrent déjà les partitions croisées.
四、类别不平衡与采样策略（引申）	4. Déséquilibre de classes & sampling (bonus)
• 类别极端不平衡时，可做上采样、下采样或合成样本 (SMOTE)。	• Pour un fort déséquilibre, appliquer sur-/sous-échantillonnage ou générer des données synthétiques (SMOTE).

算法名称	用途	特点说明
线性回归（Linear Regression）	回归	简单线性模型，解释性强
逻辑回归（Logistic Regression）	分类	二分类/多分类，输出概率
K近邻（K-Nearest Neighbors, KNN）	分类 / 回归	基于距离，惰性学习
决策树（Decision Tree）	分类 / 回归	可解释性强，容易过拟合
随机森林（Random Forest）	分类 / 回归	多棵树集成，抗过拟合，较稳定
梯度提升树（Gradient Boosting, XGBoost / LightGBM / CatBoost）	分类 / 回归	精度高，适合结构化数据
支持向量机（Support Vector Machine, SVM）	分类 / 回归	高维数据效果好，需调参
神经网络（Neural Networks）	分类 / 回归	可处理复杂问题，需大数据和计算资源
朴素贝叶斯（Naive Bayes）	分类	假设特征独立，速度快
广义线性模型（GLM）	分类 / 回归	概率建模方法，如Poisson回归、Logit回归等