Sébastien Loustau


M2 Pro Ingénierie Mathématique Option Statistique.

 



Un peu de documentation : un poly d'introduction au logiciel R : R pour les débutants et la fonction linear.hypothesis . Un polycopié intéressant Le modèle linéaire par l'exemple et la documentation du package leaps de sélection de modèle en régression linéaire.
Un petite correction de la remarque sur les limites du R2, à associer à ces illustrations (exemples de coefficients de corrélation linéaires (source wikipédia ).

  Modèles linéaires, contenu des TD/TP

-> TD/TP de rappels :Le sujet et les données poulpe et poulpeF

-> TD/TP de régression linéaire simple : Le sujet et les données ozone et eucalyptus .

-> TD/TP de régression linéaire multiple : Le sujet et les données icecream .

-> TP de régression non-gaussienne : Le sujet et le corrigé .

-> TD/TP de corrélation: Le sujet et les données decathlon espérance de vie et motard.

-> TD/TP d'analyse de variance 1 facteur Le sujet et les données chemical .

-> TP d'analyse de variance à plusieurs facteurs et analyse de la covariance Le sujet et les données poids des rats , ventes de lait, et méduses .

-> TP de diagnostics et choix du modèle Le sujet et les données de l'exercice 3 tv advertisements .

-> TP de statistique non-paramétrique : Le sujet et le document d'E. Moulines les splines cubiques . Le cours est largement inspiré de cet ouvrage : Introduction à la statistique non-paramétrique.

-> TP de SAS Le sujet et les données de l'exercice 1 tour de france et de l'exercice 2 televisions ainsi que les deux tables SAS correspondantes tour de france et televisions.

  Rapports sur jeux de données réelles

->Rapport écrit à rendre le 10 Novembre à 14h précise : le fichier de données .

Description des données : Les données contiennent la masse graisseuse (body fat), l'épaisseur du pli cutané du triceps (triceps skinfold thickness), le tour de cuisse (thigh circumference) et la circonférence brachiale (midarm circonference) de 20 femmes de 20 à 34 ans en bonne santé.
Problématique : Une procédure délicate et très couteuse permet de calculer le pourcentage de masse graisseuse d'un individu (immersion complète dans l'eau). Il serait ainsi très utile d'utiliser un modèle de régression à l'aide des variables explicatives considérées, principalement de manière à prédire la masse graisseuse.

L'évaluation suivra les grandes lignes suivantes :
-clarté de la démarche.
-maitrise des techniques statistiques et du logiciel R.
-présentation.

-> Rapport oral à présenter le Vendredi 16 décembre : le fichier de données .

Description des données :
Taille: 804 observations, 12 variables
Un échantillon de plus de 800 modèles de voitures américaines de l'année 2005 ont été sélectionnées, et un prix a été attribué par un algorithme en fonction des 11 variables descriptives suivantes:
Km (kilométrage du véhicule)
Marque
Modèle
Sous-modèle (varient selon les options)
Type (de carrosserie)
Cylindré (moteur)
Litre (mesure plus précise de la taille du moteur)
Portes (Nombre de portes)
Régulateur
HP (haut-parleurs Dolby stéréo)
Cuir (intérieur cuir).
Problématique : Après une interprétation soignée du modèle de régression linéaire simple du prix en fonction du kilométrage, proposer un analyse multivariée pour décrire le processus d'attribution du prix d'un véhicule en fonction de ces caractéristiques.

L'évaluation suivra les grandes lignes suivantes :
-clarté de la démarche pour répondre à la problématique,
-maitrise des techniques statistiques et du logiciel R,
-déroulement de la présentation orale.



  Exemples de stages encadrés les années passées

-> Caracterisation de la maturation du raisin et de la qualité du vin à partir des mesures spectrométriques moyen-infra-rouge, Groupe ESA, Laboratoire GRAPPE.
-> Analyse de données phenotypiques obtenues dans des populations issues de croisement de rosiers, INRA Angers, UMR Genhort
-> Analyse des données d'une étude médico-économique sur les préférences des patients via la méthode des choix discrets, Qualees.
-> Application d'un modèle de discrimination non linéaire : les Support Vector Machines (SVM), L'Oréal, Recherche Avancée.