CRIM | ZN | INDUS | CHAS | NOX | RM | AGE | DIS | RAD | TAX | PTRATIO | B | LSTAT | MEDV | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 0.61154 | 20.0 | 3.97 | 0 | 0.6470 | 8.704 | 86.9 | 1.8010 | 5 | 264 | 13.0 | 389.70 | 5.12 | 50.0 |
1 | 0.03466 | 35.0 | 6.06 | 0 | 0.4379 | 6.031 | 23.3 | 6.6407 | 1 | 304 | 16.9 | 362.25 | 7.83 | 19.4 |
2 | 10.06230 | 0.0 | 18.10 | 0 | 0.5840 | 6.833 | 94.3 | 2.0882 | 24 | 666 | 20.2 | 81.33 | 19.69 | 14.1 |
3 | 0.13960 | 0.0 | 8.56 | 0 | 0.5200 | 6.167 | 90.0 | 2.4210 | 5 | 384 | 20.9 | 392.69 | 12.33 | 20.1 |
4 | 8.79212 | 0.0 | 18.10 | 0 | 0.5840 | 5.565 | 70.6 | 2.0635 | 24 | 666 | 20.2 | 3.65 | 17.16 | 11.7 |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
450 | 9.51363 | 0.0 | 18.10 | 0 | 0.7130 | 6.728 | 94.1 | 2.4961 | 24 | 666 | 20.2 | 6.68 | 18.71 | 14.9 |
451 | 0.52014 | 20.0 | 3.97 | 0 | 0.6470 | 8.398 | 91.5 | 2.2885 | 5 | 264 | 13.0 | 386.86 | 5.91 | 48.8 |
452 | 0.79041 | 0.0 | 9.90 | 0 | 0.5440 | 6.122 | 52.8 | 2.6403 | 4 | 304 | 18.4 | 396.90 | 5.98 | 22.1 |
453 | 0.11132 | 0.0 | 27.74 | 0 | 0.6090 | 5.983 | 83.5 | 2.1099 | 4 | 711 | 20.1 | 396.90 | 13.35 | 20.1 |
454 | 0.25199 | 0.0 | 10.59 | 0 | 0.4890 | 5.783 | 72.7 | 4.3549 | 4 | 277 | 18.6 | 389.43 | 18.06 | 22.5 |
455 rows × 14 columns
Tracer le graphique en nuage de points(scatter
) de la vignette 5 grâce à la librairie matplotlib.
Réaliser la régression linéaire à deux paramètres grâce à la bibliothèque sklearn
.
En utilisant le modèle prédire le prix d’un 6 pièces avec 40% de logements occupés par leur propriétaire construits avant 1940 à Boston.
'Le prix prévu est: 22.136605928493484'
Dans les données de test on trouve deux biens qui se rapprochent de ces caractéristiques avec des prix relativement proches de la prévision.
RM | AGE | MEDV |
---|---|---|
6,162 | 38,4 | 24,1 |
6,009 | 42,3 | 21,7 |
Informations sur les données
Le jeu de données possède un problème éthique, mais nous travaillerons que sur des colonnes qui ne posent pas ce genre de problème:
- RM : nombre moyen de pièces par logement
- AGE : proportion de logements occupés par leur propriétaire construits avant 1940
- MEDV: Valeur médiane des maisons occupées par leur propriétaire en milliers de dollars
Le tableau de données contient les données concernant 506 quartiers et 14 attributs dont le dernier MEDV
indique le prix moyen du logement dans le quartier:
Attribut | Explication |
---|---|
CRIM | taux de criminalité par habitant par ville |
ZN | proportion des terrains résidentiels zonés pour les terrains de plus de 25 000 pi.ca. |
INDUS | proportion d’acres d’entreprises non commerciales par ville |
CHAS | Variable fictive Charles River (= 1 si le secteur délimite la rivière ; 0 sinon) |
NOX | concentration d’oxydes nitriques (parties par 10 millions) |
RM | nombre moyen de pièces par logement |
AGE | proportion de logements occupés par leur propriétaire construits avant 1940 |
DIS | distances pondérées à cinq centres d’emploi de Boston |
RAD | indice d’accessibilité aux autoroutes radiales |
TAX | taux d’imposition foncière sur la valeur totale par tranche de 10 000 $ |
PTRATIO | ratio élèves-enseignant par ville |
B | 1000(Bk - 0.63)^2 où Bk est la proportion de noirs par ville |
LSTAT | % de statut inférieur de la population |
MEDV | Valeur médiane des maisons occupées par leur propriétaire en milliers de dollars |