Exploration des données challenges Rakuten

Fichers fournis

Descriptions des variables

Variables prédictives (X_train.csv et X_test.csv):

Variable à prédire (Y_train.csv):

1. X_train.csv

1.1 Longueur des descriptions d'article

La majorité des descriptions d'articles contient moins de 1000 caractères.

1.2 Longueur des noms d'articles

La majorité des titres d'articles comportent moins de 100 caractères.

1.3 Images des articles

Les images d'articles comportent des fonds colorés interférant avec la prédiction de la couleurs des objets.

2. Y_train.csv

2.1 Nombres de couleurs différentes

2.2 Proportion d'articles par couleur

Nombre d'articles par couleurs déséquilibrés. Certaines couleurs comme le noir ou le blanc sont sur-représenté alors que d'autre le sont très peu.

2.3 Nombre de tag par articles

Les articles peuvent avoir plusieurs tag couleurs (entre 1 et 19). La majorité des articles ont moins de 5 tags.