Bonjour les experts,
Nous sommes confrontés à un problème de classification de texte. Nous avons environ 80 000 enregistrements avec environ 50 classes. Les données sont très déséquilibrées. Il comporte 2 colonnes, une pour la description et l'autre contenant la classe.
Jusqu'à présent, nous avons essayé les modèles et techniques suivants :
On observe que la précision maximale que nous avons obtenue est de 70 % (Random Forest et Google Bert).
Existe-t-il des possibilités d'amélioration de la précision ?
Si oui, quelles autres techniques ou modèles pouvons-nous utiliser pour améliorer la précision ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!