As remote sensing images have complex backgrounds and varying object sizes, their semantic segmentation is challenging. This study proposes a multiscale cascaded network (MSCNet) for semantic segmentation. The resolutions employed with respect to the input remote sensing images are 1, 1/2, and 1/4, which represent high, medium, and low resolutions. First, 3 backbone networks extract features with different resolutions. Then, using a multiscale attention network, the fused features are input into the dense atrous spatial pyramid pooling network to obtain multiscale information. The proposed MSCNet introduces multiscale feature extraction and attention mechanism modules suitable for remote sensing land-cover classification. Experiments are performed using the Deepglobe, Vaihingen, and Potsdam datasets; the results are compared with those of the existing classical semantic segmentation networks. The findings indicate that the mean intersection over union (mIoU) of the MSCNet is 4.73% higher than that of DeepLabv3+ with the Deepglobe datasets. For the Vaihingen datasets, the mIoU of the MSCNet is 15.3%, and 6.4% higher than those of a segmented network (SegNet), and DeepLabv3+, respectively. For the Potsdam datasets, the mIoU of the MSCNet is higher than those of a fully convolutional network, Res-U-Net, SegNet, and DeepLabv3+ by 11.18%, 5.89%, 4.78%, and 3.03%, respectively. Comme les images de teledetection ont des arriere-plans complexes et des tailles d'objets variables, leur segmentation semantique est difficile. Cette etude propose un reseau multi-echelle en cascade (MSCNet) pour la segmentation semantique. Les resolutions utilisees par rapport aux images de teledetection d'entree sont 1, 1/2, et 1/4, representant les resolutions haute, moyenne et basse. Tout d'abord, trois reseaux federateurs extraient les caracteristiques avec des resolutions differentes. Ensuite, a l'aide d'un reseau d'attention multi-echelle, les caracteristiques fusionnees sont entrees dans le reseau de mise en commun des pyramides spatiales denses et a trous pour obtenir des informations multi-echelles. Le MSCNet propose introduit des modules multi-echelles d'extraction de caracteristiques et de mecanismes d'attention adaptes a la classification de la couverture terrestre par teledetection. Les experiences sont realisees a l'aide des ensembles de donnees Deepglobe, Vaihingen et Potsdam. Les resultats sont compares a ceux des reseaux de segmentation semantique classique existants. Les resultats indiquent que l'intersection moyenne sur l'union (mIoU) du MSCNet est superieure par 4,73% a celle de DeepLabv3+ avec les ensembles de donnees Deepglobe. Pour les jeux de donnees Vaihingen, le mIoU du MSCNet est superieur par 15,3% a celui d'un reseau segmente (SegNet) et par 6,4% a celui de DeepLabv3+. Pour les donnees de Potsdam, le mIoU du MSCNet est superieur a ceux du reseau entierement convolutif, de Res-U-Net, de SegNet et de DeepLabv3+ par 11,18%, 5,89%, 4,78%, et 3,03%, respectivement.