MÔ HÌNH KẾT HỢP SMOTE-MLP TRONG VIỆC NÂNG CAO ĐỘ CHÍNH XÁC DỰ ĐOÁN XÁC SUẤT KHÔNG GIAN SẠT LỞ ĐẤT TỪ DỮ LIỆU MẤT CÂN BẰNG TẠI VÙNG NÚI TỈNH QUẢNG NAM

Nguyễn Bá Quyang Vinh1,2
1 Khoa Kỹ thuật và Quản lý Xây dựng, Trường Đại học Quốc tế, TP. Hồ Chí Minh, Việt Nam
2 Đại học Quốc Gia TP. Hồ Chí Minh, Việt Nam

Nội dung chính của bài viết

Tóm tắt

Sự mất cân bằng trong dữ liệu sạt lở đất, khi số lượng điểm sạt lở thực tế rất hạn chế so với số điểm không sạt lở, gây ảnh hưởng lớn đến hiệu quả của các mô hình học máy trong dự báo xác suất không gian sạt lở đất. Nghiên cứu này đề xuất áp dụng kỹ thuật tăng cường mẫu thiểu số tổng hợp (SMOTE) để nội suy và tăng cường số lượng điểm sạt lở, kết hợp với mô hình mạng perceptron nhiều lớp (MLP) nhằm xây dựng bản đồ xác suất không gian sạt lở đất tại vùng núi tỉnh Quảng Nam. Tập dữ liệu ban đầu bao gồm 500 điểm sạt lở, được tăng cường bằng SMOTE với các mức lần lượt là 2,000; 5,000; 10,000; 20,000 và 50,000 điểm nội suy. Kết quả cho thấy AUC (Area Under the ROC Curve) trên tập xác thực tăng từ 0.846 (với 500 điểm gốc) lên 0.887 khi sử dụng 10,000 điểm nội suy, cho thấy hiệu quả rõ rệt của kỹ thuật SMOTE trong cải thiện độ chính xác mô hình. Tuy nhiên, khi tăng số lượng điểm nội suy lên 20,000 và 50,000, AUC có xu hướng giảm nhẹ xuống còn 0.868 và 0.866, cho thấy dấu hiệu suy giảm khả năng khái quát hóa. Do đó, lựa chọn số lượng điểm nội suy hợp lý đóng vai trò quan trọng nhằm cân bằng giữa cải thiện hiệu suất và tránh overfitting. Nghiên cứu này khẳng định tiềm năng của việc kết hợp SMOTE và MLP trong xây dựng bản đồ xác suất không gian sạt lở đất từ tập dữ liệu mất cân bằng.

Chi tiết bài viết

Tài liệu tham khảo

Đỗ, C. T., Phạm, T. B., & Nguyễn, Đ. Đ. (2022). Ứng dụng mô hình trọng số dẫn chứng (woe) trong xây dựng bản đồ nguy cơ sạt lở tại tỉnh Quảng Nam. Tạp Chí Khoa Học Công Nghệ Xây Dựng, 16 (2V), 139–152.
Hoàng, N. T., & Võ, T. T. (2021). Nghiên cứu xây dựng bản đồ phân vùng nguy cơ sạt lở đất cho khu vực miền núi tỉnh Quảng Nam. Tạp Chí Khoa Học Và Công Nghệ Thủy Lợi, 68.
Nguyễn, T. T. H. (2017). Đánh giá điều kiện hình thành và nguy cơ trượt lở đất trong bối cảnh biến đổi khí hậu ở tỉnh Quảng Nam.
Ali, S. A., Parvin, F., Vojteková, J., Costache, R., Linh, N. T. T., Pham, Q. B., Vojtek, M., Gigović, L., Ahmad, A., & Ghorbani, M. A. (2021). GIS-based landslide susceptibility modeling: A comparison between fuzzy multi-criteria and machine learning algorithms. Geoscience Frontiers, 12(2), 857–876.
Bragagnolo, L., da Silva, R. V., & Grzybowski, J. M. V. (2020). Landslide susceptibility mapping with r. landslide: A free open-source GIS-integrated tool based on Artificial Neural Networks. Environmental Modelling & Software, 123, 104565.
Chawla, N. V, Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: synthetic minority over sampling technique. Journal of Artificial Intelligence Research, 16, 321–357.
Hong, H., Liu, J., Bui, D. T., Pradhan, B., Acharya, T. D., Pham, B. T., Zhu, A.-X., Chen, W., & Ahmad, B. Bin. (2018). Landslide susceptibility mapping using J48 Decision Tree with AdaBoost, Bagging and Rotation Forest ensembles in the Guangchang area (China). Catena, 163, 399–413.
Nguyen, B.-Q.-V., & Kim, Y.-T. (2021). Landslide spatial probability prediction: a comparative assessment of naive Bayes, ensemble learning, and deep learning approaches. Bulletin of Engineering Geology and the Environment, 80, 4291–4321.
Nguyen, T. T. H., & Dang, T. H. (2024). Landslide susceptibility assessment in quang nam province using statistical index and analytical hierarchical process. Hnue Journal Of Science, 69(1), 144–160.
Nguyen, B. Q. V, Ho, L. H. P., & Kim, Y. T. (2024). An ensemble model of logistic regression, Naïve Bayes, and adaboost for assessing the landslide spatial probability-study case: Phuoc Son, Quang Nam, Vietnam and Umyeon, Seoul, Korea. Civ. Eng. Archit, 12(3), 2010–2028.
Nhu, V.-H., Shirzadi, A., Shahabi, H., Singh, S. K., Al-Ansari, N., Clague, J. J., Jaafari, A., Chen, W., Miraki, S., & Dou, J. (2020). Shallow landslide susceptibility mapping: A comparison between logistic model tree, logistic regression, naïve bayes tree, artificial neural network, and support vector machine algorithms. International Journal of Environmental Research and Public Health, 17(8), 2749.
Pradhan, B. (2013). A comparative study on the predictive ability of the decision tree, support vector machine and neuro-fuzzy models in landslide susceptibility mapping using GIS. Computers & Geosciences, 51, 350–365.
Thirugnanam, H. (2023). Deep Learning in Landslide Studies: A Review. Progress in Landslide Research and Technology, Volume 1 Issue 2, 2022, 247–255.
Van Westen, C. J. (2000). The modeling of landslide hazards using GIS. Surveys in Geophysics, Van Westen, C. J. (2000). The modeling of landslid. https://doi.org/10.1023/A:1006794127521