Разработка модели бинарной классификации на малых данных с использованием методов машинного обучения
(Стр. 129-140)

Подробнее об авторах
Михайлова Светлана Сергеевна доктор экономических наук, профессор Кафедры анализа данных и машинного обучения факультета информационных технологий и анализа больших данных
Финансовый университет при Правительстве Российской Федерации
г. Москва, Российская Федерация Гринева Наталья Владимировна кандидат экономических наук, доцент; доцент, кафедра анализа данных и машинного обучения; Финансовый университет при Правительстве Российской Федерации; г. Москва, Российская Федерация
Оплатить 390 руб. (Картой) Оплатить 390 руб. (Через QR-код)

Нажимая на кнопку купить вы соглашаетесь с условиями договора оферты

Аннотация:
Сегодня решения задачи бинарной классификации с помощью машинного обучения находят себе применения в огромном количестве сфер жизни, таких как медицина, энергетика, маркетинг, сельское хозяйство, финансовая аналитика и др. Для компаний это отличная возможность получить новые источники прибыли, так и улучшить существующие процессы. Поэтому сейчас активно разрабатываются новые методы решения, улучшаются существующие, проводятся исследования на тему возможности применения машинного обучения при решении задачи классификации в различных областях. Исследование эффективности применения различных методов машинного обучения с учетом существующих проблем малых данных в решении задачи бинарной классификации весьма актуальна из-за значительного перевеса разработок в сторону Big Data. Для малых данных были определены возможные проблемы, которые влияют на эффективность обучаемой модели, предложены различные варианты по решению этих проблем. Для оценки влияния проблем малых данных на качество обученной модели был проведен сравнительный анализ метрик качества моделей, обученных на разных вариация обработки данных. Сделан вывод, что для корректной работы с малыми данными необходимо своевременно устранять такие дефекты данных как дисбаланс классов, выбросы и др. В ходе исследования выбраны наиболее значимые метрики качества для получения модели по анализу медицинских параметров. Проведен сравнительный анализ моделей определению диабета на предобработанных малых данных. Для рассматриваемой задачи лучшим вариантом для использования в медицинских целях была выбрана модель стэкинга. Результаты анализа показали, что машинное обучение способно показывать высокую эффективность при решении реальных задач бинарной классификации.
Образец цитирования:
Михайлова С. С., Гринева Н. В. Разработка модели бинарной классификации на малых данных с использованием методов машинного обучения // Проблемы экономики и юридической практики. 2024. Т. 20. № 1. С. 129-140. DOI: 10.33693/2541-8025-2024-20-1-129-140. EDN: WFJKOK
Список литературы:
Fahad B. Mostafa, Easin Hasan Machine Learning Approaches for Binary Classification to Discover Liver Diseases using Clinical Data : diss. Texas, 2021. —23 p.
Bashayer Fouad Marghalani, Muhammad Arif Automatic Classification of Brain Tumor and Alzheimer’s Disease in MRI // Procedia Computer Science. —2019. —№163. —P. 78–84.
Enrique Peláez, Ricardo Serrano, Geancarlo Murillo, Washington Cárdenas A Comparison of Deep Learning Models for Detecting COVID-19 in Chest X-ray Images // IFAC-PapersOnLine. —2021. —№54. —P. 358–363.
Lamir Shkurti, Faton Kabashi, Vehebi Sofiu, Arsim Susuri Performance Comparison of Machine Learning Algorithms for Albanian News articles // IFAC-PapersOnLine. —2022. —№55. —P. 292–295.
I.-M. Sarivan, Johannes N. Greiner, D. Díez Álvarez, F. Euteneuer, M. Reichenbach, O. Madsen, S. Bøgh Enabling Real-Time Quality Inspection in Smart Manufacturing Through Wearable Smart Devices and Deep Learning // Procedia Manufacturing. —2020. —№51. —P. 373–380.
Qingqing Zhang, Jiyang Zhang, Jianxiao Zou, Shicai Fan A Novel Fault Diagnosis Method based on Stacked LSTM // IFAC-PapersOnLine. —2020. —№53. —P. 790–795.
Гринева Н.В., Михайлова С.С. Применение машинного обучения для моделирования дефолта заемщика //Инновации и инвестиции. 2023. № 4. С. 254–262. EDN: MWZQEK.
Grineva N.V., Mikhailova S.S., Kontsevaya N.V., Econometric modeling of the company's intellectual capital in the context of digitalization// In the collection: Management of large-scale system development. 2023. EDN: EKPRPM.
Krinichansky K., Grineva N. Dynamic approach to the analysis of financial structure: overcoming the bank-based vs market-based dichotomy// In the collection: 2023 16th International Conference Management of large-scale system development (MLSD). 2023. EDN: RSHSND, DOI: 10.1109/MLSD58227.2023.10303933.
Семёнова П.А., Гринева Н.В., Михайлова С.С. Предварительный анализ данных и построение признаков в задаче прогнозирования объемов поставок //Проблемы экономики и юридической практики. 2023. Т. 19. № 3. С. 141–152. EDN: CALJPF.
Strzelecka, A. Application of logistic regression models to assess household financial decisions regarding debt / A. Strzelecka, A. Kurdyś-Kujawska, D. Zawadzka // Procedia Computer Science —2022. —№176.
Application of Support Vector Machine for Prediction of Medication Adherence in Heart Failure Patients / S. Youn-Jung, K. Hong-Gee, K. Eung-Hee, C. Sangsup // Healthc Inform Res. —16(4). —Korea : The Korean Society of Medical Informatics, 2010. —P. 253–259.
Analysis of Image Classification using SVM / G. Sai Surya Teja, G. Yogeshwara Sai Varun, G. Bhanu Rama Ravi Teja [и др.] // 12th International Conference on Computing Communication and Networking Technologies (ICCCNT). —Kharagpur, India : IEEE, 2021. —P. 1–6.
Pengcheng Xu, Xiaobo Ji, Minjie Li & Wencong Lu Small data machine learning in materials science // npj Computational Materials. —2023. —№9.
Hui Wang, Ivo Duentsch, Gongde Guo & Sadiq Ali Khan Special issue on small data analytics // International Journal of Machine Learning and Cybernetics. —2023. —№14.
Ключевые слова:
машинное обучение, малые данные, задачи классификации, медицинские данные, сэмплирование, ансамблевый алгоритм стэкинга..


Статьи по теме

Многомасштабное моделирование для управления и обработки информации Страницы: 11-20 DOI: 10.33693/2313-223X-2022-9-2-11-20 Выпуск №21224
Определение оптимальной модели машинного обучения для предсказания паводков на реке Амур
управление катастрофами предсказание паводков река Амур машинное обучение disaster management
Подробнее
Искусственный интеллект и машинное обучение Страницы: 19-31 DOI: 10.33693/2313-223X-2022-9-3-19-31 Выпуск №21873
Алгоритм идентификации лиц и преступных действий
машинное обучение глубокая сверточная нейронная сеть Kaggle ориентиры machine learning
Подробнее
Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей (специальность 2.3.5) Страницы: 26-35 DOI: 10.33693/2313-223X-2023-10-2-26-35 Выпуск №23034
Анализ алгоритмов составляющих частей компилятора и его оптимизации
компилятор программный код оптимизация алгоритм анализ
Подробнее
Искусственный интеллект и машинное обучение Страницы: 35-44 DOI: 10.33693/2313-223X-2022-9-2-35-44 Выпуск №21224
Элементы искусственного интеллекта в решении задач анализа текстов
анализ тональности текста искусственные нейронные сети машинное обучение рекуррентные нейронные сети длинная цепь элементов краткосрочной памяти
Подробнее
05.13.11 МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ВЫЧИСЛИТЕЛЬНЫХ МАШИН, КОМПЛЕКСОВ КОМПЬЮТЕРНЫХ СЕТЕЙ Страницы: 41-47 DOI: 10.336 9 3/2313- 223X - 2019 - 6 - 2- 41- 4 Выпуск №15585
АЛГОРИТМЫ УПРАВЛЕНИЯ ЛОГИЧЕСКОЙ СТРУКТУРОЙ БАЗЫ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ ПАРАМЕТРИЧЕСКОЙ МОДЕЛИ КОНКУРЕНТНОГО ДОСТУПА ЗАПРОСОВ, ОСНОВАННОЙ НА МЕТОДЕ СЛУЧАЙНОГО ЛЕСА
администрирование систем управления базами данных конкурентные запросы параметрическая модель конкурентного доступа машинное обучение метод случайного леса
Подробнее
Системный анализ, управление и обработка информации, статистика Страницы: 78-84 DOI: 10.33693/2313-223X-2024-11-1-78-84 Выпуск №95355
Алгебраические модели представления данных и знаний в современных системах управления базами данных
алгебраические модели системы управления базами данных машинное обучение искусственный интеллект реляционная модель
Подробнее
Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей Страницы: 83-91 DOI: 10.33693/2313-223X-2023-10-3-83-91 Выпуск №23683
Определение параметров скрытых угроз раннего обнаружения в информационных системах для задач машинного обучения
машинное обучение корпоративные информационные системы (КИС) имитационное моделирование анализ данных обработка данных
Подробнее
5.2.2. МАТЕМАТИЧЕСКИЕ, СТАТИСТИЧЕСКИЕ И ИНСТРУМЕНТАЛЬНЫЕ МЕТОДЫ В ЭКОНОМИКЕ Страницы: 75-79 Выпуск №21250
Современные направления исследований в области рекомендательных систем
рекомендательная система коллаборативная фильтрация контентная фильтрация холодный старт машинное обучение
Подробнее
4. МАТЕМАТИЧЕСКИЕ И ИНСТРУМЕНТАЛЬНЫЕ МЕТОДЫ ЭКОНОМИКИ 08.00.13 Страницы: 65-72 Выпуск №19146
Прогнозирование финансовых рынков с использованием сверточной нейронной сети
прогнозирование финансовых рынков машинное обучение сверточная нейронная сеть математическая модель алгоритм
Подробнее
4. МАТЕМАТИЧЕСКИЕ И ИНСТРУМЕНТАЛЬНЫЕ МЕТОДЫ ЭКОНОМИКИ 08.00.13 Страницы: 132-138 Выпуск №17852
Стратегия поиска эффективного алгоритма машинного обучения на примере кредитного скоринга
кредитный скоринг машинное обучение отбор признаков ансамбль моделей credit scoring
Подробнее