Оптимизированное генетическим алгоритмом B-сплайн извлечение признаков для точного прогнозирования концентрации в онлайн спектроскопии комбинационного рассеяния света: сравнительный анализ эффективности разреженных обучающих данных
Представлена структура, которая интегрирует аппроксимацию B-сплайном для извлечения признаков в модели наименьших квадратов для преодоления ограничений точности спектрометров комбинационного рассеяния света (КР) при количественном исследовании аналитов с низкой концентрацией, которая улучшена за счет оптимизации гиперпараметров с помощью генетического алгоритма (ГА). Производительность структуры оценена по сравнению с четырьмя альтернативными моделями прогнозирования, оптимизированными ГА: извлечение признаков с помощью вейвлет-преобразования с гребневой регрессией, линейные регрессионные нейронные сети, автономная гребневая регрессия и полиномиальная аппроксимация методом наименьших квадратов. Для экспериментальной проверки использованы наборы спектральных данных КР растворов борной и азотной кислот в 11 концентрациях (0–500 мг/л). Использован подход стратифицированного разбиения данных, при котором в тестовую выборку включены шесть уровней концентрации, а пять использованы для создания трех отдельных обучающих выборок (3, 4 и 5 уровней концентрации). Модель B-сплайн наименьших квадратов достигла оптимальной точности прогнозирования при обучении на четырех уровнях концентрации и среднеквадратичного отклонения (СКО) 5.83 мг/л для обоих аналитов. Модель вейвлет-гребневой регрессии (5-уровневая обучающая выборка, СКО = 6.02 мг/л) оказалась вторым по эффективности методом. Линейные регрессионные нейронные сети, гребневая регрессия и полиномиальные модели наименьших квадратов достигли оптимальной производительности при пяти обучающих концентрациях с СКО = 7.35, 9.17 и 12.21 мг/л соответственно.