Разработка алгоритмов и программных средств классификации кодирующих и некодирующих нуклеотидных последовательностей

Закирова В. Р., Сырокваш Д. А., Гилевский С. В., Назаров П. В., Яцков Н. Н.
2019

Проведено исследование кодирующих и некодирующих нуклеотидных последовательностей референсного генома человека. Разработаны семь моделей векторизации нуклеотидных последовательностей на основе частот моно-, би- и триграммов нуклеотидов, параметров модели частот и позиций сочетаний нуклеотидов (category-position-frequency model), длин последовательностей, корреляционных факторов нуклеотидов, статистических признаков кодирующих и некодирующих участков молекул ДНК. Определены наиболее информативные признаки моделей векторизации c использованием алгоритмов автоматического выбора признаков и классификации на основе методов случайного леса и опорных векторов. Установлено различие кодирующих и некодирующих фрагментов нуклеотидных последовательностей. Ошибка классификации последовательностей с использованием метода случайного леса на наборе из 23 наиболее информативных признаков составила 2,93 %.

Закирова В. Р., Сырокваш Д. А., Гилевский С. В., Назаров П. В., Яцков Н. Н. Разработка алгоритмов и программных средств классификации кодирующих и некодирующих нуклеотидных последовательностей. Информатика. 2019;16(2):109-118.
Цитирование

Список литературы

Похожие публикации

Источник