RT - article SR - Electronic T1 - Разработка алгоритмов и программных средств классификации кодирующих и некодирующих нуклеотидных последовательностей JF - Информатика SP - 2019-02-14 A1 - Закирова В. Р., A1 - Сырокваш Д. А., A1 - Гилевский С. В., A1 - Назаров П. В., A1 - Яцков Н. Н., YR - 2019 UL - https://www.academjournals.by/publication/18343 AB - Проведено исследование кодирующих и некодирующих нуклеотидных последовательностей референсного генома человека. Разработаны семь моделей векторизации нуклеотидных последовательностей на основе частот моно-, би- и триграммов нуклеотидов, параметров модели частот и позиций сочетаний нуклеотидов (category-position-frequency model), длин последовательностей, корреляционных факторов нуклеотидов, статистических признаков кодирующих и некодирующих участков молекул ДНК. Определены наиболее информативные признаки моделей векторизации c использованием алгоритмов автоматического выбора признаков и классификации на основе методов случайного леса и опорных векторов. Установлено различие кодирующих и некодирующих фрагментов нуклеотидных последовательностей. Ошибка классификации последовательностей с использованием метода случайного леса на наборе из 23 наиболее информативных признаков составила 2,93 %.