Здравствуйте.
Интересует задача поиска генов в неаннотированных геномых последовательностях по известным нуклеотидным паттернам, особенно для случаев сильного эволюционного расхождения - когда стандартные инструменты поиска, такие как BLAST и FASTA уже не справляются.
Собственно формулировка задачи - поиск в геномной последовательности фрагментов, удовлетворяющих наличию известных паттернов (сочетаний нуклеотидных последовательностей - консенсусных последовательностей или регулярных выражений, например), находящихся в определённых диапазонах друг между другом. Более специфический вариант - паттерны, удовлетворяющие элементам вторичной структуры.
Что интересует - существуют-ли веб-сервисы такого поиска или устанавливаемые приложения?
Поскольку такая биоинформатическая задача нужна для предсказания генов - актуальность её должна быть не маленькой и средства такого типа существовать должны.
Из существующего - BLAST и FASTA, функционирующие сходным образом и на сходных базах поддерживают геномный поиск и некоторую нечёткость в последовательностях, но поддержка вырождения нуклеотидов слабая, а задание диапазонов невозможно в принципе. Большой набор сервисов (ExPASy, MEME и т.д.), баз (TESS, например) и приложений (от клиентов к вышеперечисленному до одностраничных веб-утилит) разных масштабов для анализа и детектирования паттернов в наборах небольших последовательностей существует и хорошо разработан, но он решает только обратную задачу - поиск паттернов в генах). Genome-size сканирование по паттернам реализовано в полутора программах - fragrep1, 2 и 3, который требует построения частотной матрицы (PFM) на основе выравнивания с привередливым к разметке построителем матрицы, работающий по 4 часа с одними дрожжами и не поддерживающий диапазоны букв в паттернах; и GotohScan - работающий даже не с паттернами, а полу-глобальным выравниванием. А как таковых веб-сервисов с геномными базами, видимо, не существует.
Точно-ли таких сервисов не существует вовсе и разве набор геномных сканеров по паттернам с диапазонами друг между другом так мал? И насколько, на общий взгляд, задача паттернового поиска актуальна?