пятница, 1 июля 2016 г.

Ресурсы по высокопроизводительному секвенированию.

Данный раздел будет содержать краткую информацию о разнообразных ресурсах, касающихся высокопроизводительного секвенирования, или NGS (акроним от англ. Next Generation Sequencing). Первоначальный вариант оформления, который будет использован для решения поставленной задачи, я решил свести к обычной таблице. Эта таблица будет заполняться постепенно, по мере нахождения и оформления соответствующей информации. Более того, возможно в будущем необходимо будет поменять дизайн этой страницы, но это в будущем.

среда, 29 июня 2016 г.

Загрузка файла формата VCF в рабочее пространство R среды.

Подробно структура VCF файлов анализировалась нами ранее в разделе “Парадигма картирования seed-and-vote: итоговые файлы в формате VCF” в контексте работы элайнера Subjunc. Теперь мы рассмотрим процедуру загрузки содержимого таких файлов в рабочее пространство R среды. Для этого мы возьмем один из файлов с расширением indel, генерируемых элайнером Subjunc, а также воспользуемся функцией readVcf из R/Bioconductor библиотеки VariantAnnotation. Эта функция имеет четыре аргумента:

Парадигма картирования seed-and-vote: итоговые файлы в формате VCF.

Последним, четвертым типом итоговых файлов, генерируемых элайнером Subjunc, являются файлы с расширением indel, содержащие информацию об инсерциях и/или делециях. Формально к таким структурным перестройкам, называемым еще инделами (indels), относятся небольшие по протяженности инсерции (вставки) или делеции (выпадения) в геноме. Конечно, правильнее инделы детектировать не по ридам RNA-Seq, а по DNA-Seq, но элайнер Subjunc создает файлы с расширением indel автоматически, без возможности контроля со стороны пользователя.

вторник, 28 июня 2016 г.

Парадигма картирования seed-and-vote: итоговые файлы с межмолекулярными гибридами.

Если для картирования RNA-Seq ридов используется элайнер Subjunc и на функцию subjunc подан аргумент reportAllJunctions = TRUE, то программа сгенерирует и сохранит один дополнительный файл в формате TXT, содержащий информацию об идентифицированных межмолекулярных РНК-гибридах. Такого рода файл имеет ряд особенностей.

суббота, 25 июня 2016 г.

Базовая аннотация сплайсинговых событий.

В этом разделе мы рассмотрим основные подходы в аннотации сплайсинговых событий, идентифицированных с помощью элайнера Subjunc. В качестве примера мы возьмем BED файл, использованный нами ранее, и загрузим его в рабочее пространство R среды с помощью функции import, как это было описано в разделе “Загрузка файла формата BED в рабочее пространство R среды”.

понедельник, 20 июня 2016 г.

Парадигма картирования seed-and-vote: итоговые файлы в формате BED.

Помимо BAM файла работа элайнера Subjunc завершается генерацией еще одно важного файла – файла в формате BED, содержащего список идентифицированных сплайсинговых событий. Формат BED (акроним от англ. Browser Extensible Data) является специализированным форматом организации и хранения генетических данных, разбитых на геномные интервалы. Первоначально этот формат был предложен разработчиками геномного обозревателя UCSC Genome Browser для удобств представления данных в окне обозревателя, но в последующем получил более широкое распространение и в настоящее время используется при решении многих аналитических задач в биоинформатике.

пятница, 17 июня 2016 г.

Новости из мира РНК.

В свежем номере журнала Science (17 июня 2016, том 352, выпуск 6292) опубликовано сразу четыре статьи, посвященные анализу организации и функционирования клетки на уровне единичных молекул. Правда, только две из них (Wu B. et al. Translation dynamics of single mRNAs in live cells and neurons и Morisaki T. et al. Real-time quantification of single RNA translation dynamics in living cells) являются оригинальными статьями, а еще две миниобзорами. Первый из этих миниобзоров “Single-cell variability guided by microRNAs” привлек мое внимание авторским коллективом, а точнее тем, что одним из авторов является Фил Шарп (Phillip A. Sharp). Надо же, еще работает и пишет! Это именно он, а также независимо от него Richard J. Roberts, открыли прерывистое (с чередованием экзонов и интронов) строение эукариотических генов, за что в 1993 году эти ребята получили Нобелевскую премию по физиологии и медицине. Более того, оказывается, у него до сих пор активно работает собственная лаборатория в Массачусетсе.
Второй миниобзор “Seeing translation” можно отнести к категории злоупотребления служебным положением в науке. Схема очень проста. Кто-то предлагает классную идею, ищет деньги на ее реализацию, работает не один месяц, а то и не один год, в конце концов, реализует ее на практике, пишет статью, отсылает ее в редакцию, где ее, разумеется, читает и редактор, и рецензенты. И вот эти люди от редакции, видя и понимая, что работа значима, состригают с нее свои дивиденды. Статью принимают к публикации и публикуют, но, кроме того, редактор (и его кореша) и/или рецензенты (и их кореша) в этом же номере публикуют небольшую заметку типа миниобзора (ну, что бы посолиднее получилось-то), где высказывают свое “веское мнение” о значимости такой работы и дальнейших перспективах. Ведь читатели-то журнала Science не могут самостоятельно оценить значимость работы, ведь так!? Да и лишняя публикация, наверняка хорошо цитируемая, не помешает.
Что касается самих оригинальных работ, то они обе посвящены техническим инновациям, позволяющим наблюдать за поведением в клетке не просто отдельных молекул мРНК, а в момент их трансляции. Среди прочих новшеств, обнаруженных с помощью предложенных технических ухищрений, авторы этих публикаций приводят количественные характеристики трансляции: за одну секунду в растущую полипептидную цепь рибосома включает 5-10 новых аминокислот, в среднем трансляция одной мРНК запускается каждые 30 секунд и в образовавшейся полисоме рибосомы располагаются на расстоянии 200-900 нуклеотидов. Интересно, что примерно в 5% случаев наблюдается связная трансляция двух разных молекул мРНК.

четверг, 16 июня 2016 г.

Загрузка файла формата BAM в рабочее пространство R среды.

BAM файлы являются основными итоговыми файлами, генерируемыми элайнерами. Они же являются основным источником информации при проведении разнообразных вариантов постанализа данных высокопроизводительного секвенирования (идентификации сайтов простого нуклеотидного полиморфизма, анализа экспрессии генов, сборки транскриптов и т. д.). Поэтому нет ничего удивительного, что для работы с BAM файлами разработано разнообразное программное обеспечение, написанное как на разных языках, так и обладающее разными возможностями. Провести сравнительный анализ такого программного обеспечения дело трудоемкое и не совсем целесообразное, а вот рассмотреть базовые возможности R/Bioconductor по чтению BAM файлов и манипуляций над ними вполне посильно.

среда, 15 июня 2016 г.

Просто новости.

Язык программирования R по прежнему остается самым популярным языком среди аналитиков, особенно среди тех, кто работает с большими массивами данных и использует так называемые алгоритмы интеллектуального анализа данных и алгоритмы машинного обучения. Так, согласно данным опроса 2895 аналитиков, проведенного Интернет-сервисом KDNuggets, 49% опрошенных заявили, что используют в своей работе язык R. По сравнению с результатами аналогичного опроса, проведенного в 2015 году, наблюдается прибавка в 4,5%. Правда, это существенно меньше прибавки, которую показал Python, занявший второе место в рейтинге.

Рисунок. Топ-10 наиболее популярных в 2016 году инструментов среди аналитиков
(источник: 2016 KDNuggetsSoftware Poll)



понедельник, 13 июня 2016 г.

Парадигма картирования seed-and-vote: итоговые файлы в формате BAM.

Формат BAM (акроним от англ. Binary Alignment/Map) является бинарной (двоичной) версией формата SAM, описанного в разделе “Парадигма картирования seed-and-vote: итоговые файлы в формате SAM”. Именно в таком формате, как правило, и сохраняются результаты картирования ридов, так как данный формат имеет ряд преимуществ.

воскресенье, 12 июня 2016 г.

Новости из мира РНК.

В февральском номере журнала Science за 2016 год появилась обстоятельная статья Dmitry EAgafonov с соав. “Molecular architecture of the human U4/U6.U5 tri-snRNP” (PMID: 26912367), посвященная главному строительному блоку сплайсингосомы – малому ядерному рибонуклеопротеину U4/U6.U5 tri-snRNP. Коллектив авторов международный, но все они работают в Германии в г. Геттинген. Примечательно, что два автора (в том числе первый автор), судя по фамилиям, русские, что лично меня радует.

суббота, 11 июня 2016 г.

Парадигма картирования seed-and-vote: итоговые файлы в формате SAM.

Успешная работа такого элайнера как Subjunc, равно как и любого другого элайнера, завершается генерацией итогового файла, содержащего информацию о результатах картирования ридов. Исходным форматом такого файла является формат SAM (акроним от англ. Sequence Alignment/Map), но для удобства записи, хранения и дальнейшего применения конечному пользователю обычно предлагается его бинарный (двоичный) BGZF-сжатый вариант BAM (акроним от англ. Binary Alignment/Map). В данном сообщении мы рассмотрим ключевые спецификации формата SAM.

пятница, 10 июня 2016 г.

Новости из мира РНК.

В свежем номере журнала Science за 10 июня 2016 года появилась обзорная статья Nick J. Proudfoot "Transcriptional termination in mammals: Stopping the RNA polymerase II juggernaut", посвященная проблемам терминации транскрипции белок-кодирующих генов у млекопитающих.

суббота, 5 марта 2016 г.

Парадигма картирования seed-and-vote: глобальное картирование RNA-seq ридов.

Библиотека Rsubread содержит два готовых к использованию элайнера: Subread и Subjunc. Первый из них проводит только локальное картирование и подходит как для работы с DNA-seq, так и RNA-seq ридами. Однако в случае с RNA-seq ридами этот элайнер не может картировать те риды, которые попадают на области стыков двух экзонов. Для таких случаев нужно глобальное картирование, при котором допускается, что разные части некоторых ридов на уровне генома могут иметь разное происхождение. Такое картирование способен провести элайнер Subjunc, стратегия работы которого схематически показана на рисунке.

вторник, 1 марта 2016 г.

Просто новости.

Это сообщение приходится на первый день весны и будет включать три короткие новости. Во-первых, в силу специфики профессиональной деятельности мне приходится постоянно разрабатывать презентации как для учебного процесса, так и в рамках научной деятельности. Разработка каждой презентации требует немало усилий, но после того, как лекция или доклад завершился презентация просто "пылится" у меня на компьютере, а могла бы приносить больше пользы для интересующихся. Поэтому я сделал дополнительную закладку на своей профессиональной странице, куда будут выкладываться такого рода презентации в свободный доступ.
Вторая новость аналогична первой, но касается R-кодов, которые мною разрабатываются при решении ряда аналитических задач. Как правило, они тщательно проработаны, прокомментированы и могли бы, возможно, приносить пользу другим R-пользователям, а не "пылится" у меня на рабочем компьютере. Для этого я сделал еще одну закладку на своей профессиональной странице, куда и буду выкладывать исходные коды по мере их разработки, проверки и решения тех задач, для которых они создавались.
Наконец, третья новость, возможно, будет интересна тем, кто еще не владеет языком программирования R, но планирует приступить к его изучению. Среди ряда сообщений, которые я ежедневно получаю по разнообразным подпискам, пришла ссылка на базовое руководство по R от AnalyticsVidhya, которое мне показалось вполне сносным. Хотя, впрочем, оно точно не лучше, чем содержание блога "R: Анализ и визуализация данных", который ведет мой бывший коллега Сергей Эдуардович Мастицкий.

среда, 17 февраля 2016 г.

Новости из мира РНК.

То, что альтернативный сплайсинг может приводить к образованию существенно различающихся по своим структурным и функциональным возможностям белков стало известно еще лет 20-25 назад. Классический пример тому – последствия альтернативного сплайсинга предшественников мРНК гена BCL2L1 (он же BCL-X). Благодаря альтернативному сплайсингу этот ген дает две изоформы Bcl-2-подобного белка 1 – длинную и короткую, которые обладают анти- и про-апоптотической активностью, соответственно. Известны и еще примеры, но они не так уж и многочисленны, и меня все время терзали смутные сомнения – а действительно ли это распространенное явление или же на самом деле речь идет об единичных случаях?

суббота, 6 февраля 2016 г.

Парадигма картирования seed-and-vote: индексация генома.

В подавляющем большинстве случаев обязательным, неизбежным и неотвратимым шагом в анализе данных NGS является картирование (или выравнивание) полученных ридов относительно референсного генома (или иной, интересующей исследователя, нуклеотидной последовательности). В свою очередь этому шагу предшествует индексация референсного генома: преобразование большого генетического текста в компактную хеш-таблицу (hash table), позволяющую быстро определять геномное происхождение ридов из .fastq файла.

Новости из мира РНК.

Не секрет, что изучать то, что стабильно, надежно детектируется, присутствует в достаточных количествах, хорошо воспроизводится гораздо легче, чем то, что едва уловимо, скоротечно, неустойчиво. Так же и в транскриптомике – основные усилия исследователей направлены на изучение зрелых форм мРНК, а вот чрезвычайно неустойчивые промежуточные формы (например, только-только зарождающиеся в процессе транскрипции молекулы пре-мРНК, или nascent RNA), которые существуют в клетке очень короткое время, остаются почти без внимания. И ключевая причина сего – отсутствие надежных и эффективных методов их изучения. Вот почему появление новых методов зачастую приводит к «взрыву» работ в таких областях.