пятница, 1 июля 2016 г.

Ресурсы по высокопроизводительному секвенированию.

Данный раздел будет содержать краткую информацию о разнообразных ресурсах, касающихся высокопроизводительного секвенирования, или NGS (акроним от англ. Next Generation Sequencing). Первоначальный вариант оформления, который будет использован для решения поставленной задачи, я решил свести к обычной таблице. Эта таблица будет заполняться постепенно, по мере нахождения и оформления соответствующей информации. Более того, возможно в будущем необходимо будет поменять дизайн этой страницы, но это в будущем.

среда, 29 июня 2016 г.

Загрузка файла формата VCF в рабочее пространство R среды.

Подробно структура VCF файлов анализировалась нами ранее в разделе “Парадигма картирования seed-and-vote: итоговые файлы в формате VCF” в контексте работы элайнера Subjunc. Теперь мы рассмотрим процедуру загрузки содержимого таких файлов в рабочее пространство R среды. Для этого мы возьмем один из файлов с расширением indel, генерируемых элайнером Subjunc, а также воспользуемся функцией readVcf из R/Bioconductor библиотеки VariantAnnotation. Эта функция имеет четыре аргумента:

Парадигма картирования seed-and-vote: итоговые файлы в формате VCF.

Последним, четвертым типом итоговых файлов, генерируемых элайнером Subjunc, являются файлы с расширением indel, содержащие информацию об инсерциях и/или делециях. Формально к таким структурным перестройкам, называемым еще инделами (indels), относятся небольшие по протяженности инсерции (вставки) или делеции (выпадения) в геноме. Конечно, правильнее инделы детектировать не по ридам RNA-Seq, а по DNA-Seq, но элайнер Subjunc создает файлы с расширением indel автоматически, без возможности контроля со стороны пользователя.

вторник, 28 июня 2016 г.

Парадигма картирования seed-and-vote: итоговые файлы с межмолекулярными гибридами.

Если для картирования RNA-Seq ридов используется элайнер Subjunc и на функцию subjunc подан аргумент reportAllJunctions = TRUE, то программа сгенерирует и сохранит один дополнительный файл в формате TXT, содержащий информацию об идентифицированных межмолекулярных РНК-гибридах. Такого рода файл имеет ряд особенностей.

суббота, 25 июня 2016 г.

Базовая аннотация сплайсинговых событий.

В этом разделе мы рассмотрим основные подходы в аннотации сплайсинговых событий, идентифицированных с помощью элайнера Subjunc. В качестве примера мы возьмем BED файл, использованный нами ранее, и загрузим его в рабочее пространство R среды с помощью функции import, как это было описано в разделе “Загрузка файла формата BED в рабочее пространство R среды”.

понедельник, 20 июня 2016 г.

Парадигма картирования seed-and-vote: итоговые файлы в формате BED.

Помимо BAM файла работа элайнера Subjunc завершается генерацией еще одно важного файла – файла в формате BED, содержащего список идентифицированных сплайсинговых событий. Формат BED (акроним от англ. Browser Extensible Data) является специализированным форматом организации и хранения генетических данных, разбитых на геномные интервалы. Первоначально этот формат был предложен разработчиками геномного обозревателя UCSC Genome Browser для удобств представления данных в окне обозревателя, но в последующем получил более широкое распространение и в настоящее время используется при решении многих аналитических задач в биоинформатике.

пятница, 17 июня 2016 г.

Новости из мира РНК.

В свежем номере журнала Science (17 июня 2016, том 352, выпуск 6292) опубликовано сразу четыре статьи, посвященные анализу организации и функционирования клетки на уровне единичных молекул. Правда, только две из них (Wu B. et al. Translation dynamics of single mRNAs in live cells and neurons и Morisaki T. et al. Real-time quantification of single RNA translation dynamics in living cells) являются оригинальными статьями, а еще две миниобзорами. Первый из этих миниобзоров “Single-cell variability guided by microRNAs” привлек мое внимание авторским коллективом, а точнее тем, что одним из авторов является Фил Шарп (Phillip A. Sharp). Надо же, еще работает и пишет! Это именно он, а также независимо от него Richard J. Roberts, открыли прерывистое (с чередованием экзонов и интронов) строение эукариотических генов, за что в 1993 году эти ребята получили Нобелевскую премию по физиологии и медицине. Более того, оказывается, у него до сих пор активно работает собственная лаборатория в Массачусетсе.
Второй миниобзор “Seeing translation” можно отнести к категории злоупотребления служебным положением в науке. Схема очень проста. Кто-то предлагает классную идею, ищет деньги на ее реализацию, работает не один месяц, а то и не один год, в конце концов, реализует ее на практике, пишет статью, отсылает ее в редакцию, где ее, разумеется, читает и редактор, и рецензенты. И вот эти люди от редакции, видя и понимая, что работа значима, состригают с нее свои дивиденды. Статью принимают к публикации и публикуют, но, кроме того, редактор (и его кореша) и/или рецензенты (и их кореша) в этом же номере публикуют небольшую заметку типа миниобзора (ну, что бы посолиднее получилось-то), где высказывают свое “веское мнение” о значимости такой работы и дальнейших перспективах. Ведь читатели-то журнала Science не могут самостоятельно оценить значимость работы, ведь так!? Да и лишняя публикация, наверняка хорошо цитируемая, не помешает.
Что касается самих оригинальных работ, то они обе посвящены техническим инновациям, позволяющим наблюдать за поведением в клетке не просто отдельных молекул мРНК, а в момент их трансляции. Среди прочих новшеств, обнаруженных с помощью предложенных технических ухищрений, авторы этих публикаций приводят количественные характеристики трансляции: за одну секунду в растущую полипептидную цепь рибосома включает 5-10 новых аминокислот, в среднем трансляция одной мРНК запускается каждые 30 секунд и в образовавшейся полисоме рибосомы располагаются на расстоянии 200-900 нуклеотидов. Интересно, что примерно в 5% случаев наблюдается связная трансляция двух разных молекул мРНК.

четверг, 16 июня 2016 г.

Загрузка файла формата BAM в рабочее пространство R среды.

BAM файлы являются основными итоговыми файлами, генерируемыми элайнерами. Они же являются основным источником информации при проведении разнообразных вариантов постанализа данных высокопроизводительного секвенирования (идентификации сайтов простого нуклеотидного полиморфизма, анализа экспрессии генов, сборки транскриптов и т. д.). Поэтому нет ничего удивительного, что для работы с BAM файлами разработано разнообразное программное обеспечение, написанное как на разных языках, так и обладающее разными возможностями. Провести сравнительный анализ такого программного обеспечения дело трудоемкое и не совсем целесообразное, а вот рассмотреть базовые возможности R/Bioconductor по чтению BAM файлов и манипуляций над ними вполне посильно.

среда, 15 июня 2016 г.

Просто новости.

Язык программирования R по прежнему остается самым популярным языком среди аналитиков, особенно среди тех, кто работает с большими массивами данных и использует так называемые алгоритмы интеллектуального анализа данных и алгоритмы машинного обучения. Так, согласно данным опроса 2895 аналитиков, проведенного Интернет-сервисом KDNuggets, 49% опрошенных заявили, что используют в своей работе язык R. По сравнению с результатами аналогичного опроса, проведенного в 2015 году, наблюдается прибавка в 4,5%. Правда, это существенно меньше прибавки, которую показал Python, занявший второе место в рейтинге.

Рисунок. Топ-10 наиболее популярных в 2016 году инструментов среди аналитиков
(источник: 2016 KDNuggetsSoftware Poll)