Методы
Лабораторная часть
Из тотальной ДНК готовили фрагментную библиотеку с помощью набора KAPA HyperPlus (Roche, Швейцария) согласно инструкции производителя. ДНК фрагментировали с помощью фрагментазы в дипазоне длин 150-220 п.н. После амплификации концентрацию библиотек измеряли с помощью Qubit (ThermoFisher Scientific, США) согласно инструкции производителя. Размер готовых библиотек и возможное наличие димеров праймеров/адаптеров определяли с помощью Agilent High Sensitivity DNA Kit (Agilent, США), оптимальная длина фрагментов с адаптерами составляла 290-330 п.н. Далее готовые библиотеки смешивали по 24-96 шт, после этого проводили двойную гибридизацию с зондами панели SeqCap EZ Choice согласно протоколу производителя. Гибридизацию проводили при 47ºС в течение 16 часов. Гибридные комплексы обогащали с помощью SeqCap Capture beads и проводили отмывку от неспецифичных фрагментов и амплификацию с помощью KAPA HiFi HS MasterMix (Roche, Швейцария) в течение 5 циклов. После этого повторяли процедуру гибридизации как описано выше. Финальная амплификация обогащенных библиотек составляла 16 циклов.
Секвенирование пула обогащенных библиотек проводили на MiSeq (Illumina, США) с использованием парно-концевых чтений 2х150 п.н.
Среднее покрытие составило 314х, доля корректно картированных прочтений – 99,5%, доля целевых регионов с покрытием выше 100x – 96,5%.
Биоинформационная часть
Данные секвенирования анализируются в соответствии с рекомендациями GATK Best Practices (институт Броуда) для поиска герминальных мутаций, схема универсального конвейера представлена на рисунке:
Каждый блок вычислений выполняется в изолированном окружении с выделением оптимального количества ресурсов и максимальной параллелизацией процессов. Постобработка вариантов проводится как с помощью индивидуальных фильтров по качеству, так и с применением предобученной нейронной сети (Convolutional Neural Network), что позволяет существенно улучшить показатели чувствительности и специфичности для обнаружения мутаций.
Вычислительный конвейер автоматически подстраивается под размер входных файлов и распределяет нагрузку по необходимому числу контейнеров, что дает возможность быстро и эффективно обрабатывать данные любого размера – от таргетных панелей до экзомов и геномов.