Stochastic Sampling — модуль в составе пакета RNAstructure, предназначенный для статистического выбора вторичных структур РНК с вероятностью, пропорциональной их вероятности в термодинамическом ансамбле Больцмана. Метод основан на случайной выборке структур из распределения, задаваемого их энергиями: структуры с более низкой свободной энергией имеют большую вероятность быть отбранными, а множество сэмплов отражает разнообразие возможных конформаций молекулы при данной температуре. Такой подход дополняет детерминированные методы предсказания одной наиболее стабильной структуры, предоставляя представление о пространстве ближайших энергетических минимумов и статистических свойствах ансамбля.
Исторически стохастическая выборка вторичных структур появилась как развитие теоретических и вычислительных методов статистической механики, применённых к биополимерам, и была интегрирована в практические инструменты для биоинформатики и молекулярной биологии. В контексте RNAstructure модуль реализует алгоритмы, которые используют предварительно вычисленные перегородки энергии и параметры термодинамики, чтобы генерировать независимые или частично зависимые образцы структур. Основные применения включают оценку вероятностей образования отдельных спариваний, анализ вариабельности структуры, исследование альтернативных конформаций и подготовку наборов структур для последующего анализа секвенс- или функцио-ориентированных исследований.
- Выборка из ансамбля Больцмана: генерация вторичных структур с вероятностями, пропорциональными e^{-ΔG/RT}, где ΔG — свободная энергия структуры.
- Поддержка термодинамических параметров: использование набора параметров свёртывания и энтропийных поправок, применимых к предсказанию РНК.
- Оценка парных вероятностей: вычисление частот появления конкретных нуклеотидных пар в сгенерированном наборе структур для приближённой оценки их вероятности в ансамбле.
- Анализ альтернативных конформаций: выявление и количественная оценка стабильных и метастабильных альтернативных вторичных структур.
- Генерация распределений свойств: статистический анализ распределений свободной энергии, числа спариваний и длины стеблей в наборе выборок.
- Интеграция с другими модулями: использование предвычисленных матриц подавления и динамического программирования из общего ядра RNAstructure для согласованности расчётов.
- Параметры управления выборкой: возможность задания числа сэмплов, температурных условий и начальных семян генератора случайных чисел для воспроизводимости.
- Применимость к исследованию мутаций: сравнение ансамблей для нативных и мутантных последовательностей с целью оценки влияния изменений последовательности на структурную пластичность.
- Надёжность и масштабируемость: алгоритмы оптимизированы для работы с последовательностями умеренной длины и могут быть комбинированы с последовательными процедурами отбора для анализа более длинных молекул.
- Ограничения: метод опирается на используемую термодинамическую модель и доступные параметры; при недостатке эмпирических данных точность оценок может снижаться.