BEAST

Estimación simultánea de las relaciones filogenéticas y edades absolutas de Pinaceae con BEAST
El programa BEAST permita la co-estimación de filogenia y tiempos de divergencia mediante Bayesian Markov chain Monte Carlo (Drummond et al. 2006; 2012). Se puede bajar la última versión de la programa aquí
 
1. Para este tutorial vamos a usar un alineamiento del gen nuclear phytochrome P para la familia de los pinos (Pinaceae). En plantas, la familia de genes para fitocromo codifican proteínas que actuan como fotorreceptores para la luz roja y roja lejana. 
 
2. El programa BEAUti acompaña el programa BEAST. Permite convertir un archivo NEXUS a un archivo XML con las instrucciones necesarias para realizar un análisis de BEAST. Abre BEAUti y usa “File -> Import Data...” para abrir el archivo phyP-20140910.nex. Verás en la primera pestaña (Partitions) que la matríz incluye 38 taxa y 1980 sitios de nucleótidos.
 
3. Da doble click sobre el nombre del archivo en la columna “File Name” (o seleccionar “View Partition...”). Debes poder ver el alineamiento. Confirma que fue interpretado bien y cierra la ventana.
 
4. Selecciona la segunda pestaña “Taxa”. Da clic en el botón “+” y da clic adentro de la ventana blanca en el lado izquierdo y teclear “conifers”. Ahora pasa todos los taxa menos “Ginkgo_biloba” de la ventana “Excluded Taxa” a la ventana “Included Taxa” usando la fecha verde entre las dos ventanas.
 
5. Vueva a dar clic en “+” para crear un nuevo conjunto de taxa que se llama “P1”. Pasa a las 23 taxa que terminan con “P1” a la ventana “Included Taxa”.
 
6. Vuelva a dar clic en “+” para crear un nuevo conjunto de taxa que se llama “Pinus”. Pasa a las ocho especies del género Pinus que terminan con “P1” a la ventana “Included Taxa” (son Pinus_contorta, Pinus_krempfii, Pinus_lambertiana, Pinus_monophylla, Pinus_nelsonii, Pinus_pinea, Pinus_ponderosa y Pinus_thunbergii; no se debe de incluir Pinus_strobus_P2 porque es un parálogo que no es monofilético con los pinos que terminan con P1).
 
7. Selecciona la quinta pestaña “Sites” y aplicar el modelo GTR+Gamma con 4 categorías de Gamma. Para aplicar el modelo por separado a cada uno de los tres subconjuntos de datos, elige “Partition into codon positions: 3 partitions:positions 1, 2, 3”.
 
8. Selecciona la pestaña “Clocks” y elige el modelo “Lognormal relaxed clock (Uncorrelated)”. Estamos especificando un reloj molecular relajado, en el cual las tasas de sustitución pueden variar entre diferentes ramas del árbol de una manera no correlacionada. La distribución lognormal implica que las tasas de sustitución varían de manera continua a lo largo de la rama. Para efectuar la falta de correlación, la tasa para cada rama se toma de manera independiente a partir de una distribución log normal.
 
9. Selecciona la pestaña “Trees” y elige el modelo “Speciation: Yule Process”. El modelo Yule describe un proceso de especiación con nacimiento constante; bajo este modelo, cada especie tiene la misma probabilidad de sufrir un evento de especiación, y la tasa de especiación es constante a lo largo del tiempo (Gernhard et al. 2008). Revisa las otras opciones en esta página, pero dejalas como están.
 
10. Selecciona el panel “Prior”. En este panel podemos calibrar el árbol para que nos estima las edades absolutas de los nodos del árbol. Selecciona el prior para “trmca(conifers) elecciona una distribución normal y asigna un valor inicial y promedio (“mean”) de “305”. Asigna una desviación estandar (stdev) de 2.0.
 
11. Para el prior “trmrca(P1)” selecciona una distribución normal y asigna un valor inicial y promedio (“mean”) de “136”. Asigna una desviación estandar (stdev) de 2.0. 
 
12. Para el prior “trmca(Pinus) elecciona una distribución normal y asigna un valor inicial y promedio (“mean”) de “124”. Asigna una desviación estandar (stdev) de 2.0. 
 
13. Para el prior “ucld.mean” (uncorrelated lognormal relaxed clock mean), asigna una distribución uniforme con un valor inicial de 1.0, un umbral superior de 1.0E100 y un valor inferor de 0.0.
 
14. Selecciona el panel “MCMC”. Reduce la longitud de la cadena a cinco millones (“Length of chain: 500000”), y elige guardar los parámetros cada 500 generaciones (“Log parameters every: 500”). Así guardaras un total de 10,000 muestras (5,000,000/500=10,000). Deja los nombres de archivos para log y árboles como están.
 
15. Selecciona “Generate BEAST file...” y guarda el archivo como XML.
 
16. Abre BEAST y corre el archivo xml. Si recibes un error, puedes probar el archivo xml aquí. 
 
17. Mientras están corriendo las cadenas Markov, abre el programa Tracer y importa el archivo trace que fue generado por BEAST. Explora las estadísticas para posterior, prior, likelihood, tmrca, etc. En la columna “ESS” (effective sample size) se indica el tamaño efectivo de la muestra. Este valor corresponde al número de muestras independientes equivalentes a las muestras autocorrelacionados producido por el MCMC. Los autores de BEAST recomiendan que los valores de ESS deben de rabasar 200 para tener seguridad que las cadenas de Markov han corrido por un suficiente número de generaciones.
 
18. ¿Ha llegado a convergencia la corrida MCMC? ¿Cómo sabes?
 
19. ¿Cuándo divergieron las especies de Pinus (el grupo corona y el grupo troncal)? ¿Cómo compara con los priors? ¿Cuánde se estima que divergieron los dos parálogos (P1 y P2) de phy-P? 
 
20. Abre TreeAnnotator. Hay que escoger el burnin. Para excluir los primeros 10% de los árboles, (recuerda que generamos 10,000 trees) selecciona “burnin (as trees): 1000”. Deja el “Posterior probability limit” a 0.0 para anotar todos los nodos del árbol. Para “Node heights” selecciona “Maximum clade credibility tree” Esta opción busca el árbol con el mayor producto de la probabilidad posterior para todos sus nodos. Finalmente, escoge “Mean heights” para los nodos.
 
21. Para el input tree file, busca el archivo “phyP-20140910-10M.trees”. En la ventana para “Output File” teclear “phyP-20140910-10M-MCC.tre”. Da clic en Run y observa en la pantalla que sale como el programa lee todos los árboles menos los primeros 1000, busca el árbol de máxima credibilidad, y anota el árbol blanco. 
 
22. Cuando termina de correr TreeAnnotator, abre el archivo “phyP-20140910-10M-MCC.tre” en FigTree. En “Branch Labels” activa “posterior” para incluir las probabilidades posteriores en las ramas. Puedes mostrar los errores en las edades de los nodos al activar “Node Bars” y seleccionar “height 95% HPD”. Además puedes desactivar “Scale Bar” y mostrar una escala temporal al activar “Scale Axis” y seleccionar “Reverse axis”.
 
Referencias
 
Drummond, A.J., S.Y.W. Ho, M.J. Phillips, and A. Rambaut. 2006. Relaxed phylogenetics and dating with confidence. PLoS Biology e88: 699–717. 
 
Drummond, A.J., M.A. Suchard, D. Xie, and A. Rambaut. 2012. Bayesian phylogenetics with BEAUti and the BEAST 1.7. Molecular Biology and Evolution.