想要從數(shù)據(jù)中提取有意義的信息從而做出更好的育種決策,開(kāi)發(fā)系統(tǒng)化的表型數(shù)據(jù)分析流程、增強(qiáng)可視化以及結(jié)果挖掘是至關(guān)重要的。在這里,作者概述了基于IRRI的旱作水稻育種(RRB)計(jì)劃,以及其如何利用 R 計(jì)算能力和R Markdown、plotly、LaTeX 和 HTML 等開(kāi)源資源工具來(lái)開(kāi)發(fā)開(kāi)源和端到端的數(shù)據(jù)分析工作流程和方法,將其重新設(shè)計(jì)為可復(fù)制的文檔,以便提高數(shù)據(jù)解釋和結(jié)果可視化的能力,并實(shí)現(xiàn)輕松與合作者共享。
在當(dāng)前報(bào)告中采用的數(shù)據(jù)分析工作流程的示意圖。分析工作流程過(guò)程中涉及的四個(gè)主要步驟是 a 數(shù)據(jù)導(dǎo)入、b 數(shù)據(jù)預(yù)處理、c 數(shù)據(jù)建模和 d 結(jié)果生成。主要步驟分為開(kāi)發(fā)全面而強(qiáng)大的分析管道所需的各個(gè)組件。
作者報(bào)告了將表型數(shù)據(jù)分析管道和工作流程嵌入到表現(xiàn)良好的文檔中的最新進(jìn)展。開(kāi)發(fā)的分析管道是開(kāi)源的,展示了如何分析作物育種計(jì)劃中的表型數(shù)據(jù)并分步解釋。分析管道展示了如何預(yù)處理和檢查表型數(shù)據(jù)的質(zhì)量,使用現(xiàn)代統(tǒng)計(jì)工具和方法執(zhí)行穩(wěn)定的數(shù)據(jù)分析,并將其轉(zhuǎn)換為可復(fù)制的文檔。帶有 R 代碼的解釋性文本、表格或圖形的輸出以及結(jié)果的解釋都集成到統(tǒng)一的文檔中。該分析具有高度可重復(fù)性,并且可以隨時(shí)重新生成。分析管道源代碼和演示數(shù)據(jù)可在 https://github.com/whussain2/Analysis-pipeline 獲得。
從 MET 分析中提取的結(jié)果。A.使用第一因子估計(jì)載荷的前 10 個(gè)基因型的潛在回歸圖。 藍(lán)色實(shí)線(xiàn)和灰色陰影分別對(duì)應(yīng)于潛在回歸線(xiàn)和 95% 的置信區(qū)間。 b 基于因子分析協(xié)方差結(jié)構(gòu)在所有環(huán)境中調(diào)整的預(yù)測(cè)育種值,繪制選定基因型(藍(lán)色)和未選定基因型(黃色三角形)的雙標(biāo)圖。 帶箭頭的藍(lán)線(xiàn)顯示環(huán)境及其相關(guān)性
所提供的分析工作流程和文件不僅限于 IRRI 的 RRB 計(jì)劃,還適用于任何擁有成熟育種計(jì)劃的組織或機(jī)構(gòu)。作者相信這是一項(xiàng)使 IRRI 的 RRB 項(xiàng)目數(shù)據(jù)分析現(xiàn)代化的偉大舉措。此外,植物育種者或研究人員可以輕松運(yùn)用該方法,幫助和指導(dǎo)他們以最佳方式分析育種試驗(yàn)數(shù)據(jù)。
來(lái)源:Plant Methods.Open-source analytical pipeline for robust data analysis, visualizations and sharing in crop breeding.Waseem Hussain, Mahender Anumalla, Margaret Catolos, Apurva Khanna, Ma. Teresa Sta. Cruz, Joie Ramos & Sankalp Bhosale
https://plantmethods.biomedcentral.com/articles/10.1186/s13007-022-00845-7#Abs1