Ways to reduce technical variation

Result -- (Asking through ChatGPT and ACP meeting with Dr.Somchai and Dr.Wararat)

  • โดยปกติแล้วจะมี variation อยู่ 2 อย่าง คือ

    • Biological  variation -- ไม่สามารถปรับเปลียนได้ ต้องอธิบายว่าเกิดจากอะไร

    • Technical variation

      • สามารถที่จะลดลงได้ จากการ normalization (data preprocessing)

      • ซึ่งการ normalization ส่งผลให้เราสามารถเปรียบเทียบผลการทดลองที่มาจาก sample แตกต่างกันได้ รวมไปถึงผลที่มาจากคนละ experiment

      • จะใช้วิธีไหน ก็ขึ้นอยู่กับลักษณะของการออกแบบการทดลอง ลักาณะของข้อมูล และ เป้าหมายของงานวิจัย

      • วิธีการ normalization สามารถเอามาพิจารณาร่วมกันได้ เพื่อนำเอามาแปลผลการทดลอง

      • ซึ่งทำได้อยู่หลายวิธีใน proteomics

        • Total protein normalization

          • เอาค่า peptide/protein ทั้งหมดมาหาร โดยตั้งสมมุติฐานว่า แต่ละแซมเปิลมี major protein contents ในจำนวนเท่า ๆ กัน (It assumes that the majority of proteins are not differentially expressed and that the total protein content remains relatively constant across samples.)

        • Internal standard normalization

          • know quantity of an internal standard จะถูกเติมเข้าไปในแซมเปิล which will be served as reference สำหรับการเปรียบเทียบปริมาณโปรตีนที่มีอยู่ในแต่ละแซมเปิล และจะเป็นค่าที่ใช้สำหรับ correcting for vairation ในกระบวนการ sample preparation, การทำงานของเครื่องมือ, และ tecnical factors ต่าง ๆ

        • Median or mean normalization

          • เอาค่า mean/median มาหาร -- โดยมาจากสมมุติฐานที่ว่า โปรตีนโดยส่วนใหญ่ไม่ได้ถูกผลิตออกมาในจำนวนที่แตกต่างกัน ซึ่งทำให้ overall distribution ของจำนวนโปรตีนมีค่าเท่า ๆ กันระหว่างแซมเปิล (This approach assumes that most proteins are not differentially expressed and that the overall distribution of protein abundances remains constant across samples.)

        • Quantile normalization -- https://www.youtube.com/watch?v=ecjN6Xpv6SE

          • Adjust the distributions of protein intensities across samples เพื่อที่จะให้เทียบเคียงกันได้ โดยวิธีนี้ ranking the protein intensities within each sample, then assigning the average intensity value of the corresponding ranks across all samples. This method can correct for differences in sample preparation and instrument response.

        • Z-score or T-score normalization: In these approaches, the protein intensities in a sample are transformed into Z-scores or T-scores by subtracting the mean intensity and dividing by the standard deviation of intensities across all samples. These normalized scores can help identify differentially expressed proteins by comparing them to a standard normal distribution.

        • Variance stabilization normalization (VSN) -- เขาว่าว่าเป็นวิธีที่มีประสิทธิภาพมากที่สุดในข้อมูลบางจำพวก โดยเฉพาะข้อมูลพวก microarray gene expression data

          • SN aims to stabilize the variance across the entire range of expression values, making the data more homoscedastic (i.e., having a constant variance). This can improve the reliability and accuracy of downstream analyses, such as differential expression analysis or clustering.

        • SWATH-MLR (Multiple Linear Regression) is a normalization method that has been applied to SWATH-MS data to correct for systematic biases and improve the quantification accuracy of peptide and protein abundances. This method is based on multiple linear regression, which models the relationship between the observed peptide intensity values and a set of predictor variables that represent potential sources of technical variation (e.g., retention time shifts, ion suppression, or batch effects).

          • เป็นตัวที่โชว์ว่ามีประสิทธิภาพในการลด technical variation in SWATH-MS data ทำให้การทำนายปริมาณเปปไทด์และจำนวนโปรตีนมีความแม่นยำมากขึ้น

      • หลังจากทีทำการ normalize เราก็จะมาดูว่า dataset นี้ variation มากน้อยขนาดไหน โดยสามารถดูได้จากค่าต่อไปนี้

        • Sum of SD (standard deviation) -- แต่ว่าเป็นค่าที่ไม่ค่อยเหมาะสมเท่าไหร่ในการ assessing the overall variation in a dataset, especially when comparing multiple variables or datasets.

        • ดูค่า Mean/Median

        • Percent Median Absolute Deviation (PMAD): This is a robust measure of dispersion, calculated as the median of the absolute deviations from the median of the data. PMAD is less sensitive to outliers than standard deviation and can provide a better estimation of the variability in the data. A smaller PMAD value after normalization indicates reduced technical variation in the data.

        • Percent Coefficient of Variation (PVC or %CV): This is a normalized measure of dispersion, calculated as the ratio of the standard deviation to the mean, usually expressed as a percentage. PVC allows for comparison of variability across different datasets or experimental conditions. A smaller PVC value after normalization suggests that the technical variation has been minimized, making the data more comparable across samples or experiments.

        • Percent Explained Variation (PVE): This value is used to assess the effectiveness of a statistical model or normalization method in explaining the variation in the data. PVE is calculated as the ratio of the explained variation (i.e., the variation attributed to the factors of interest) to the total variation in the data, usually expressed as a percentage. A higher PVE value indicates that the normalization method effectively accounts for a larger proportion of the technical variation, resulting in more reliable and accurate data analysis.

Comments

Popular posts from this blog

Useful links (updated: 2024-05-05)

SUSA Thailand - Sustainable University? (update 2023-06-23)

Genome editing technology short note