Note: Data quality - Datacamp

Increase data quality is proportional to data value


Activities for food data quality

  • Data used for decision and processes

    • Monitor for data quality

    • Timely issue resolution

    • Is produced + consumed by people who understand data quality


หลายบริษัทไม่ได้มีข้อมูลที่ดี ทำให้เกิดการตัดสินใจแบบผิด ๆ ได้


Data quality checklist – fit for use

  • Timeliness

  • Uniqueness

  • Completeness

  • Validity


Data quality เป็นการวัดว่าดาต้าที่มีอยุ่เหมาะสมที่จะนำมาใช้ในจุดประสงค์หนึ่ง ๆ หรือไม่ เช่น การเก็บข้อมูลเท่านี้

สามารถตอบโจทย์ที่เราต้องการได้หรือเปล่า ถ้าไม่แสดงว่าข้อมูลที่เก็บมายังไม่ดีพอ


ข้อมูลที่ดี จะนำไปสู้ข้อมูลที่น่าเชื่อถือได้ ซึ่งจะนำไปสู่

  • ทำให้การตัดสินใจทางธูรกิจดีขึ้น

  • ทำให้กระบวนการใช้เครื่องมือทางด้านธุกิจดีขึ้น


คุณภาพของข้อมูลควรมีการตรวจสอบอยู่ตลอดเวลา เพื่อจะได้มั่นจว่ายังสามารถตอบจุดประสงค์ตามที่ต้องการ

ใช้ได้หรือไม่


Data quality dimensions

  • Measurement of a specific attribute of a data’s quality

  • Using data quality dimension to quantify how fit for purpose data is (เก็บข้อมูลได้ครบถ้วนหรือไม่

ในการที่จะนำไปใช้ในจุดประสงค์หนึ่ง ๆ)
    • Completeness

    • Validity

    • Uniqueness

    • Consistency

    • Timeliness

    • Accuracy


Compleness

  • Dataset level - measures the degree to which all expected records in a dataset are present

  • Data element level - measures the degree to which all records have data populated when

expected ดูว่ามีข้อมูลครบไหมในฟิวหนึ่ง ๆ
  • ข้อมูลครบไม่ได้หมายความว่ามีคุณภาพ ในฟิวหนึ่ง ๆ อาจพบข้อมูลที่ไม่อยุ่ในรูปแบบที่ต้องการก็ได้

เช่น คอลัมน์ที่ให้ใส่วันที่ แต่มีข้อมูลเป็นชื่อแทน


Validity

  • Measures the degree to which the values in a data element are valid

  • ซึ่งต้องการ business context

  • ต้องมีการนิยาม ลิสต์หรือกดเกนในการบอกว่า ข้อมูลแบบไหนที่เรียกว่า valid

  • Numeric measurement of validity = count of valid/total count


Uniqueness

  • Measure the degree to which the records in a database are not duplicated

  • Requires business context to define criteria for determining unique records (require

domain expert to point out)
  • May need to look for duplicates in one or multiple columns to identify the errors


Timeliness

  • Measures the degree to which a dataset is available when expected

  • เช่น ต้องการข้อมูลก่อน 9 โมง แต่ได้ข้อมูลหลัง 9 โมงแทน ตรงนี้ถือว่าเป็นข้อมูลที่นำมาใช้ไม่ได้

เพราะว่ามันไม่ตรงตามจุดประสงค์ที่ต้องการจะเอาไปวิเคราะห์ต่อ


Consistency

  • Measure the degree to which data is the same across all instances of the data

  • เช่น การมีข้อมูล NGS ที่มาจากหลายแพลตฟอร์ม จะไม่มีความ consistency เนื่องจากแต่ละเครื่องมือ

ก็จะมีวิธีการอ่านที่แตกต่างกันออกไป ต้องทำการ pre-processing before further analysis


Accuracy

  • Measures the degree to which data is correct and represent the truth

  • Challenging to measure bc relying on the source of truth being available and accurate



Data quality role and responsibility

  • เป็น core component ที่เกี่ยวข้องกัย data governance


Role

  • Serving a specific data quality function

Identified by assessing everyone who interacts (produce or consume) with data


Responsibility

  • Functions and activities related to data quality that each role is responsible for


Data producer

  • Individuals who create, collect, process, transform, or store data

  • Implements data quality rules

  • Ensures remediation of data quality issues

  • Responsible for technical data quality rules


Data consumer

  • Individuals or applications who use the data produced by data producers

  • Advised on data quality rules to implement

  • Accountable for understanding quality of data before using it

  • Report data quality issues


Data governance team

  • Responsible for overall data quality oversight and governance

  • Define and enforce data quality policies

  • Define data quality roles and responsibilities

  • Monitor data quality dashboards

  • Ensure appropriate data quality tools, process, and training are available

  • ดูการ flow ระหว่าง data producer and data consumer


Data profiling

  • Running the stat on data to know the data characteristics and field dependencies

    • Like - min and max, or NA

    • Numeric values or tex

  • When applying to data quality

    • We can apply how much text should have on each input or this number must

be the mobile phone

Meta data

  • Data about data or attributes that describe the data

  • Use to organize and understand the datasets

  • Can be found in a data dictionary

  • Data lineage – representing how the data flow


Determining thresholds

  • Based on criticality, priority, and impact of the data quality issue


Comments

Most viewed blogs

Useful links (updated: 2026-01-29)

Genome editing technology short note

Umbrella vs Basket Trial