Note: Data quality - Datacamp
Increase data quality is proportional to data value
Activities for food data quality
Data used for decision and processes
Monitor for data quality
Timely issue resolution
Is produced + consumed by people who understand data quality
หลายบริษัทไม่ได้มีข้อมูลที่ดี ทำให้เกิดการตัดสินใจแบบผิด ๆ ได้
Data quality checklist – fit for use
Timeliness
Uniqueness
Completeness
Validity
Data quality เป็นการวัดว่าดาต้าที่มีอยุ่เหมาะสมที่จะนำมาใช้ในจุดประสงค์หนึ่ง ๆ หรือไม่ เช่น การเก็บข้อมูลเท่านี้
สามารถตอบโจทย์ที่เราต้องการได้หรือเปล่า ถ้าไม่แสดงว่าข้อมูลที่เก็บมายังไม่ดีพอ
ข้อมูลที่ดี จะนำไปสู้ข้อมูลที่น่าเชื่อถือได้ ซึ่งจะนำไปสู่
ทำให้การตัดสินใจทางธูรกิจดีขึ้น
ทำให้กระบวนการใช้เครื่องมือทางด้านธุกิจดีขึ้น
คุณภาพของข้อมูลควรมีการตรวจสอบอยู่ตลอดเวลา เพื่อจะได้มั่นจว่ายังสามารถตอบจุดประสงค์ตามที่ต้องการ
ใช้ได้หรือไม่
Data quality dimensions
Measurement of a specific attribute of a data’s quality
Using data quality dimension to quantify how fit for purpose data is (เก็บข้อมูลได้ครบถ้วนหรือไม่
Completeness
Validity
Uniqueness
Consistency
Timeliness
Accuracy
Compleness
Dataset level - measures the degree to which all expected records in a dataset are present
Data element level - measures the degree to which all records have data populated when
ข้อมูลครบไม่ได้หมายความว่ามีคุณภาพ ในฟิวหนึ่ง ๆ อาจพบข้อมูลที่ไม่อยุ่ในรูปแบบที่ต้องการก็ได้
Validity
Measures the degree to which the values in a data element are valid
ซึ่งต้องการ business context
ต้องมีการนิยาม ลิสต์หรือกดเกนในการบอกว่า ข้อมูลแบบไหนที่เรียกว่า valid
Numeric measurement of validity = count of valid/total count
Uniqueness
Measure the degree to which the records in a database are not duplicated
Requires business context to define criteria for determining unique records (require
May need to look for duplicates in one or multiple columns to identify the errors
Timeliness
Measures the degree to which a dataset is available when expected
เช่น ต้องการข้อมูลก่อน 9 โมง แต่ได้ข้อมูลหลัง 9 โมงแทน ตรงนี้ถือว่าเป็นข้อมูลที่นำมาใช้ไม่ได้
Consistency
Measure the degree to which data is the same across all instances of the data
เช่น การมีข้อมูล NGS ที่มาจากหลายแพลตฟอร์ม จะไม่มีความ consistency เนื่องจากแต่ละเครื่องมือ
Accuracy
Measures the degree to which data is correct and represent the truth
Challenging to measure bc relying on the source of truth being available and accurate
Data quality role and responsibility
เป็น core component ที่เกี่ยวข้องกัย data governance
Role
Serving a specific data quality function
Identified by assessing everyone who interacts (produce or consume) with data
Responsibility
Functions and activities related to data quality that each role is responsible for
Data producer
Individuals who create, collect, process, transform, or store data
Implements data quality rules
Ensures remediation of data quality issues
Responsible for technical data quality rules
Data consumer
Individuals or applications who use the data produced by data producers
Advised on data quality rules to implement
Accountable for understanding quality of data before using it
Report data quality issues
Data governance team
Responsible for overall data quality oversight and governance
Define and enforce data quality policies
Define data quality roles and responsibilities
Monitor data quality dashboards
Ensure appropriate data quality tools, process, and training are available
ดูการ flow ระหว่าง data producer and data consumer
Data profiling
Running the stat on data to know the data characteristics and field dependencies
Like - min and max, or NA
Numeric values or tex
When applying to data quality
We can apply how much text should have on each input or this number must
Meta data
Data about data or attributes that describe the data
Use to organize and understand the datasets
Can be found in a data dictionary
Data lineage – representing how the data flow
Determining thresholds
Based on criticality, priority, and impact of the data quality issue
Comments
Post a Comment