Sampling (note taken from datacamp subscription)

- Sunday, March 21, 2021

Note ~ datacamp

ข้อมูลมีจำนวนมาก ถ้าข้อมูลมีจำนวนน้อย ๆ ไม่มีประโยชน์ที่จะทำ sampling
ข้อมูลที่ได้มา ต้องมาดูด้วยว่า มี bias ในการเก็บหรือเปล่า (not generalized for the whole population) เพราะถ้ามี bias ในการเก็บข้อมูล เวลาสรา้ง model ที่ based on from that data จะทำให้การทำนาย (predict) ไม่แม่นยำ
การทำ bootstrap คือ การแซมปลิ่งมาจากกลุ่มตัวอย่างอีกรอบหนึ่ง (S1) ซึ่งกลุ่มตัวอย่าง S1 ต้องเป็นกลุ่มตัวอย่างที่สามารถเป็น representative ที่ดีของกลุ่มประชากร (good video to explain bootstrap ~ click)

ทำเมื่อ เราไม่สามารถสุ่มเลือกแซมเปิลมาได้เยอะ และเราก็ไม่รู้ว่าจากการสุ่มเลือกในแต่ละครั้งนั้นมีการกระจายตัวแบบปกติไหม
เพราะจำนวนแซมปิงมันไม่เยอะพอ ทำให้การหาค่า standard error มันยาก และอาจจะไม่แม่นยำ

การ set seed คือ การทำ pseudo-random ในคอมพิวเตอร์ ซึ่งจริง ๆ แล้วมันไม่ได้เป็นการ random อย่างแท้จริง แต่เราทำเพื่อที่จะให้ได้ reproducibility ในการรันโค้ด

In R; there are many packages which generates random number (แต่ในแต่ละ package จะมีการ random number ที่มีการ distribute ของข้อมูลแต่ต่างกันไป ดังนั้น possiblity ในการได้แต่ละ number จะแตกต่างกันออกไป)

Search This Blog

Random Records

Sampling (note taken from datacamp subscription)

Comments

Post a Comment

Most viewed blogs

Useful links (updated: 2026-06-28)

Genome editing technology short note

Umbrella vs Basket Trial