Sampling (note taken from datacamp subscription)

Note ~ datacamp

  1. ข้อมูลมีจำนวนมาก ถ้าข้อมูลมีจำนวนน้อย ๆ ไม่มีประโยชน์ที่จะทำ sampling

  2. ข้อมูลที่ได้มา ต้องมาดูด้วยว่า มี bias ในการเก็บหรือเปล่า (not generalized for the whole population) เพราะถ้ามี bias ในการเก็บข้อมูล เวลาสรา้ง model ที่ based on from that data จะทำให้การทำนาย (predict) ไม่แม่นยำ

  3. การทำ bootstrap คือ การแซมปลิ่งมาจากกลุ่มตัวอย่างอีกรอบหนึ่ง (S1) ซึ่งกลุ่มตัวอย่าง S1 ต้องเป็นกลุ่มตัวอย่างที่สามารถเป็น representative ที่ดีของกลุ่มประชากร (good video to explain bootstrap ~ click)

    1. ทำเมื่อ เราไม่สามารถสุ่มเลือกแซมเปิลมาได้เยอะ และเราก็ไม่รู้ว่าจากการสุ่มเลือกในแต่ละครั้งนั้นมีการกระจายตัวแบบปกติไหม

    2. เพราะจำนวนแซมปิงมันไม่เยอะพอ ทำให้การหาค่า standard error มันยาก และอาจจะไม่แม่นยำ


การ set seed คือ การทำ pseudo-random ในคอมพิวเตอร์ ซึ่งจริง ๆ แล้วมันไม่ได้เป็นการ random อย่างแท้จริง แต่เราทำเพื่อที่จะให้ได้ reproducibility ในการรันโค้ด


In R; there are many packages which generates random number (แต่ในแต่ละ package จะมีการ random number ที่มีการ distribute ของข้อมูลแต่ต่างกันไป ดังนั้น possiblity ในการได้แต่ละ number จะแตกต่างกันออกไป)



Comments

Popular posts from this blog

Useful links (updated: 2024-05-05)

SUSA Thailand - Sustainable University? (update 2023-06-23)

Genome editing technology short note