Base Rate – The Significant in prediction อัตราฐาน – จำได้ไหมครับจากตอนที่แล้ว เราสรุปกันประมาณว่า เมื่อเห็นผลทดสอบเป็นบวกแล้ว เราจะเชื่อได้แค่ไหนว่าสมมุติฐานเป็นจริง (เราป่วย หรือ สินค้าเสียหาย)
Positive result – Am I sick ????
เราคำนวนได้โดย เอา ผลบวกแท้ / (ผลบวกแท้ + ผลบวกเทียม)
โดยผลบวกแท้ = %ผลบวกแท้ x ความน่าจะเป็นของสมมติฐานนั้น
ส่วนผลบวกเทียม = %ผลบวกเทียม x (1- ความน่าจะเป็นของสมมติฐานนั้น)
ถ้าจะซื้อของใน shopee อยู่แล้ว เข้าทางนี้เลยครับ ผมจะได้ค่าคอมฯ ถือว่าช่วยผมจ่ายค่าเช่า host server ไม่ใช่คลิ๊กดูดเงินแน่นอนครับ ไม่ต้องกังวล
เช่น …
ความน่าจะเป็นที่คนไทยเป็นมะเร็ง = 1% (หรือเรียกอีกอย่างว่า “อัตราฐาน”)
ประสิทธิภาพการตรวจ ให้ผลบวกแท้ = 90%
ประสิทธิภาพการตรวจ ให้ผลบวกเทียม = 9%
-------------------------------------------------------
ไม่พลาด ข่าวสาร บทความ ความรู้ ประกาศตำแหน่งงานว่าง และ อื่นๆ
กรอก ชื่อ และ อีเมล์ ในแบบฟอร์มข้างล่าง จะมีอีเมล์กลับมาให้ "ยืนยัน" นะครับ การสมัครจึงจะสมบูรณ์ ... อ้อ ... อย่าลืมดูใน junk, trash, spam box นะครับ บางทีระบบมันเอาอีเมล์ตอบกลับไปไว้ที่นั่น
ดังนั้น ถ้าผลตรวจผมเป็นบวก โอกาสที่ผมเป็นมะเร็ง
= (90% x 1%) / [(90% x 1%)+(9% x 99%)]
= 9.2%
ถ้าเทียบง่ายๆเป็นคน 1000 คน ก็จะได้ตารางข้างล่างนี้
เหลือ L สองชุด M 1 ชุด นะคร๊าบ
= 9 / [9 + (89.1+9)] = 9.2% เท่ากับวิธีข้างบน
ที่ทบทวนยาวนิดหนึ่ง เพราะอยากคุยต่อเกี่ยวกับสิ่งที่เราเรียกว่าอัตราฐาน
Base Rate
อัตราฐานเป็นปัจจัยหนึ่งที่ไม่เกี่ยวกับประสิทธิภาพการตรวจ ที่กำหนดว่า ผลการคาดการณ์จะแม่นแค่ไหน
ภาษาทางวิชาการเขาเรียกว่า ความน่าจะเป็นที่เกิดก่อน (prior) แปลว่า มันเกิดขึ้นก่อนที่เราจะสนใจตั้งคำถามนั้นๆ เช่น คนไทยเป็นมะเร็ง 1% ไม่ว่าผมจะไปหาหมอรับผลตรวจที่เป็นบวกแล้วมาตั้งคำถาม คนไทยก็เป็นมะเร็ง 1% อยู่ดี
นี่แหละ ที่เรียกว่า อัตราฐาน ที่จะกำหนดผลความแม่นยำในการตอบคำถามอื่นๆที่ตามมา
มี 2 เรื่องที่ไม่เกี่ยวกัน ของอัตราฐาน ฟังดีๆนะครับ
หาบ้านให้น้องหน่อยครับ :)
ขาวจั๊วะ กอดได้ อิงได้ วางประดับได้
ปาหัวคนข้างๆก็ได้ (เวลาใช้ให้ไปล้างจานแล้วไม่ยอมไป)
อัตราฐานกว้างหรือแคบ กับ อัตราฐานมากหรือน้อย
ค่อยลองมโนตามอัตราฐานที่เปลี่ยนไปแบบนี้นะ
ความน่าจะเป็นที่คนไทยป่วยเป็นมะเร็ง = 10%
ความน่าจะเป็นที่คนไทยผู้ชายป่วยเป็นมะเร็ง = 5%
ความน่าจะเป็นที่คนไทยผู้ชายในเมืองหลวงป่วยเป็นมะเร็ง = 15%
ความน่าจะเป็นที่คนไทยผู้ชายในเมืองหลวงที่ดื่มไวน์สัปดาห์ล่ะอย่างน้อย 1 ขวดป่วยเป็นมะเร็ง = 20%
ความน่าจะเป็นที่คนไทยผู้ชายในเมืองหลวงที่ดื่มไวน์สัปดาห์ล่ะอย่างน้อย 1 ขวด ที่อายุกเดิน 50 ป่วยเป็นมะเร็ง = 25%
(ตัวเลขสมมุติมั่วๆ เพื่อให้เห็นแนวคิดเท่านั้นนะครับ)
เห็นไหมครับว่า ไม่ว่า % ความน่าจะเป็นจะมากขึ้น หรือ น้อยลง อัตราฐานยิ่งเจาะจงเท่าไร ผลทำนายยิ่งแม่น
อัตราฐานกว้างหรือแคบ จะกำหนดความแม่นยำของการทำนาย (ไม่ใช่ผลการทำนายจะมากหรือน้อย)
อัตราฐาน (ความน่าจะเป็นที่เกิดก่อน) มากหรือน้อย จะมีผลต่อผลว่าจะมากหรือน้อย (ไม่ใช่แม่นหรือไม่เม่น)
เหตุผลง่ายๆคือ เราจำกัดเจาะจงคุณสมบัติของกลุ่มประชากรที่สนใจให้แคบลง ซึ่งถ้าทำอย่างไม่ระมัดระวัง เราก็จะเจอข้อหาอคติได้ง่ายๆ
ในทางตรงกันข้าม ถ้าตัวอย่างที่เราสนใจไม่ได้อยู่ในกลุ่มประชากรของอัตราฐาน ผลการทำนายก็เข้ารกเข้าพง เช่น ถ้าผมไม่ดื่มไวน์ แล้วเอาอัตราฐานของชายไทยดื่มไวน์มาใช้กับผม มันก็ผิดเห็นๆ นี่ยกตัวอย่างแบบชัดๆนะ
หลายครั้งในงานวิจัยที่ซับซ้อน ความเข้าใจผิด ความผิดพลาดแบบนี้ มักจะถูกซ่อนไว้อย่างไม่ตั้งใจ หรือ ตั้งใจ เพื่อที่จะกำหนดทิศทางของผลงานวิจัยให้เป็นไปในทางที่ต้องการ ที่เรียกว่า ปักธงไว้แล้วนั่นแหละ
เหมือนตลกชวนหัวคลาสิก นักแม่นปืนชาวเท็กซัสยิงปืนใส่ฝาผนังก่อน แล้วเอาสีขาวแดง ไปวงเป็นรูปเป้าเอาไว้ทีหลัง … ประมาณนั้นแหละ
อย่างไรก็ตาม มีข้อควรระวังในการใช้อัตราฐานที่สุ่มเสี่ยง
อัตราฐานต้องห้าม
Forbidden Base Rate
- เชื้อชาติ ศาสนา ความเชื่อ เพศสภาพ เพศกำเนิด รสนิยามทางเพศ … การเลือกใช้อัตราฐานที่เจาะจงโดยตั้งใจลงไปที่ตัวแปรเหล่านี้ สุ่มเสี่ยงที่จะเกิดข้อขัดแย้งทางสังคม (ถึงแม้ว่าจะให้ผลแม่นยำขึ้นก็ตาม)
- เลือกอัตราฐานที่ไม่คำนึงถึง ข้อ 1. โดยตรง แต่ไม่ได้ได้ตั้งใจ ไม่รอบคอบ เช่น ไปเลือก เขตพื้นที่อยู่อาศัยชุมชนที่มีลักษณะเฉพาะ นั่นหมายถึงการเลือกลักษณะเฉพาะนั้นทางอ้อมนั่นแหละ หรือ ใช้ระดับการศึกษา ในสังคมที่คนกลุ่มชาติพันธุ์ไม่ได้รับการศึกษา นั่นเท่ากับแบ่งกลุ่มชาติพันธุ์นั่นเอง
- แต่ในบางกรณี ก็จำเป็นต้องตีวงอัตราฐานให้แคบ เพื่อความยุติธรรมสาธารณะ เช่น
- การคำนวนเบี้ยประกัน การจะใช้อัตราฐานอุบัติเหตุรถยนต์ทั่วๆคำนวนค่าเบี้ยประกันวัยรุ่นวัยคะนอง กับ คุณป้าวัน 55 ที่สัปดาห์หนึ่งขับรถออกจากบ้านไม่กี่ครั้ง ก็ไม่เป็นธรรมกับคุณป้า
- การบริจาคเลือด ที่ไม่รับเลือดบริจาคจาก คู่สัมพันธ์แบบ ชาย-ชาย ก็ได้ผลสรุปผลการคาดการณ์โดยสูตรข้างบน แต่ใช้อัตราฐานเป็นประเภทคู่สัมพันธ์ นั่นเอง
- การกำหนดดอกเบี้ยเงินกู้ (หลักการคล้ายเบี้ยประกัน) คนความเสี่ยงน้อย ต้องรับภาระดอกเบี้ยเงินกู้สูง ถ้าใช้อัตราฐานกว้างๆมาคิด
- และอื่นๆอีกมากมาย
จะเป็นว่า เราจำเป็นที่ต้องเลือกล่ะ ว่าเมื่อไรจะละเมิดกฏอัตราฐานต้องห้าม เพื่อแลกกับประโยชน์สาธารณะและความเป็นธรรม
เพราะในทางปฏิบัติแล้ว การจำกัดอัตราฐานให้แคบลงๆ ก็คือการวิเคราะห์ลักษณะบุคคลดีๆ (profiling) นี่เอง บีบไปบีบมาก็จะเหลือ ผม เป็นประชากรเพียง 1 คนเท่านั้น ซึ่ง …
- อย่างแรก มันไม่เกิดประโยชน์อะไรเลย
- อย่างที่สอง มันก็ไม่มีข้อมูล จะไปมีได้ไง เพราะอัตราฐานคือสิ่งที่เกิดก่อน ถ้าบีบจนเหลือผมคนเดียว แล้วจะไปมีอัตราฐานได้ไง จริงไหม คือ ทำไม่ได้ในทางปฏิบัติ และ
- อย่างที่สาม มันชี้นำผลลัพท์
การบีบอัตราฐานโดยใช้ อัตราฐานต้องห้าม ไม่เป็นธรรม เพราะเป็นการชี้นำ เช่ย ถ้าเอาอัตราฐานเรื่องรสนิยมทางเพศมีเป็นสารตั้งต้น ดังนั้นผลลัพธ์ที่ออกมา มันก็ถูกตีกรอบไว้แล้วแต่ต้น ซึ่งไม่ยุติธรรม (ยกเว้น เรื่อง ประกัน บริจาคเลือด เงินกู้ หรือ อะไรที่สาธารณะต้องมาแบกรับร่วม)
พอล่ะ ผมพาพวกเรามาปวดหัวพอแล้ว 555
ถึงจะไม่ใช่เรื่องขุดเจาะหลุมปิโตรเลียม แต่ผมก็อยากให้แฟนเว็บผมเป็นคนที่มีเหตุมีผล ระแวดระวังข้อเท็จจริง และ สิ่งแปลกปลอมในตรรกะเบี่ยงเบนที่อยู่รอบตัวเราไปหมด … จบล่ะ 🙂
ถ้าจะซื้อของออนไลน์จาก 2 เจ้านี้อยู่แล้ว คลิ๊กลิงค์ หรือ โลโก้ ข้างล่างนี้เลยครับ ผมจะได้ค่าคอมฯเล็กๆน้อยๆสมทบทุนจ่ายค่าเช่า host server ขอบคุณครับ
(ไม่ต้องกังวลนะครับ ไม่ใช่ลิงค์ดูดเงินแน่ๆ)
https://raka.is/r/qlzXR | https://raka.is/r/gP7GV |