ThaiPublica > คอลัมน์ > เมื่อ Machine Learning พบกับ Human Jailing

เมื่อ Machine Learning พบกับ Human Jailing

12 เมษายน 2017


ที่มาภาพ : https://upload.wikimedia.org/wikipedia/commons/f/f7/Artists-impressions-of-Lady-Justice%2C_%28statue_on_the_Old_Bailey%2C_London%29.png

ผมมีคำถามหนักใจ (แต่สำคัญต่อสังคม) ที่อยากให้ทุกคนเก็บไปคิดกันครับ:

“คุณคิดยังไงกับการที่อีกหน่อยจะมีการใช้สมองกลเพื่อช่วยผู้พิพากษาในการตัดสินว่าคนที่เพิ่งถูกตำรวจจับมาหมาดๆ ควรจะถูกปล่อยตัวหรือถูกฝากขังไว้โดยไม่ให้กลับไปดำเนินชีวิตตามปกติจนกว่าคดีจะเสร็จสิ้น?”

สัญชาตญาณของคนส่วนใหญ่มักบอกว่ามนุษย์เป็นมากกว่าแค่ตัวเลข โดยเฉพาะอย่างยิ่งในเมื่อเราเคยได้เห็นถึงจุดบอดและความลำเอียงของโมเดลสถิติในการใช้มันเพื่อรักษาความปลอดภัยมาแล้ว

แต่วันนี้ผมจะขอเสนอมุมต่างที่อาจทำให้เรามองว่าการใช้ “สมองคน” ตัดสินใจเรื่องคอขาดบาดตายแบบนี้อย่างเดียวก็ทำให้เรารู้สึกทะแม่งๆ ได้ไม่แพ้กัน

งานวิจัยล่าสุดของกลุ่มนักวิศวกรคอมพิวเตอร์และนักเศรษฐศาสตร์ในสหรัฐฯ ได้วิเคราะห์ข้อมูลประวัติอาชญกรรม (rap sheet) และคุณลักษณะของจำเลยทุกคนในนครนิวยอร์กตั้งแต่ปี 2008 ถึง 2013 (รวมแล้วประมาณ 7 แสนกว่ากรณี) จนพบว่าหากเรา “เพิ่มความสามารถในการตัดสินใจ” ให้กับผู้พิพากษาว่าจะ “ขังหรือไม่ขัง” จำเลยด้วยการใช้สมองกลช่วยพยากรณ์ว่าในหมู่จำเลยที่มีเข้ามาทุกวี่วัน คนไหนมีโอกาสก่ออาชญากรรมซ้ำอีกหรือทำการหลบหนีระหว่างรอศาลเรียก เราจะสามารถลดอาชญากรรมในเมืองลงได้มากขึ้น 25% (โดยคงจำนวนจำเลยที่ถูกปล่อยไว้เท่าเดิม) หรือลดจำนวนจำเลยที่จะถูกขังลงได้ถึง 42% (โดยคงอัตราอาชญกรรมไว้เท่าเดิม) ในนครนิวยอร์ก อีกทั้งยังช่วยลดความเหลื่อมล้ำทางสีผิวในการถูกฝากขังได้ไปพร้อมๆ กันด้วย โดยการนำโมเดลนี้ไปประยุกต์ต่อจากระดับเมืองสู่ระดับประเทศก็ได้ผลที่ไม่ต่างกันนัก

ความสำคัญของงานชิ้นนี้คือเขาผสานจุดแข็งของ Machine Learning (จุดแข็งคือการพยากรณ์ให้แม่น) กับ เศรษฐมิติ (จุดแข็งคือการหาความเป็นเหตุเป็นผลและการขจัด bias) เข้าด้วยกันโดยมีเป้าหมายคือการเพิ่ม “คุณภาพ” ของการตัดสินใจให้กับผู้พิพากษา ไม่ใช่หยุดที่แค่การพยากรณ์ว่าจำเลยคนไหนมีความเสี่ยงที่จะหนีศาล ที่ต้องผสานทั้งสองศาสตร์เข้าด้วยกันเป็นเพราะโลกใบนี้เคยเห็นแต่การกระทำของจำเลยที่ถูกปล่อยออกไปเท่านั้น ไม่เคยได้เห็นการกระทำของจำเลยที่ถูกตัดสินฝากขังในโลกจริงแต่ในโลกคู่ขนาน (alternate reality/counterfactual) ถูกปล่อยตัวออกไปบนท้องถนน

บทความนี้จะสรุปแบบคร่าวๆ (จะพยายามภายใน 5 นาที) ว่าทีมนักวิจัยนี้เขาลงเอยกับตัวเลขพวกนี้ได้ยังไง และเราต้องคำนึงถึงอะไรบ้างเพื่อให้สังคมมั่นใจได้ว่าการพยากรณ์ด้วยตัวเลขเหล่านี้ไม่ใช่แค่เวทมนตร์

To ขัง or not to ขัง?: สมองคนกับสมองกลเห็นไม่ตรงกัน

ที่มาภาพ : https://www.cs.cornell.edu/home/kleinber/w23180.pdf

ในนครนิวยอร์ก ผู้พิพากษามีหน้าที่สำคัญคือจะต้องตัดสินใจว่าในช่วงก่อนพิจารณาคดี (pre-trial period) นั้น จำเลยที่เพิ่งถูกตำรวจจับมาหมาดๆ ควรจะได้ใช้ชีวิตระหว่างรอที่ไหน โดยมีทางเลือกหลักๆ 3 ทาง

1) ฝากขังจำเลยระหว่างรอพิจารณา 2) อนุญาตให้ประกันตัว หรือ 3) ปล่อยตัวไปเฉยๆ (release on recognizance)

ซึ่งในบทบาทนี้ ผู้พิพากษาในสหรัฐฯ มีโจทย์ที่ค่อนข้างแคบมาก นั่นก็คือ พวกเขาจะต้องตัดสินใจโดยคำนึงถึงแค่ 2 ปัจจัยเท่านั้น หนึ่ง คือ ความเสี่ยงว่าจำเลยจะเบี้ยวศาล (fail to appear in court หรือ FTA) หรือไม่ และสอง คือ จำเลยจะออกไปก่ออาชญกรรมเพิ่มอีกไหม ไม่ต้องวิเคราะห์ว่าจำเลยได้กระทำผิดจริงหรือไม่ และในนครนิวยอร์กก็มีความพิเศษกว่าเพื่อนเนื่องจากผู้พิพากษาจะคำนึงถึงความเสี่ยงเบี้ยวศาลแค่นั้น ซึ่งขอเรียกสั้นๆ ในบทความนี้ว่า “ความเสี่ยง”

จากการป้อนข้อมูลเกี่ยวกับจำเลยที่นักวิจัยสามารถ observe ได้ เช่น ประวัติอาชญากรรม อายุ คำตัดสินของผู้พิพากษาว่าจะฝากขังหรือไม่ รวมถึงประวัติว่าในอดีตที่เคยถูกปล่อยตัวไปเคยเบี้ยวศาลไหม ในทุกกรณีกว่า 7 แสนกรณีเข้าไปให้คอมพิวเตอร์ “เรียนรู้” ว่าจำเลยที่มีข้อมูลแบบไหนเสี่ยง แบบไหนไม่เสี่ยง และเอาสิ่งที่โมเดลพยากรณ์ความเสี่ยงไปเทียบกับข้อมูลชุดที่แยกไว้ต่างหาก พบว่าการเรียงจำเลยจากเสี่ยงมากไปเสี่ยงน้อยโดยคอมพิวเตอร์กับโดยผู้พิพากษาตัวจริงนั้นไม่ค่อยแตกต่างกันสำหรับกลุ่มเสี่ยงน้อย แต่กลับแตกต่างกันค่อนข้างมากในกลุ่มเสี่ยงสูง (ซึ่งเป็นกลุ่มที่น่ากลัวต่อสังคมกว่า) ซึ่งผู้พิพากษายังคงมีอัตราการปล่อยตัวที่สูงเกิน 40% ในกลุ่มที่เสี่ยงสูง (ดังภาพด้านบน)

ในกลุ่มจำเลยที่ถูกคอมพิวเตอร์พยากรณ์ว่ามีความเสี่ยงสูงสุดที่อยู่ในกลุ่มทอป 1% (“ความน่าจะเบี้ยวศาล” มีมากถึงประมาณ 63%) ผู้พิพากษาตัวจริงกลับตัดสินใจปล่อยตัวจำเลยเหล่านี้ไปเกือบครึ่งหนึ่ง

แน่นอนว่าความแตกต่างของการตัดสินใจระหว่างสมองคนกับสมองกลอาจเป็นเพราะว่าสมองกลพยากรณ์ผิดพลาด เนื่องจากผู้พิพากษาอาจจะสามารถ observe ข้อมูลที่อาจจะเกี่ยวข้องกับความเสี่ยงอื่นๆ เกี่ยวกับจำเลยที่นักวิจัยไม่มีข้อมูล (เช่น สภาพตอนถูกจับ มารยาท รอยสัก ทรงผม ฯลฯ) และไม่สามารถป้อนเข้าไปให้คอมพิวเตอร์เรียนรู้ได้

ปัญหาของข้อโต้แย้งนี้คือ ทีมนักวิจัยนี้เขามีหลักฐานด้วยว่ากลุ่มจำเลยที่ถูกพยากรณ์ว่ามีความเสี่ยงสูงนี้ก็มีความเสี่ยงจริงๆ เพราะเขามีข้อมูลว่าในอดีตที่จำเลยเหล่านี้ถูกปล่อยตัวออกไป…พวกเขาก็เบี้ยวศาลหรือออกไปก่ออาชญากรรมที่เป็นอันตรายต่อสังคมอีกรอบจริงๆ

ในชุดข้อมูลนี้ ผู้พิพากษาตัวจริงตัดสินใจไม่ขังจำเลยราว 74% ของทั้งหมด ในกลุ่มจำเลยที่ถูกปล่อยตัวไปนี้นั้น 15% เบี้ยวศาล 26% ถูกจับอีกที 4% ถูกจับข้อหา violent crime ส่วนอีก 2% ถูกจับข้อหาร้ายแรง เช่น ฆาตกรรมหรือการข่มขืน และถ้าดูเฉพาะกลุ่มความเสี่ยงทอป 1% จำเลยเหล่านี้กว่า 56% ออกไปก่ออาชญากรรมเพิ่มจริงๆ

นอกจากนี้ งานวิจัยนี้ก็พยายามหักล้างข้อโต้แย้งอื่นๆ เช่น ผู้พิพากษาอาจจะมี “ความเมตตาต่อจำเลย”ไม่เท่ากัน บางคนอาจจะให้ความสำคัญกับการให้อิสรภาพสูง ไม่ได้คำนวนความเสี่ยงผิดหรอก แค่มีความเมตตาเป็นอีกหนึ่งเป้าหมายนอกจากการลดความเสี่ยงเบี้ยวศาล กระนั้น ทีมนักวิจัยนี้ก็พบว่าไม่ว่าผู้พิพากษาจะมีระดับ “ความเมตตา” (วัดด้วยจำนวนจำเลยที่ขังโดยเฉลี่ย) แค่ไหนก็ยังตัดสินใจพลาด เนื่องจากยังคงขังจำเลยที่มีความเสี่ยงจริงต่ำทั้งๆ ที่ยังมีจำเลยที่ความเสี่ยงจริงสูงกว่าให้ขัง

อีกทั้งก็ยังพบว่า ที่ผู้พิพากษาพลาดปล่อยจำเลยเสี่ยงสูงออกไปนั้นก็ไม่ใช่ว่าพลาดเพราะประเมินความสามารถในการจ่ายค่าประกันตัวผิด แต่พยากรณ์ความเสี่ยงผิดพลาดไปจริงๆ เนื่องจากในกลุ่มทอป 1% ความเสี่ยงของจำเลยที่ถูกปล่อยออกไปเฉยๆ (release on recognizance) โดยไม่มีการต้องมีการตั้งค่าประกันตัว ก็ออกไปก่ออาชญากรรมต่อด้วยอัตราพอๆ กับกลุ่มทอป 1% ของกลุ่มหลัก (ราว 59%)

บทเรียนก่อนคิดจะใช้งาน

การนำเทคนิคใหม่ๆ เหล่านี้เข้ามาใช้ในการตัดสินใจที่สามารถกระทบความเป็นอยู่ของสังคมนั้นจะต้องคำนึงถึงประเด็นหลักๆ อย่างน้อยๆ 4 ประเด็นต่อไปนี้

หนึ่ง คือ ต้นทุนและประโยชน์ต่อสังคมของแต่ละทางเลือก จุดเด่นของงานวิจัยนี้คือการเสนอต้นทุนและประโยชน์ต่อสังคมของการให้ผู้พิพากษาตัวเป็นๆ ตัดสินใจต่อไปหรือการให้สมองกลเข้ามาตัดสินใจได้ค่อนข้างชัดเจน การจำคุกในนครนิวยอร์กมีต้นทุนสูงทั้งต่อรัฐ (เฉลี่ยแล้ว 3 หมื่นเหรียญต่อคนต่อปี) และต่อจำเลย (เสียอิสรภาพ สร้างความทุกข์ต่อตนและครอบครัว และลดโอกาสการหางานในอนาคต) แต่การปล่อยตัวจำเลยที่มีความเสี่ยงสูงในการก่ออาชญกรรมหรือหลบหนีคดีก็มีต้นทุนทางสังคมที่สูงไม่แพ้กัน

จริงอยู่ที่หลักการโดยแก่นแท้ของทั้งสองทางเลือก (สมองกล หรือ สมองคน) ล้วนมี “ความทะแม่งๆ” ด้วยกันทั้งคู่ เนื่องจากเรากำลังตัดสินชะตาของคนคนหนึ่งด้วยสิ่งที่เขายังไม่ได้ทำ (หลบหนีคดีหรือก่ออาชญากรรมเพิ่ม) ไม่ใช่สิ่งที่เขาทำไปแล้ว ทั้งสองทางเลือกมีความไม่สมบูรณ์แบบทั้งคู่ แต่การมีการคำนวนต้นทุนและประโยชน์ให้เทียบกันได้สะดวกๆ น่าจะช่วยทำให้สังคมตัดสินใจโจทย์ยากๆ แบบนี้ได้ง่ายขึ้น

สอง คือ ข้อมูลต้องมากพอจริงๆ และมีคุณภาพ ความแม่นยำของการวิเคราะห์ด้วยเทคนิคแบบนี้ต้องอาศัยขนาดและคุณภาพของข้อมูล นอกจากความแม่นยำแล้ว การมีข้อมูลขนาดยักษ์ทำให้นักวิจัยสามารถแบ่งแยกมันออกเป็นหลายกองเพื่อนำไปให้สมองกลเรียนรู้และเพื่อทดสอบมัน การที่เรามีข้อมูลน้อยแต่ต้องการใช้มันเพื่อตัดสินชะตาคนจึงอาจมีโทษมากกว่ามีประโยชน์

สามคือต้องคำนึงถึงความลำเอียงให้มาก การใช้สมองกลช่วยพยากรณ์ไม่ได้การันตีว่ามันจะไร้ซึ่งอคติหรือความลำเอียง แต่ก็ยังพอมีวิธีลดความลำเอียงได้บ้าง โดยเฉพาะความลำเอียงที่กระทบต่อโครงสร้างของสังคม ยกตัวอย่างเช่น บางโมเดลอาจลำเอียงบอกให้ผู้พิพากษาขังจำเลยที่เงินเดือนน้อยหรือฝากขังจำเลยที่ผิวคล้ำ เป็นต้น หนึ่งในวิธีแก้ที่งานวิจัยนี้เสนอคือ เขาไม่ใส่ข้อมูลคุณลักษณะที่สังคม “รับไม่ได้” ลงไปในโมเดล เช่น รายได้หรือสีผิว ตัวแปรประชากรเดียวที่ใส่ลงไปคืออายุเท่านั้น อีกหนึ่งวิธีแก้ความลำเอียงก็คือการใช้ประโยชน์จากการที่จำเลยในนครนิวยอร์กถูกสุ่มว่าจะได้ผู้พิพากษาคนไหน ไม่ได้ขึ้นอยู่กับตัวจำเลยแต่ขึ้นอยู่กับดวง ความ random นี้สำคัญเพราะว่าเราต้องการวิเคราะห์ว่าจะเกิดอะไรขึ้นในสังคมหากมีการฝากขังเพิ่มมากขึ้นจากการฝากขังโดยโมเดล ไม่ใช่จากการฝากขังโดยผู้พิพากษาที่ “โหด” กว่าเพื่อน

สี่คือโมเดลต้องไม่ตายตัวและต้องมีการตรวจสอบที่โปร่งใส คุณภาพของการพยากรณ์ขึ้นอยู่กับตัวอย่างข้อมูลที่ป้อน ฉะนั้น มันไม่มีการการันตีเลยว่าโมเดลที่เคยพยากรณ์ได้แม่นยำในอดีตกับประชากรกลุ่มนี้จะยังทำได้ดีในอนาคตหรือในประชากรกลุ่มอื่น จำเป็นต้องมีการปรับปรุงอยู่เสมอ ที่สำคัญไม่แพ้กันคือ ต้องมีการตรวจสอบโมเดลที่โปร่งใส ว่านักวิเคราะห์ไม่ได้ขุดข้อมูลลับหลังเพียงเพราะต้องการทำให้ผลลัพธ์ออกมาดูดี ในจุดนี้งานวิจัยนี้ได้แยกข้อมูลประมาณ 1 แสนกว่ากรณีไปเก็บไว้ใน “เซฟลับ” ที่จะไม่ถูกแตะเลยจนกว่าจะใช้มันทดสอบกับโมเดลครั้งสุดท้ายก่อนตีพิมพ์ (จะยังแม่นอยู่ไหมต้องรออีกปีสองปี!)

สุดท้ายนี้ การ “พลาด” ปล่อยจำเลยที่มีความเสี่ยงสูงออกไปก็ไม่ได้แปลว่ามันเป็นความผิดของผู้พิพากษาเต็มๆ ไปเสียทีเดียว เนื่องจากปริมาณงาน (caseload) ต่อวันก็ค่อนข้างมาก บวกกับข้อมูลที่มีอยู่ต่อหน้ากับเวลาอันจำกัดยิ่งทำให้งานนี้ไม่ง่าย ผมมองว่าการประยุกต์ใช้สมองกลและข้อมูลในความยุติธรรมนั้นน่าจะมาจากการ enhance ทักษะของผู้พิพากษามากกว่าการทดแทนตัวตนของเขาไปเลย หรือไม่ก็เป็นการอำนวยให้เขาเอาเวลาไปทำหน้าที่อื่นๆ ที่สังคมเห็นว่ายังไม่ควรใช้หุ่นยนต์ตัดสินใจ ไม่ต่างกับทุกวันนี้ที่หลายความสามารถของเราก็ถูก enhance ด้วยโทรศัพท์มือถือหรือคอมพิวเตอร์

แม้ว่าความคิดใหม่ๆ แบบนี้จะยังอยู่บน “หิ้งวิจัย” เสียส่วนมาก การที่หน่วยงานภาครัฐเริ่มยอมแบ่งข้อมูลและร่วมงานกับทีมนักวิจัยแปลว่าพวกเขาเองก็สนใจมันมากไม่แพ้กันเหมือนกัน ดูจากรูปการณ์แล้วเราคงได้เห็นตัวอย่างแบบนี้เพิ่มมากขึ้นในอนาคต เนื่องจากต้นทุนในการใช้สมองกลช่วยสมองคนตัดสินใจนั้นแทบจะเป็นศูนย์

หมายเหตุ: ตีพิมพ์ครั้งแรกที่ “เศรษฐ” ความคิด – settaKid.com ณ วันที่ 7 เมษายน พ.ศ. 2560