“ณภัทร จาตุศรีพิทักษ์” เล่าประสบการณ์การผสาน “เศรษฐศาสตร์ – Data Science” เพื่อตอบโจทย์สังคม

15 เมษายน 2561

ดร.ณภัทร จาตุศรีพิทักษ์ นักเศรษฐศาสตร์จุลภาคประยุกต์และที่ปรึกษาทางกลยุทธ์

ขณะที่โลกของข้อมูลและเทคโนโลยีกำลังดำเนินไปอย่างเข้มข้นขึ้นเรื่อยๆ ในประเทศไทย ภายใต้กระแส “ปฏิวัติดิจิทัล” หรือ Digital Revolution ซึ่งเริ่มต้นมาตั้งแต่ช่วงปลายทศวรรษ 1980 หลังจากที่โลกเริ่มเปลี่ยนการเก็บข้อมูลและการสื่อสารจากรูปแบบแอนะล็อกเป็นดิจิทัล ทำให้สามารถเลียนแบบและส่งผ่านข้อมูลต่างๆ ได้รวดเร็วโดยไม่เกิดการสูญเสียระหว่างทาง และเป็นจุดกำเนิดของทั้งอินเทอร์เน็ต โทรศัทพ์มือถือ คอมพิวเตอร์ส่วนบุคคล ซีดี และนำโลกเข้าสู่ “ยุคของข้อมูลข่าวสาร” ที่เปลี่ยนโฉมวิถีชีวิตของผู้คนอีกครั้ง นับตั้งแต่การปฏิวัติอุตสาหกรรมเมื่อเกือบ 200 กว่าปีที่แล้ว

อย่างไรก็ตาม แม้จำนวนข้อมูลในรูปแบบดิจิทัลได้ทวีขึ้นเกือบ 2,000 เท่าในช่วงเวลาเพียง 30 ปี แต่ก็เป็นการเพิ่มขึ้นอย่างช้าๆ ในช่วงแรก และเรากลับต้องรอจนถึงปี 2002 ที่ข้อมูลเกิน 25% ของโลกถึงจะถูกจัดเก็บในรูปดิจิทัล และต้องรอจนถึงปี 2007 ที่ตัวเลขนี้แตะถึง 90% ซึ่งสอดคล้องกับจำนวนผู้ใช้อินเทอร์เน็ตและโทรศัพท์มือถือที่เพิ่มสูงขึ้นในระยะหลัง

กลายเป็นว่าข้อมูลจำนวนมหาศาลเหล่านี้เป็นเหมือนขุมทรัพย์ที่ยังไม่ถูกใช้งาน และต้องรอจนถึง ณ ปัจจุบันที่จำนวนข้อมูลและเทคโนโลยีเริ่มมีความพร้อมที่จะสามารถใช้ประโยชน์จากข้อมูลเหล่านี้และเปิดโอกาสสู่โลกใหม่ๆ ทางธุรกิจและนโยบายสาธารณะ

ดร.ณภัทร จาตุศรีพิทักษ์ นักเศรษฐศาสตร์จุลภาคประยุกต์และที่ปรึกษาทางกลยุทธ์ หนึ่งในนักเศรษฐศาสตร์รุ่นใหม่ที่เพิ่งสำเร็จการศึกษาปริญญาเอกด้านเศรษฐศาสตร์ประยุกต์ จากมหาวิทยาลัยมินนิโซตา (University of Minnesota) ซึ่งได้ประยุกต์ใช้ศาสตร์ของข้อมูลและเศรษฐศาสตร์เข้าด้วยกัน เพื่อตอบโจทย์ใหม่ๆ ที่โลกเศรษฐศาสตร์แบบดั้งเดิมยังไม่สามารถตอบได้ ตั้งแต่การศึกษา สิ่งแวดล้อม การบริหารเมือง ฯลฯ รวมทั้งเขียนบทความผ่านมุมมองด้านเศรษฐศาสตร์ผ่านเว็บไซต์ settakid.com และเป็นคอลัมนิสต์ประจำสำนักข่าวออนไลน์ไทยพับลิก้า

ครั้งนี้ ดร.ณภัทรได้กลับมาเปิดประเด็นในเห็นถึงความเชื่อมโยงของศาสตร์ทั้ง 2 อีกครั้ง รวมทั้งขยายออกไปถึงการออกแบบนโยบายสาธารณะของประเทศด้วยข้อมูลและการวิจัยทางเศรษฐศาสตร์ที่นอกเหนือไปจากการประยุกต์ใช้กับภาคธุรกิจ ในงาน CP’s Talk Season 2 ครั้งที่ 2 เรื่อง “Data Science Applications in Economics” โดยภาควิชาวิศวกรรมคอมพิวเตอร์ (CP) คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย เมื่อวันที่ 30 มีนาคม 2561

ดร.ณภัทรกล่าวถึงสถานการณ์ปัจจุบันว่า ประเด็นแรก เวลาเอาวิทยาศาสตร์ข้อมูล (data science) มาผสมกับเศรษฐศาสตร์ มันมีการประสานกำลังที่มหาศาลมาก ทุกวันนี้ยังไม่มีการนำมาใช้งานอย่างเต็มประสิทธิภาพ เพราะว่าคนที่อยู่ฝั่งวิทยาศาสตร์ข้อมูลก็อยู่ฝั่งวิทยาศาสตร์ข้อมูล คนที่อยู่ฝั่งเศรษฐศาสตร์ โดยเฉพาะถ้าเป็นระดับปริญญาเอก บางทีก็ยังจมอยู่กับด้านที่ตัวเองคุ้นเคยลองมาดูกันว่าถ้ามารวมกันแล้วจะทำอะไรได้บ้าง

ประเด็นที่ 2 คือ เทคนิคใหม่ๆ การเรียนรู้ของเครื่องจักร (machine learning) เทพๆ บางทีเราอย่าไปใช้อย่าไปหวังกับมันเยอะเกิน เพราะมีความคิดเก่าๆ แบบเป็น 100 ปี ที่เราไม่ควรมองข้าม

ประเด็นที่ 3คือเรื่องคน จะทำนายคนหรือทำให้คนยอมใช้แอปพลิเคชันวิทยาศาสตร์ข้อมูลของเรายากมาก แต่ผมโชว์ให้ดูว่าน่าตื่นเต้นแค่ไหน โจทย์พวกนี้ เพราะสมมติว่าน้องๆ จบออกไป ทำข้อมูลเป็น คิดว่าไม่มีปัญหาเลยกับการได้งาน อย่างไรก็ได้งาน ส่วนใหญ่มันจะเป็นการพาณิชย์

“แต่วันนี้ผมขอเสนอว่ามันมีอีกซีกหนึ่งของโลกที่ทำเพื่อสังคมหรือเพื่อนโยบาย ซึ่งอย่าหมดหวัง ถึงแม้เราจะอยู่ในประเทศไทยที่ดูเหมือนไม่ 4.0 แต่ทุกประเทศเคยผ่านจุดนี้คือจุดที่ยังไม่เป็น 4.0 แต่ว่ามันต้องช่วยกันผลักดันกัน วันนี้ผมจะโชว์ให้ดูว่าทำไมถึงต้องผลักดัน”

วันนี้ nerd meter อยู่ระดับ 7 คือถ้าระดับ 10 คือเวลาเข้าเรียน ระดับ 7 คือกลางๆ ได้ภาพใหญ่กลับไปจำได้ ไม่ต้องจดมาก ช่วงแรกเราจะคุยกันว่าวิทยาศาสตร์ข้อมูลเกี่ยวกับเศรษฐศาสตร์อย่างไร มันมีอะไรเกี่ยวกัน รวมกันแล้วเกิดอะไรขึ้น โดยเฉพาะอย่างยิ่งผมทำอะไรวันๆ คือผมเรียกตัวเองว่าเป็นนักเศรษฐศาสตร์ประจักษ์นิยม (empirical economist) คือจริงๆ นักเศรษฐศาสตร์มีหลายสายพันธุ์มาก มีตั้งแต่มหภาค จุลภาค อย่างผมเรียกกันว่าจุลภาคประยุกต์ (applied micro-economics) ซึ่งคนทั่วไปอาจจะไม่รู้ว่ามันคืออะไร แต่วันนี้จะอธิบายให้ดูว่าคืออะไร แล้วมันซ้อนทับกันมากน้อยแค่ไหนกับนักวิทยาศาสตร์ข้อมูลจะมี 4 กรณีศึกษาด้วยกัน

กรณีแรกผมสนใจมากและคิดว่าหลายคนที่อยู่ กทม. ที่เคยได้ยินเรื่อง PM 2.5 เมื่อเดือนที่แล้วน่าจะเริ่มตื่นตัวแล้วว่ามันแย่ขนาดไหน เรื่องนี้เป็นการเชื่อมมลพิษทางอากาศกับสุขภาพว่าคนป่วยคนตายแค่ไหน เรื่องที่ 2 อยู่ในสาขาเศรษฐศาสตร์แรงงาน ซึ่งเป็นสาขาที่ผมทำอยู่เป็นประจำคือการบริหารบุคลากร ฟังดูน่าเบื่อมาก แต่ขอบอกว่ามันจะมีความสำคัญมากและผมเพิ่งได้งานที่ทำอันนี้โดยเฉพาะ แสดงว่าถึงมันจะฟังดูน่าเบื่อ คือตอนแรกผมกะจะไม่ทำโครงการนี้กับอาจารย์ที่ปรึกษาด้วยซ้ำ เพราะว่าเศรษฐศาสตร์ทรัพยากรมนุษย์ฟังดูน่าเบื่อ แต่พอเขาโชว์ข้อมูลให้ดูว่ามันทำอะไรได้บ้าง ผมเลยรับไปเลยและทำเป็นทีสิส สุดท้ายกลับมาเมืองไทยมีคนจ้าง แค่นั้นก็พอแล้วสำหรับผม อันที่ 3 เราจะมาดูกันว่าการเข้าถึงอาหารกับการก่ออาชญากรรมมันเกี่ยวกันอย่างไร เป็นเศรษฐศาสตร์สวัสดิการ (welfare economics) อันสุดท้าย ผมว่าถ้าวันนี้อยากกลับไปอ่าน 1 เปเปอร์ ผมเน้นให้อ่านอันสุดท้ายนี้ ผมว่าอันนี้มันจะเป็นจุดแตกแขนงออกมาเลยว่าวิทยาศาสตร์ข้อมูลกับเศรษฐศาสตร์พอรวมกันแล้วมันเกิดอะไรได้บ้าง

เศรษฐศาสตร์กับ Way of Knowing – ทดลองหรือเก็บข้อมูล

ดร.ณภัทรเล่าต่อว่า “ผมได้ยินมาว่า(ผู้ฟัง)ส่วนใหญ่ไม่ได้มาจากเศรษฐศาสตร์ ผมจะนิยามให้ก่อนว่าอะไรคือเศรษฐศาสตร์ เพราะว่าเป็นอะไรที่คนสับสนกันมาก ว่าจริงๆ แล้วมันคือศาสตร์อะไร อันนี้ไม่ได้คัดมาจากไหน แต่ผมนิยามเองว่ามันคือศาสตร์ของการใช้ทรัพยากรให้เกิดประโยชน์สูงสุด คือมันจะกว้างมาก แต่ว่ามันไม่หนีไปจากนิยามนี้ เรามีทรัพยากรจำกัด มีชีวิตจำกัด มีเงินจำกัด มีน้ำมันจำกัด ทำอย่างไรให้เกิดผลมากที่สุด มันเป็นกรอบความคิดที่ช่วยเตือนใจว่าสิ่งที่เราทำมันคุ้มค่าที่สุด เรามีเวลาวันหนึ่ง 24 ชั่วโมง เราแบ่งให้พ่อแม่ ให้แฟน ให้พี่น้อง ให้เพื่อน คุ้มค่าที่สุดหรือยัง เรามีเงินสมมติจะทำนโยบายการศึกษาเราเลือกทำสิ่งที่คุ้มค่าที่สุดหรือยัง”

“สมมติมี 3 นโยบายให้เลือกแจกไอแพด แจกแว่นตา แจกชุดนักเรียน มี 3 อย่างให้เลือก มีต้นทุนของนโยบาย มีผลประโยชน์คือทำเสร็จแล้วนักเรียนสอบได้ดีขึ้นเท่าไหร่ เมื่อเห็นแบบนี้แล้วนักเศรษฐศาสตร์เลือกข้อ 2 แจกแว่นตา อันนี้เป็นเรื่องจริงที่เมืองจีน อาจารย์ที่ปรึกษาผมเขาทำวิจัยว่าโรงเรียนป้อนอะไรเข้าไปแล้วได้ผลดีที่สุด เขาไม่สนว่ามันจะเป็นอะไร หลายคนยังคิดว่าแจกหนังสือ แจกแผ่นภาพแล้วมันจะดี ปรากฏทำไปๆ คือทำการทดลองแบบสุ่มและมีการควบคุม (randomized control trial หรือ RCT) ซึ่งทำดีมากแล้ว ไม่มีอะไรต่างขึ้นมา แล้วจะทำไปทำไม คนนี้เขาเป็นที่ปรึกษาให้กับธนาคารโลกด้วย ซึ่งธนาคารโลกต้องจัดเงินให้มันดีๆ ไม่เช่นนั้นระดมทุนมาแล้วไปลงแล้วไม่เกิดอะไรขึ้น ก็ไม่รู้จะทำไปทำไม เขาเลยลองแจกแว่นตาในเมืองจีน ปรากฏว่าได้ผลมากเลย เพราะว่าเด็กมองไม่เห็นกระดาน แค่นั้นเอง บางทีเราไม่ได้คิดว่ามันจะมีผลหรือไม่ ก็ลองทำ ทีนี้ต้นทุนอันนี้มันดูง่ายมาก เราประเมินได้ แต่ผลประโยชน์จะประเมินอย่างไรว่าแจกแว่นตา แจกไอแพดแล้วมันได้ผลขนาดไหน คือจะรู้ได้อย่างไรว่าได้ผลดีที่สุด”

โจทย์นี้มันจะต่างจากโจทย์การเรียนรู้ของเครื่องจักร คือเราไม่มีคำตอบที่ถูกต้อง ผมจะโชว์ให้ดูว่าทำไม สิ่งที่เราทำได้คือถ่อมตัวนิดหนึ่ง คืออย่ามาบอกว่าผมรู้แน่นอนว่าประเทศต้องการแบบนี้ หรือว่าทำนโยบายนี้แล้วประเทศดีแน่ ไม่มีหลักฐานข้อมูล มีแต่ความเชื่อ แบบนี้ไม่สำเร็จ โดยเฉพาะอย่างยิ่งในยุคที่มีข้อมูลเต็มไปหมด สิ่งที่ผมแนะนำคือให้ถ่อมตัวว่าเราไม่รู้ทุกอย่าง อันที่ 2 คือสร้างสรรค์ อย่างที่ 3 คือพยายามเข้าใกล้จุดที่เป็นไปไม่ได้ให้มากที่สุดเท่าที่จะทำได้

“ไม่แน่ใจว่ามีสอนเรื่อง way of knowing หรือเปล่า แต่คิดว่าจะไปอยู่ที่ภาคปรัชญาหรืออะไรแนวนั้น ผมเคยเรียนครั้งหนึ่ง อาจารย์เป็นอาจารย์ปรัชญา ฟังไม่รู้เรื่องเลยแต่ได้อะไรมาประมาณนี้ คือคนเรามีวิธีรับรู้ว่าอะไรจริงไม่จริงได้หลายวิธี ในอดีตมันทำได้หลายอย่าง การทดลองสมัยก่อนกาลิเลโออยากรู้ว่าโลกมีแรงดึงดูดอย่างไร ทำทฤษฎีขึ้นมา หรือแค่มีหลักฐานเล็กๆน้อยๆ มีหลักฐานโดยเรื่องเล่า (anecdotal evidence) ก็คิดว่าเป็นความจริงแล้ว แต่มันมีแย่กว่านั้นพวกที่คิดว่าตัวเองน่าจะถูก สมมติว่าเดินเรือในมหาสมุทรโดยไม่มีวิทยาศาสตร์ ตาย มันเหมือนออกไปไหนไม่รู้ แต่สมัยก่อนเวลาไม่มีข้อมูล ไม่มีกองความรู้ บางทีก็ต้องใช้ความเชื่อ ใช้สัญชาตญาณ ไม่เช่นนั้นก็ไม่รู้ว่าจะทำอย่างไร แต่ในอนาคตผมมองว่าการทดลอง ทฤษฎี และข้อมูล 3 สิ่งนี้จะเป็นสิ่งที่ช่วยให้เราเข้าถึงว่าอะไรจริงอะไรไม่จริง นโยบายไหนใช้ได้ อันไหนใช้ไม่ได้”

ในสาขาเศรษฐศาสตร์วิธีรู้ว่าอะไรจริง อะไรใช้ได้ อะไรใช้ไม่ได้ มันแบ่งได้เป็น 2 ด้าน ซึ่งตรงนี้จะมาเกี่ยวกับวิทยาศาสตร์ข้อมูลแล้ว เพราะมันต้องใช้ข้อมูล ไม่เกี่ยวกับทฤษฎี อันนั้นเป็นอีกเรื่องหนึ่ง ผมมาจากมหาวิทยาลัยมินนิโซตา เป็นที่ที่ทฤษฎีจ๋ามาก ถึงขั้นมีเสื้อแจกว่า If it’s empirically true, Is it theoretically true คือถึงแม้ข้อมูลบอกอีกอย่าง เขาก็ยังเอาทฤษฎี

“แต่ว่าอันนี้เรามาดูด้านเชิงประจักษ์ วิธีที่จะรู้ว่าอะไรจริงไม่จริง คือ ทดลอง หรือ experiment จริง ๆ อันนี้ไม่ใช่ทดลองแต่เป็นสิ่งที่เราอยากได้มากที่สุด คือมี 2 ความเป็นจริง อันหนึ่งแจกแว่นตา แจกเสร็จวัดผลลัพธ์ว่าเกิดอะไรขึ้น ขณะเดียวกันมีมิติคู่ขนาน ไม่แจกอะไรเลยแล้วก็วัดผลลัพธ์ แล้วเอามาหาความแตกต่าง อันนี้เป็นอะไรที่เราอยากได้มากที่สุด แต่มันเป็นไปไม่ได้ มันอยู่แค่ในหนัง ยกเว้นคณะนี้จะทำเครื่องย้อนเวลาได้ก็อีกเรื่องหนึ่ง

แต่ทุกวันนี้เราทำได้ดีสุดแค่การทดลองภาคสนาม หรือ RCT แต่ถ้าน้องบอกว่าไปทำในบริษัทเขาจะเรียกว่าการทดสอบแบบหลายทางเลือก (A/B testing) คือมันจะเร็วกว่า แต่สาขาทางเศรษฐศาสตร์หรือทำนโยบายจริงๆ มันมีหลายครั้งมากที่เราทำ AB testing ไม่ได้หรือแม้กระทั่งทำ RCT ไม่ได้ เพราะมันมีเหตุผลทางจริยธรรม แต่ในการทำแบบนี้คือเราทำในแค่หนึ่งความเป็นจริง เราแจกแว่นตาให้คนกลุ่มทดลองแต่ไม่แจกให้กับกลุ่มควบคุมแล้วมาวัดผลกัน อันนี้มันไม่ดีเท่าเมื่อกี้ เพราะว่า 2 กลุ่มถึงจะสุ่มขึ้นมาในทางทฤษฎีมันควรจะใช้ได้ แต่มันยังไม่ใช่คนคนเดียวกันอยู่ดี อันนี้เป็นมาตรฐานในเศรษฐศาสตร์ประจักษ์นิยมน้องๆ วิทยาศาสตร์ข้อมูลคงไม่สนใจแนวนี้ เพราะวิธีวัดคือมาทำ T-test จบ ไม่มีงานของวิทยาศาสตร์ข้อมูล

“แต่อีกแบบน่าสนใจ คือใช้ข้อมูลที่เก็บมาอยู่แล้ว หรือ observational data ซึ่งที่เราต้องการทำคือจำลองให้ใกล้เคียงการทดลองที่สุด ทั้งๆ ที่มันไม่เคยมีการทดลองใดๆ เกิดขึ้น อันนี้คือสิ่งที่ผมบอกว่าเราพยายามจะเข้าใกล้สิ่งที่เป็นไปไม่ได้ คือมันเป็นไปไม่ได้ แต่เราพยายามเข้าใกล้มันที่สุด ซึ่งโจทย์นี้มันแตกต่างจากการทำนายหรือ prediction ในเชิงเทคนิคมันต่างกันจริงๆ อยู่แล้ว แต่ในแนวคิดผมว่ามันก็ต่าง ผมจะให้ดูตัวอย่าง 2 อันแล้วกันว่าการจำลองให้ใกล้การทดลองที่สุดโดยไม่มีการทดลอง”

เริ่มจากแจกแว่นตาก่อน แกน y คือคะแนนสอบตอบจบ แกน x คือคะแนนตอนแรกว่าเก่งแค่ไหน สมมติว่านโยบายแจกแว่นตามีจำนวนจำกัดนะ เงินมีไม่พอ คุณต้องสอบเข้ามาได้เกิน 50 คะแนน ให้เด็กที่ตั้งใจหน่อย ไม่เอาเด็กไม่เอาไหน ถ้าได้คะแนนเกินได้แว่นตา วิธีวัดคือสิ่งที่เรียกว่าการถดถอยแบบไม่ต่อเนื่อง (regression discontinuity) หัวใจของมันคือวันความแตกต่างระหว่างคนที่เกือบได้แว่นตาคนสุดท้ายกับคนที่ได้แว่นตาคนแรก ซึ่งตอนแรกมันจะฟังดูว่าอะไรง่ายแบบนี้ จริงๆ เทคนิคพวกนี้มันง่าย ไม่ต้องใช้พลังคำนวณอะไรเลย ที่ยากคือทำอย่างไรให้เราเชื่อว่ามันน่าจะใกล้ความจริงที่สุด เพราะความจริงที่อยากได้นั้นมันเป็นไปไม่ได้ นี่คือจุดที่ยาก จุดนี้ข้อสมมติคือ 2 คนนี้จริงๆ แล้วความสามารถเท่ากัน คนแรกที่ได้แว่นตาแค่เกิดได้คะแนนมา 51 คะแนนและอีกคนที่ไม่ได้แว่นตาได้มาแค่ 49 คะแนน หรือ 49.5 คะแนนก็ได้ แต่ปัญหาในโลกจริงมันจะเป็นแบบนี้ คือ พวกกลุ่มล่างไปได้ยินว่าบางคนได้แว่นตา ไปขอยืมเพื่อนมาใส่บ้างมันก็เปลี่ยน เทียบคน 2 คนไม่ได้แล้ว มันมีแบบนี้ในโลกจริง ดังนั้น นักเศรษฐมิติจะพยายามหาวิธีมาประมาณค่าให้ดีขึ้น ทั้งๆ ที่มันมีปัญหาแบบนี้เกิดขึ้นอยู่ อันนี้เป็นวิธีหนึ่ง

ตัวอย่างที่ 2 ที่ใช้มาก คนนอกสาขาอาจจะเคยได้ยินคือใช้ตัวแปร instrumental ตัวอย่างเดิมเลย คือคุณมีแว่นตา การมีแว่นตามันกระทบคะแนนสอบได้หลายอย่าง มองเห็นอาจจะเรียนได้ดีขึ้น ปัญหาของการวัดว่าคนที่มีแว่นตาแล้วคะแนนสอบเป็นอย่างไรคือมันมีปัจจัยอื่นมากระทบทั้งการมีแว่นตาและคะแนนสอบดี เช่น บ้านรวยหรือบ้านมีร้านตัดแว่น มันก็กระทบแล้ว มันวัดกันดื้อๆ แบบนี้ไม่ได้ ต้องใช้ตัวแปร instrumental ในที่นี้หมายถึงว่าบางทีรัฐบาลอาจจะมีแว่นตาจำกัด อาจจะไม่ตัดแบ่งแบบเมื่อกี้ แต่มาทำเป็นลอตเตอรี่ว่าจะได้แว่นตาหรือไม่ ซึ่งนักเศรษฐศาสตร์ทำอย่างไร เขาใช้ข้อเท็จจริงว่าคุณมีสิทธิได้แว่นตาจากล็อตเตอรี่แบบสุ่ม เอาหรือเปล่าไม่รู้ แต่ใช้ประโยชน์จากข้อมูลว่าโอกาสที่คุณจะได้แว่นตามากกว่าคนอื่นมาจากล็อตเตอรี่แบบสุ่ม เพราะฉะนั้นถ้าเราถอยกลับมาถึงโอกาสที่จะได้แว่นตามันสุ่มตอนแรก เพราะฉะนั้นตอนหลังการที่คุณได้แว่นตาและมาสอบดีขึ้น มันจะเป็นผลที่เราต้องการที่สุด

ทีนี้จากความเห็นของผมที่ได้ทำงานร่วมกับ นักเศรษฐศาสตร์และ data scientist คือทักษะและสิ่งที่สนใจของทั้ง 2 คน ตอนแรกผมคิดว่าต่างมาก คิดว่ามันจะอยู่ห่างกัน แต่พอยิ่งวาดยิ่งใส่อะไรลงไปมันแทบจะเป็นคนเดียวกัน ผมว่าในอีก 5 ปี นักเศรษฐศาสตร์จะกลายเป็นนักวิทยาศาสตร์ข้อมูลแล้ว แต่ก็ไม่แน่นะ นักวิทยาศาสตร์ข้อมูลอาจจะมีเครื่องมือใหม่ๆ ขึ้นไปอีกที่นักเศรษฐศาสตร์ตามไม่ทัน คือตอนนี้นักวิทยาศาสตร์ข้อมูลเป็นผู้นำและนักเศรษฐศาสตร์เป็นผู้ตามคือหยิบเครื่องมือมาใช้ สิ่งที่จำเป็นมากๆ ของทั้ง 2 ฟากคือทักษะคณิตศาสตร์ดี มีพื้นฐาน visualization ที่ดี ที่ขาดไม่ได้อีกคือสถิติ และ programming คือถ้าเป็นนักเศรษฐศาสตร์ที่ code ไม่ได้ ประโยชน์จะเริ่มน้อยลงแล้ว ที่ยังห่างๆ กันอยู่คือนักเศรษฐศาสตร์ยังต้องเขียนพิสูจน์คณิตศาสตร์อะไรเยอะมาก ซึ่งในโลกจริงไม่มีใครต้องการขนาดนั้น แต่ในโลกวิชาการต้องการสูงมาก ตีพิมพ์งานวิจัยแทบไม่ได้ถ้าทำทฤษฎีไม่ได้ แล้วสิ่งที่นักเศรษฐศาสตร์สนใจคือความเป็นเหตุเป็นผล (causality) คือ X ทำให้ Y เกิดขึ้นจริงหรือไม่ จริงแค่ไหน ไม่สนใจว่า X จะอธิบาย Y ได้มากแค่ไหน คือไม่สนใจ R-Squared ไม่สนใจความแม่นยำในการทำนายเลย อาจารย์ผมตีพิมพ์เปเปอร์ที่ดีที่สุดด้วย R-Squared แค่ 7% ดูแล้วค่ายอื่นเขาหัวเราะเยาะ ทำอะไรกัน แต่เราสนใจแค่ตัวแปรที่ออกมาแล้วแจกแว่นตาแล้วเด็กเก่งขึ้นเท่าไหร่ ไม่ได้สนใจว่าการแจกแว่นตาแล้วทำนายความเก่งแค่ไหน คนละโจทย์กันนะ มาฝั่งนักวิทยาศาสตร์ข้อมูลสนใจเรื่องการทำนายซึ่งไม่ได้มีข้อเสีย เป็นข้อดี ผมเห็นว่า 2 ค่ายนี้เวลามารวมกันจะเจ๋งมาก

ต้นทุนมลพิษทางอากาศกับการออกแบบนโยบายสุขภาพ

ดร.ณภัทรกล่าวถึงกรณีแรกศึกษาเรื่องมลพิษทางอากาศและสุขภาพ เป็นเรื่องเศรษฐศาสตร์สุขภาพ ผมเริ่มสนใจเรื่อง PM 2.5 โดยผมได้เขียนบทความนโยบายรถคันแรกไปแล้ว ไม่มีใครสนใจเลย เพราะตอนนั้นมันยังไม่แย่ พอมาดูดัชนีคุณภาพอากาศ (air quality index หรือ AQI) ตอนนี้เราหายใจอะไรก็ไม่รู้ ตอนนั้นผมไม่เคยสนใจหัวข้อนี้ พอดีไปทำวิจัยที่ฮาร์วาร์ดกับอาจารย์ชื่อโจเซฟ อัลดี (Joseph Aldy) เป็นนักเศรษฐศาสตร์ทางด้านนี้พอดี และเป็นนักเศรษฐศาสตร์ในทำเนียบขาวช่วงที่ทำเนียบขาวยังสนใจเรื่องสิ่งแวดล้อม ช่วงนั้นเป็นขาขึ้นเลยสำหรับนักเศรษฐศาสตร์สิ่งแวดล้อม แต่พอช่วงนี้ตำแหน่งก็ว่างเยอะ

คำถามสำคัญ อะไรคือจุดที่เหมาะสมของมลพิษทางอากาศ คำถามนี้ผมมองแล้วปกติมากเลย แต่ถ้าไปถามคนอื่นทั่วไป เขาจะทำหน้าแบบทำไมมันถึงจะต้องมีจุดที่เหมาะสมอะไร มันเป็นสิ่งที่แย่ไม่ใช่หรือ นักเศรษฐศาสตร์มองแบบนี้ คือ เคยเห็นเส้นอุปสงค์อุปทานตัดกันแล้วตรงกลางมีจุดสมดุล อารมณ์มันแบบนั้น คือไม่มากและไม่น้อยเกินไป เราต้องการหาจุดที่มันสมดุลสุดๆ สำหรับสังคม แปลว่าอะไร ทำไมเราถึงสนใจเรื่องจุดสมดุล ผมพูดถึงเรื่องนี้เพราะอยากให้น้องๆ เข้าใจถึงมุมมองของนักเศรษฐศาสตร์เผื่ออนาคตจะได้ร่วมงานกัน พวกผมคิดแบบนี้ว่าถ้ามันมีมลพิษน้อยมันดีอยู่แล้ว สิ่งแวดล้อมมันดีขึ้น ไม่มีหมอกควัน ยังเห็นพระอาทิตย์ตกอยู่ไม่เหมือนเมืองจีน สิ่งแวดล้อมยั่งยืนขึ้น มีความหลากหลายทางชีวภาพ พวกสัตว์ป่า อะไรเหล่านี้

แต่ขณะเดียวกัน เวลาเรากำกับดูแลไม่ให้โรงงานพ่นอะไรออกมาเยอะๆ มันก็มีต้นทุนเหมือนกัน เช่น ต้นทุนของการผลิตสินค้าก็โดนกระทบ การเปลี่ยนรูปแบบพลังงานพูดง่ายทำยาก ไปบอกให้เปลี่ยนเป็นพลังงานขาวสะอาดให้หมดทันที มันไม่ง่ายแบบนั้น มันยาก แล้วบางทีเปลี่ยนไปแล้ว กำลังการผลิตพลังงานใหม่สร้างไม่พอสำหรับประเทศ มันต้องมาคำนึงเหมือนกันว่าทำได้แค่ไหน เพราะฉะนั้นเราจึงต้องหาตรงกลางเป็นจุดที่พอเหมาะสำหรับทรัพยากรที่มีอยู่ตอนนี้

จะทำอย่างไรที่จะหาจุดนั้น กระบวนการแรกเราต้องหาต้นทุนและประโยชน์ของนโยบายให้ได้ก่อน แม่นยำด้วย ทุกคนรู้ว่ามันไม่มีทางแม่นได้ 100% หรอก โลกมันซับซ้อนยุ่งยาก แต่เราพยายามทำให้ดีที่สุดให้ได้ต้นทุนและประโยชน์ที่ถูกต้อง มีงานวิจัยทีได้รับการอ้างอิงถึงเยอะ ทำการวิเคราะห์การถดถอย (regression analysis) ธรรมดา ผลออกมาว่าชาวอเมริกันประมาณ 200,000 คนต่อปีตายเพราะ PM2.5 แล้วนึกดูว่าระดับ PM2.5 ของเขาขนาดไหน ต่ำมาก แทบทุกวันมันแบบโอเค เขียวเลยบางวันเหลืองยัง 200,000 คน คือมันไม่ได้หายใจเข้าไปแล้วตายเลย แต่มีข้อมูลจากโรงพยาบาลว่าโรคไหนเกี่ยวข้องกับ PM2.5 ไม่น้อย

แต่อันนี้เขาทำจนเบื่อแล้วว่ามลพิษทางอากาศทำให้คนตายเท่าไหร่ ตอนนี้เขาไปต่อไปดูว่ามลพิษทางอากาศทำให้คนทำงานมีประสิทธิภาพลดลงด้วยหรือเปล่า หรือเป็นด็กสูดเข้าไปสอบได้คะแนนน้อยลงหรือเปล่า เขาไปถึงอีกจุดหนึ่งแล้ว เขาใช้ข้อมูลจาก call center ในเมืองจีน ดูว่าวันที่อากาศแย่ผลิตภาพการทำงานตกแค่ไหน ถ้าอากาศดีเทียบกับอากาศแย่ ผลิตภาพเพิ่มขึ้นตั้ง 6% อันนี้เป็นการประมาณการณ์ต้นทุน คือประโยชน์ของการมีมลพิษทางอากาศมันไม่ยากเท่าไหร่เพราะคำนวณเป็นเงินเอาว่าโรงงานนี้กระทบอะไรเท่าไหร่

แต่อันดับแรกที่จะได้พวกนี้มา ต้องเริ่มที่ข้อมูลก่อน เป็นจุดที่นักวิทยาศาสตร์ข้อมูลเข้ามาเล่นแล้ว เพราะว่าในสหรัฐอเมริกาเยอะมาก มองจากแผนที่ลงไปมีสถานีแทบมองไม่ออก ข้อมูลมันเก็บตลอดแล้วรวมออกมาทุกชั่วโมง ข้อมูลเยอะมาก แล้วข้อมูลขนาดใหญ่ต้องมี API ไปดึง ตอนนั้นผมก็งงไม่รู้จัก API คืออะไรไม่รู้ ไปเป็นผู้ช่วยวิจัยอาจารย์บอกให้ทำ ก็กูเกิลหา API คืออะไร ก็พยายามดั้นด้นไป เขียน Python เป็นนักเศรษฐศาสตร์ไม่เคยเรียน Python ก็หาเพื่อนที่ทำเป็นสอน กดๆ ไปก็ใช้ได้ เอามาทำวิจัย ที่ผมเรียนว่า computing ทำอย่างไร

ทีนี้ข้อมูลเยอะไม่พอ ข้อมูลสกปรก สกปรกแบบแยบยลด้วย แย่กว่าสกปรกแบบเห็น มันจะมีแบบเห็นเลยว่าข้อมูลผิดแน่ๆ แต่อันนี้ถ้าไม่ตั้งใจทำจะไม่รู้นะ ผมไปเจอว่ามันมีบางปีเวลาพลอตออกมามันใช้วิธีคำนวณคนละแบบกัน ดูด้วยตาก็รู้แล้วว่ามันไม่เหมือนกัน แบบนี้ในฐานะนักวิจัยจะทำอย่างไรกับมัน อะไรแบบนี้ถ้าไม่สนใจระวังก็จะผ่านไป แล้วต้นทุนที่ออกมาก็จะมั่ว คือมันมียากจุดนี้ด้วย ยากกว่านี้คือการทำวิจัยมลพิษอากาศมันมีทั้งข้อมูลลม ทิศทางลม มีเมฆมาปิดตอนกี่โมง เพราะอย่างโอโซนพอมีแดดมันก็ขึ้น เวลาฝนตกลงมา PM2.5 ก็ไม่ค่อยมีผลลงไปที่พื้น พอฝนแห้งรถวิ่งมาขึ้นมาใหม่ มันมีตัวแปรเยอะ มีข้อมูลลมที่หาคนทำยากมาก เพราะไม่ค่อยมีคนทำ แต่ว่าสำคัญมากว่าเราอยู่ตรงไหนของลม อันนี้คือแค่เก็บข้อมูลให้ถูกต้อง

แล้วจะประมาณค่าต้นทุนกับประโยชน์อย่างไร อันนี้สำคัญเพราะว่ามันผิดจริยธรรมที่จะให้คนกลุ่มหนึ่งไปรับ PM2.5 แล้วอีกกลุ่มสุ่มให้ไม่โดน คือมันทำไม่ได้ แต่มันเคยเกิดขึ้นโดยประหลาดๆ นิดหนึ่งในแคลิฟอร์เนีย เป็นเหมือนสถานรับเลี้ยงเด็กกำพร้า คือเขาติดเครื่องวัดไว้แล้วสุ่มเด็กให้ไปอยู่ด้านไหนของสถานเลี้ยงเด็กกำพร้า แล้วบางด้านมันไปติดทางด่วนเพราะฉะนั้นค่ามันก็สูงขึ้น เขาก็เลยมาศึกษาแล้วเจอว่ามันทำให้ปอดของเด็กห่วยลงถ้าโดนมลพิษพวกนี้ตอนเด็ก แต่ว่าในโลกจริงในสมัยนี้แทบจะไม่เป็นไม่ได้แล้วที่จะไปทดลอง

แล้วจะทำอย่างไร? เพราะมันมีตัวแปรรบกวน มี confounder ว่าอยู่ในที่หนึ่งอาจจะรวยกว่าหรือคนที่โดนเต็มคือคนจนหรือในสหรัฐอเมริกาคือคนผิวสี ซึ่งมันแย่ คือเขาฐานะก็แย่อยู่แล้วยังจะโดนมลพิษอีก มันก็ยิ่งไปกันใหญ่ มันก็มีการศึกษาหลายอันใช้วิธีที่สร้างสรรค์มาก เขาใช้ความล่าช้าของสนามบิน มันเกี่ยวอะไร มันเกี่ยวเพราะว่าเรื่องที่เขากังวลคือว่าถ้าเกิดมันตัวแปรอย่างมีรายได้สูงต่ำเข้ามาเป็นตัวแปรรบกวน พอหาว่า PM2.5 ขึ้นแล้วคนป่วยเยอะขึ้นจริงไหม มันอาจจะไม่เที่ยง ทีนี้เขาต้องไปหาอะไรที่ทำให้ระดับมลพิษเปลี่ยนโดยที่ไม่เกี่ยวกับตัวแปรรบกวนอื่นเลยในท้องที่นั้น ตัวแปรความล่าช้าของสนามบินใช้ได้ดีที่สุดเลย เพราะเวลามันล่าช้าเครื่องบินมันก็ต้องจอดเยอะ มันก็จะต้องรอขึ้นบินนาน มันก็สร้างมลพิษเต็มไปหมดเลยในท้องที่นั้น แต่เขาเอาความล่าช้าของสนามบินที่เกิดขึ้นจากความหนาแน่นของเที่ยวบินในสนามบินอื่น เพราะฉะนั้น ที่ล่าช้ามันไม่เกี่ยวกับท้องที่นี้แน่นอน แต่มันดันทำให้ PM2.5 ขึ้นแถวสนามบินในเมืองเรา เขาต้องสร้างสรรค์ที่จะหาตัวแปรมาใช้

อีกอันที่ผมใช้เขียนในดุษฎีนิพนธ์คือผมไปหาดูว่ามันมีแหล่งปล่อยมลพิษอย่างโรงงานหรือสนามบินที่อยู่ๆ มันก็ปิด พอมันปิดไปเห็นจากข้อมูลเลยว่ามลพิษลดลง อันนี้ก็ใช้ได้ อีกอันที่เจ๋งที่สุดคือ thermal inversion คือผมไม่ใช่วิศวกรไม่ใช่นักวิทยาศาสตร์ผมไม่รู้ละเอียดว่ามันคืออะไร แต่รู้เล็กๆ ว่ามันเหมือนกับว่าจะมีบางทีที่ชั้นบรรยากาศมันสลับกัน ความร้อนกับความเย็นกับความสูง แล้วทำให้มลพิษมันถูกกักอยู่ข้างล่างและวนอยู่ตรงนั้น มันก็ทำให้บางวันอยู่ดีๆ มันมีมลพิษเยอะผิดปกติ เขาก็ใช้อันนี้ช่วยประมาณค่าต้นทุนออกมาให้ถูกต้อง

เสร็จแล้วต้องทำอย่างไร นักเศรษฐศาสตร์ทุกอย่างต้องเปลี่ยนเป็นเงิน ทุกอย่างมีราคาหมด เปลี่ยนอย่างไร? คือมันมีมูลค่าชีวิตเชิงสถิติ อันนี้หลายคนที่ไม่ได้อยู่ในสาขาเศรษฐศาสตร์จะคิดว่าทำแบบนี้ได้อย่างไร ไปแปะป้ายราคาบนหัวคน แต่จะทำอย่างไรถ้าไม่ใช้แบบนี้ เพราะว่าเมื่อกี้ที่เราทำทั้งหมด เราทำดูว่ามันทำให้คนตายเท่าไหร่ เราเลยต้องแปะราคา มันมีหลายวิธีซึ่งคงไม่ลงรายละเอียด แต่หลักๆ มันมีวิธีดูว่าคุณมีทางเลือกของชีวิตอย่างไร แล้วหาว่าถ้าคุณทำให้ตัวเองเสี่ยงชีวิตขึ้นจะต้องแลกกับเงินจำนวนเท่าไหร่ แล้วตีมาเป็นมูลค่าของคนโดยเฉลี่ย จะเห็นว่าแต่ละประเทศไม่เท่ากัน สหรัฐอเมริกาเฉลี่ยอยู่ประมาณ 4-9 ล้านดอลลาร์สหรัฐต่อคน ของไทยอยู่ประมาณ 1 ล้านกว่า มีเล็กกว่านี้อีกพวกเคนยาหลัก 10,000 ดอลลาร์สหรัฐ ซึ่งในนั้นข้อมูลมันจะห่วยหน่อยแต่น่าสนใจ อย่างในสหรัฐอเมริกาเขาประมาณค่าจากว่าถ้าคุณไปทำอาชีพที่เสี่ยงต่อชีวิต อย่างที่ไปจับปูในอลาสกา คือเสี่ยงมากแต่ได้ผลตอบแทนดี เขามาดูว่าคนเรายอมแลกเงินกับความเสี่ยงที่จะตายเท่าไหร่ หรือในเคนยาที่ไม่มีแบบนี้เขาก็ดูว่าคนยอมเดินไปบ่อน้ำที่สะอาดให้ไกลขึ้น มันต้องแลกกับเงินจำนวนเท่าไหร่ มันก็หาราคาของชีวิตออกมาได้

พอได้ราคาของชีวิตเราก็ได้ต้นทุนจริงแล้วของการปล่อยมลพิษ เสร็จแล้วก็ออกมาเป็นตารางนโยบายว่าในช่วง 1 ชั่วโมง 8 ชั่วโมง ในพื้นที่นี้ห้ามมีการปล่อยมลพิษเกินเท่านี้นะ ไม่เช่นนั้นผิดกฎ เป็นที่มาว่าทำไมมันถึงมีออกมาว่าห้ามเกินเท่าไหร่ คือมันมีที่มา กฎหมายหลายอันในสหรัฐอเมริกามันมีที่มา หลายอันก็ไม่มี แต่อันนี้เป็นหนึ่งที่มาว่าทำไมห้ามเกิน 15.5 ทำไมไม่เป็น 16 ไม่เป็น 20 มันมีที่มาแล้วว่าเราหาจุดที่สมดุลที่สุดแล้วนะ เพราะจริงๆ ในอุดมคติคือให้เป็นศูนย์แต่มันเป็นไปไม่ได้ตอนนี้ กรณีศึกษานี้เราจะเห็นทั้งกระบวนการไปแล้วว่านโยบายจะออกมาได้ แต่จริงๆ การปฏิบัติในชีวิตจริงไม่ได้เป็นแบบนี้หรอก แต่ผมว่าเราเน้นไปที่แนวคิดก่อน คนอาจจะเห็นต่างกับผมได้ แต่ผมคิดว่าวิธีนี้น่าจะเป็นวิธีที่สมเหตุสมผลขึ้น โดยเฉพาะเรามีข้อมูล เรามีมันสมองมากขึ้น ไม่ใช่เถียงกันอย่างไร้หลักฐานข้อมูล

วิเคราะห์ใบสมัครงานหาครูเก่ง – ดันคะแนนสูงกว่าทุกนโยบาย

กรณีศึกษาที่ 2 เป็นโครงการที่ทำกับอาจารย์ที่เป็นคณะกรรมการของผม เขาทำด้านเศรษฐศาสตร์แรงงาน เรื่องการวิเคราะห์ทรัพยากรบุคคล (HR analytics) อย่างที่ผมบอกมันฟังดูน่าเบื่อ แต่จริงๆ มันมีค่ามากเลย ผมจะแสดงให้ดูว่าทำไม จริงๆ เป็นบริบทของการศึกษา อย่างเมื่อกี้นี้เป็นบริบทเรื่องสุขภาพกับสิ่งแวดล้อม ทีนี้เรื่องนี้มี 2 คำถาม

อันแรกถามว่าใครเคยเจอครูบางคนที่สอนไม่ค่อยเก่งไหมครับ ปัญหานี้หนักมากแทบจะทุกที่ คือ เขตการศึกษา จะโรงเรียนหรือมหาวิทยาลัย จะรู้ได้อย่างไรว่าเราจ้างคนนี้มาแล้วเขาจะเก่ง? โดยเฉพาะตลาดครูในภาษาเศรษฐศาสตร์คือมันบางมาก คือพอจ้างผิดคน สอนไปได้ 3-4 คาบแล้วนักเรียนบอกไม่ไหวเลยคนนี้ พอจะไปไล่ออกแต่เพราะตลาดมันบาง คนอื่นไปหางานกันหมดแล้วไม่มีใครให้จ้าง ก็ต้องทนกับคนนี้ไปเรื่อยๆ จนจบเทอม ซึ่งมันเป็นปัญหามาก หรือคนที่เก่งมากดันไม่อยู่ทน อยู่ปีเดียวไปแล้ว ต้นทุนของการจ้างมันสูงมาก โจทย์แรก เราจะทำนายจากประวัติได้อย่างไรว่าใครจะเก่ง ไม่เก่ง โจทย์ที่ 2 เป็นวิทยานิพนธ์ผม คือเราจะต้องให้โบนัสครูเก่งๆ ที่อยู่ในโรงเรียนอื่นมากแค่ไหน เขาถึงจะยอมย้ายมาโรงเรียนอีกแห่งที่ไม่มีใครอยากมาสอน อาจจะเป็นที่ทุรกันดาร โบนัสมันต้องใหญ่ประมาณไหนโดยไม่ต้องบังคับ แล้วในสหรัฐอเมริกาเขาไม่มีการบังคับ มันไม่ได้รวมศูนย์ คือ ถ้าจะไปต้องยินยอมไปด้วยตัวเอง เขาเลยคิดว่าต้องทำแรงจูงใจดึงให้คนมา แต่เราจะเริ่มจากโจทย์แรกก่อน เพราะผิดคิดว่าจะมาในไม่ช้า ในตอนอยู่ปี 2 ปี 3 ตอนจบอาจจะมีแบบนี้หรือมันมีแล้วก็ไม่รู้

ทำไมควรตอบคำถามแรก? อันนี้น่าวิตกมาก จากฝั่งสหรัฐอเมริกาคือเขาพบว่าการจ้างคครูมันแทบไม่ต่างจากการจ้างแบบสุ่มๆ เลย คือเหมือนกับว่ามันไม่มีความสัมพันธ์ว่าคนที่จ้างมากับที่ไม่จ้างมาจะมีผลกับคะแนนที่ออกมาของเด็กมากน้อยแค่ไหน คือมีปัญหา แล้วอย่างที่ 2 ที่บอกไปคือมันมีต้นทุนสูงในการไล่ครูออก อย่างที่ 3 คือข้อมูลประวัติครูที่สมัครมันมีอยู่แล้ว ผลประเมินครูในบางรัฐประเมินกันสุดๆ มีตั้ง 5 แบบ เช่น เด็กคิดว่าครูเป็นอย่างไร เด็กคะแนนเป็นอย่างไร ทำไมจะไม่ทำ มีข้อมูล มีวิทยาศาสตร์ข้อมูล มีอะไร

ทำอย่างไร ในอดีตนักเศรษฐศาสตร์ก็ทำการวิเคราะห์การถดถอยง่ายๆ แต่ว่าทุกวันนี้เหมือนกับว่าเราเป็นหุ้นส่วนกับวิทยาศาสตร์ข้อมูลคนหนึ่งที่เก่งเรื่องการประมวลภาษาธรรมชาติ (natural language processing หรือ NLP) ถามว่าทำไม ทำเพื่อสร้างตัวแปรเพื่อทำนายขึ้นมาใหม่ อันแรกคือสาเหตุที่ออกจากงานเก่า ซึ่งสำคัญอยู่แล้ว ปัญหาเลยคือข้อมูลมันเป็นตัวหนังสือ มันเป็นก้อนๆ ซึ่งนักเศรษฐศาสตร์สมัยนั้นไม่มีใครเขียนโปรแกรมเก่ง ไม่มีใครรู้จัก NLP ก็ไม่มีใครทำ น่าเสียดาย แต่ทุกวันนี้เราใช้ได้ แยกแยะเลยว่าคนพวกนี้ออกเพราะเหตุผลอะไร แล้วสร้างขึ้นมาเป็น 3 ตัวแปรใหม่ คือ ไม่ชอบงานเก่า ออกเพราะตามหาฝัน และไม่ได้ต้องการออกเอง

ส่วนตัวแปรที่ 2 น่าสนใจคือเราอยากได้ตัวแปรหนึ่งที่บอกว่าความสามารถที่ใช้ในงานเก่ากับความสามารถที่ใช้ในงานใหม่มันใกล้กันแค่ไหน เพราะว่าทุกวันนี้มันงงมากว่างานทุกวันนี้แต่ละงานมันใกล้แค่ไหน วิธีทำคือเวลาไปสมัครงานจะมีให้บอกว่าเราทำอะไรมา เสร็จแล้วมันก็ไปกองอยู่ในห้องไม่มีใครอ่านอีกเลย แต่ว่าในอนาคตจะมีคนอ่าน พออ่านแล้วมาทำ NLP แบ่งเลยว่ามันน่าจะมีอาชีพประมาณไหน เสร็จแล้วเราก็มาเทียบกับกองข้อมูลข้างนอกว่าอาชีพประมาณนี้ต้องมีทักษะอะไรบ้าง แล้วเอามาหาระยะห่างระหว่างงาน อย่างเช่นเราเจอว่าคนที่เป็นพี่เลี้ยงมาก่อน เคยอยู่กับเด็กมาก่อน คนที่เคยทำงานเกี่ยวกับการพูดในที่สาธารณะมาก่อนจะมีทักษะที่ใกล้กับอาชีพครู เราใช้อันนี้มาทำนาย

ผลวิจัยที่เราเจอเป็นว่าออกมาตามหาฝันดี อยู่ทน เก่ง แต่ออกเพราะไม่ชอบงานเก่ากลับอยู่ไม่ทนและไม่เก่งด้วย ซึ่งอันนี้มันขัดกับสามัญสำนึกผมนะ ตอนแรกคิดว่าคนที่ออกเพราะไม่พอใจจะเป็นคนที่มีทัศนคติแบบเติบโต (growth mindset) อะไรแบบนี้ แต่ข้อมูลบอกมาว่าไม่ใช่ อาจจะมีเรื่องทัศนคติ แล้วยิ่งระยะหางของทักษะยิ่งต่ำยิ่งอยู่ทนยิ่งเก่ง ก็เข้าใจได้ สุดท้ายเรามาดูว่าครูที่แบบจำลองเราแนะนำได้ผลประเมินสูงกว่าที่แบบจำลองไม่แนะนำถึง 0.29 ของส่วนเบี่ยงเบนมาตรฐาน ฟังดูเล็กมาก แต่จริงๆ มันใหญ่มาก คือถ้าไปดูการศึกษานโยบายการศึกษาในสหรัฐอเมริกาที่ใหญ่โตแค่ไหน เพิ่มอย่างมากก็ 0.1 ของส่วนเบี่ยงเบนมาตรฐาน เพราะฉะนั้นถ้าทำอันนี้ได้มันสุดๆ แล้ว

ข้อเสียอย่างเดียวของการทำแบบนี้คือมันไม่ควรให้คนรู้สูตร เพราะว่าถ้าคนรู้สูตร เขาก็บอกสิว่าเขาออกมาตามหาฝัน ไม่ใช่โดนไล่ออกมา มันจะได้คะแนนสูงขึ้น มันจะเป็นปัญหาที่คุยกันยาวเรื่องทำแบบจำลองว่าใครควรจะอยู่ใครควรจะไป แล้วมันไปสร้างพฤติกรรมที่จะโกงอย่างไรบ้าง

ดังนั้น คำเตือนอีกอย่างที่เป็นความเห็นส่วนตัวคือมันจะมีบางทีเป็นสถานการณ์ที่มีผลกระทบสูง เช่น การจ้างงาน หรือการตัดสินว่าใครควรจะเข้าคุก เดี๋ยวเราจะคุยกันเป็นตัวอย่างสุดท้าย ใครควรจะฝากขัง มันเป็นอะไรที่มีผลกระทบมากๆ ถ้าโปรแกรมไม่ได้แม่นยำสูงมากๆ ควรจะทำอย่างอื่นแทน อีกอย่างที่บอกไปคือให้ระวังพฤติกรรมที่จะโกงตามแบบจำลอง เวลาที่เราทำแบบจำลองเดี๋ยวนี้มันง่าย อย่าง Python ดูง่ายจังเลย ผมงง สมัยก่อนผม code ใน Stata ที่นักเศรษฐศาสตร์ใช้ เขียนไปเป็นหน้ากว่าจะทำอย่างหนึ่งที่ Python ทำได้ด้วยภายใน 1 ย่อหน้า พอมันง่ายมันมีก็มีแนวโน้มที่เราจะใช้มันแบบมากเกินไป บางทีเราอาจจะโดนเล่นงานแทน

ส่วนที่ 3 คือ อย่าลืมทฤษฎีกับข้อมูลเชิงคุณภาพ ผมว่ามันเป็นอะไรที่สุดยอดเลย เพราะเดี๋ยวนี้หลายคนเน้น API ดึงข้อมูลมาแล้วสร้างนั่นนี่ แต่ผมจะเล่าตัวอย่างให้คือมันมีอีกโครงการที่พูดถึงว่าควรจะจ่ายเงินครูแค่ไหนดึงดูดมาโรงเรียนแย่ อันนั้นเราทำทั้งหมดโดยไม่มีข้อมูลเชิงคุณภาพรอบหนึ่งนะ ไม่ได้สัมภาษณ์ใครเลย แบบจำลองออกมาแบบหนึ่ง แต่พอลองคุยกับครูใหญ่ว่าปกติจะดูอะไรบ้างในการจ้างครู เขาบอกทุกคนครับ 18 จาก 19 คน เขาดูว่าครูย้ายโรงเรียนบ่อยแค่ไหน เขาไม่ชอบครูที่ย้ายไปย้ายมา คือเพราะมันเป็นอาชีพที่ควรต้องทุ่มเท ต้องอยู่อย่างต่ำ 2-3 ปี เราเลยไปสร้างตัวแปรมาจับพฤติกรรมนี้ ปรากฏว่าพลังการทำนายมันสูงขึ้นมาก มันอธิบายอะไรได้เยอะมาก ถ้าผมไม่ยกหูโทรไปผมไม่มีตัวแปรนี้ ซึ่งผมอยากเน้นว่าถ้าจะทำวิจัยอย่ามองข้ามข้อมูลคุณภาพ โดยเฉพาะถ้ามีเพื่อนเรียนสาขาอื่น เช่น มานุษยวิทยา พวกนี้เป็นแหล่งข้อมูลที่ดีมาก เพราะเขาคิดคนละมุมกับผม เขาจะคิดว่าต้องไปอยู่กับชนเผ่าเลยเพื่อเข้าใจชนกลุ่มน้อยว่าเขาคิดอย่างไร มันทำให้แบบจำลองเราดีขึ้น

ตัดสวัสดิการคนคุก เพิ่มการทำผิดซ้ำ

กรณีที่ 3 เป็นงานวิจัยของเพื่อนชื่อ Cody ที่ Harvard Kennedy School คนนี้มีพื้นฐานโปรแกรมมิ่งเยอะมาก ตอนนี้เปเปอร์นี้จะได้ตีพิมพ์แล้วในวารสารท็อปเท็นของเศรษฐศาสตร์ ยังไม่จบปริญญาเอกเลย เก่งมาก ผมเป็นเกียรติได้พูดเรื่องนี้เพราะเขาก็ไม่ค่อยแชร์ให้คนอื่น เรื่องนี้คือคำถามว่าถ้าอดอยากแล้วจะกลับมาติดคุกอีกหรือไม่ คือข้อเท็จจริงในสหรัฐอเมริกาค้ายาเป็นปัญหาที่หนักมาก จริงๆ ทุกประเทศ ประเทศไทยก็เป็น แต่ที่อเมริกาเก็บข้อมูลดีมาก เริ่มต้นเขาเจอว่าเกินครึ่งหนึ่งของนักโทษที่ถูกปล่อยออกมาจากเรือนจำภายใน 5 ปีจะกลับเข้าไปใหม่ ซึ่งมันแย่มากทั้งตัวเขาเองทั้งสังคม เพราะคุกสหรัฐอเมริกามันแพงมากในการดำเนินงาน ยิ่งแปรรูปเป็นเอกชนแล้วยิ่งเป็นธุรกิจใหญ่ นึกถึง Walmart หรือ Amazon แต่เป็นคุก คือมันกลายเป็นอะไรที่สุดๆ

มาที่ข้อเท็จจริงแรกคือชีวิตมันหนักมากที่จะกลายเป็นคนคุกเป็นคนค้ายา คือต้องย้อนไปข้อเท็จจริงศูนย์ก่อนคือคนที่ได้รับผลกระทบจากยาเสพติดก็แย่เหมือนกันแน่นอน แต่ข้อเท็จจริงแรกอันนี้เป็นอะไรที่หลายคนไม่รู้ ชีวิตมันเน่าเลยด้วยหลายเหตุผล อันแรก คือ ออกมาจากคุกประมาณครึ่งหนึ่งภายใน 1 ปีจะหางานไม่ได้ แล้วมีคนวิจัยว่าถ้าเคยติดคุกแล้วไปสัมภาษณ์งานโอกาสที่จะได้แค่สัมภาษณ์ก็ตกลงแล้วครึ่งหนึ่ง ก็ไม่น่าแปลกใจ ฝ่ายทรัพยากรบุคคลคงจะถามเยอะว่าเคยมีประวัติอะไรหรือไม่ แถมถ้าคุณจะไปสมัครงานบางอาชีพ มันจะมีบางอาชีพที่ถ้าคุณเคยค้ายา คุณอด ไม่ว่าจะอย่างไร ถึงแม้จะสอบได้ 100 เต็ม เพราะถือว่าคนที่จะทำงานนั้นต้องมีจริยธรรมมีอะไร งานก็จำกัด แล้วที่อยู่ก็จำกัดอยู่ได้แค่บางพื้นที่เท่านั้น คือชีวิตก็เริ่มเน่าขึ้นเรื่อยๆ

แค่นั้นยังไม่พอ ยังมีอีกเรื่องที่เป็นหัวข้อของงานวิจัยนี้ คือมันจะมีโปรแกรมที่ให้บัตรเดบิตกับคนฐานะแย่หน่อย เรียกว่าโครงการ Supplemental Nutrition Assistance Program หรือ SNAP ให้ไปซื้อสินค้าอุปโภคบริโภคได้ฟรี ซึ่งหลังปี 1996 คนที่มีประวัติว่าเคยค้ายาถูกยกเลิกสิทธินี้ตลอดไปซ้ำเข้าไปอีกดอกหนึ่ง ซึ่งเงินที่ได้จากตรงนี้มันคือ 20% ของรายได้ของเขา มันใหญ่มาก ก็เลยมาสู่ข้อเท็จจริงที่ 2 ว่าคนที่โดนกระทบขนาดนี้ หางานก็ไม่ได้ ก็ต้องกลับไปทำผิดกฎหมายอีก เข้าคุกอีกรอบ สำหรับสังคมคืออะไร มันคือว่าบทลงโทษที่เราคิดว่าจะได้ผล ทั้งหมดนี้มันคือเหมือนกับว่าป้ายโฆษณาว่าถ้าคุณค้ายานะ โดนโทษนะ แต่บทลงโทษมันไม่ได้ผล ทำไป กลายเป็นเข้าออกเรือนจำเป็นวงจร สังคมยังแย่อยู่ดี

ทีนี้จะทำอย่างไร ก็มีวุฒิสมาชิกคนหนึ่งยังเสนอว่าถ้าเราจริงจังกับการค้ายา เราไม่ควรให้สวัสดิการกับคนค้ายาเลย แล้วมันก็ผ่านออกมาเป็นกฎหมาย แต่สิ่งที่เกิดขึ้นคือมันแบ่งเป็นช่วงเวลา ถ้าคุณค้ายาและติดคุกก่อนวันที่กำหนดคุณยังใช้บัตรนี้ได้ แต่ถ้าติดคุกหลังจากนั้นจะไม่ได้บัตรแล้ว ทีนี้มันก็ต้องมาชั่งประโยชน์จากการที่เราทำนโยบายนี้คืออะไร มันประหยัดเงินรัฐ ไม่ต้องไปนั่งให้เงินคนที่ไม่ควรได้ จูงใจให้ประพฤติดีแต่แรก ให้ไปหางานทำซะ โทษคือคนพวกนี้อาจจะเดินกลับไปทำผิดอีก เพราะเงินไม่พอ หางานได้จำกัด อยู่ก็จำกัด รายได้ไม่พออาจจะก่ออาชญากรรมอีกรอบ เพิ่มต้นทุนการบริหารเรือนจำ วิธีที่ใช้ศึกษาเหมือนกับแจกแว่นตาเลยแค่เปลี่ยนบริบท ผลที่ออกมาจะเห็นได้ชัดเลยว่าพอกฎหมายผ่าน โอกาสที่คนเราจะกลับไปติดคุกอีกรอบสูงขึ้นประมาณ 9% แค่เพราะว่าไม่ได้บัตรอาหาร ฟังดูน้อย แต่มันเยอะมาก คูณดูว่ามีนักโทษกี่คน อันนี้แค่รัฐฟลอริดา ยังมีรัฐอื่นอีก แล้วเขาไปดูอีกว่าที่กลับไปติดคุกอีกรอบเป็นเพราะอะไร ผลคือมันน่าจะเป็นเรื่องเงินไม่พอและต้องไปก่ออาชญากรรมเพื่อเลี้ยงตัวเองและติดคุกอีกรอบ

แต่มันก็มีข้อสมมติอยู่ 2 ประการที่สำคัญในผลนี้ ประการแรก คือ ผู้เคยต้องโทษทั้งก่อนและหลังควรจะคล้ายๆ กัน เหมือนตัวอย่างแรกเรื่องแว่นตาว่าคนที่สอบได้ 49 กับสอบได้ 51 ไม่น่าจะต่างกันขนาดนั้น เปรียบเทียบได้ ส่วนข้อสมมติที่ 2 คือ ดูว่าความหนาแน่นของนักโทษที่มีทั้งก่อนและหลังต้องไม่แปลก อันแรกเขาก็ไปดูความเสี่ยงของคนด้านซ้ายกับขวาที่จะติดคุกอีกรอบก็พอๆ กัน ไม่แตกต่างกัน แปลว่าคน 2 กลุ่มนี้มีโอกาสจะติดคุกอีกรอบพอๆ กัน เพราะฉะนั้นน่าจะโอเค อีกอันคือจำนวนคนที่อยู่ก่อนและหลังไม่แตกต่างกันมาก ซึ่งมันก็ไม่ต่างกันมาก

ถามว่าทำไมต้องดูอันนี้ อันนี้ตลก คือมันมีนโยบายการศึกษาที่คนทำวิจัยด้วยวิธีนี้เยอะแล้ว ถ้าไม่ดูอันนี้จะผิด เพราะว่าบางทีมันจะมีกฎที่รัฐบาลตั้งตรงจุดตัด เช่น ห้องนี้มีนักเรียนเกิน 48 คน จะให้ครูเพิ่มอีกคน อะไรประมาณนี้ มันก็จะเห็นเลยว่าบางทีมันจะมีพ่อแม่ที่อยากให้ได้ดีที่สุดก็จะเอาลูกไปใส่ มันจะเห็นความหนาแน่นแปลกๆ แบบอยู่ดีๆ เลยจุดตัดมามีคนเป็นล้านพุ่งขึ้นมา อันนี้เป็นอีกทักษะที่นักวิทยาศาสตร์ข้อมูลจะมีประโยชน์มาก เพราะส่วนใหญ่จะรอบคอบ ต้องดู ไม่เช่นนั้นเมื่อกี้ 9% มันก็จะเบี้ยว ทีนี้พอทำทั้งหมดนี้เขาก็จะแปลง 9% ออกมาเป็นเงิน ก็บอกได้ว่าการยกเลิกสิทธินี้ไปถึงแม้มันจะประหยัดเงินรัฐบาลไป แต่มันก็มีต้นทุนกับรัฐบาลอีกที เพราะว่าพวกนี้มันไหลกลับมาติดคุกอีกรอบ เป็นวิธีหาต้นทุนหาประโยชน์อย่างไรให้มันเข้ากัน โดยใช้ข้อมูล ใช้ทฤษฎีทางเศรษฐศาสตร์

ใช้ Big Data ทำนายโอกาสผู้ต้องหาหนี-ก่ออาชญากรรมซ้ำ

ตัวอย่างสุดท้ายอันนี้ผมชอบมาก ผมแปลลงไปในวารสารดุลพาห เป็นอะไรที่ผู้พิพากษาในเมืองไทยอ่าน ค่อนข้างทางการมากแต่เหมือนกับว่าเขาสนใจจะทำอันนี้ แต่ยังไม่ถึงจุดนั้น คือเขาพยายามจะใช้การเรียนรู้ของเครื่องจักรตัดสินใจฝากขังได้ดีขึ้นขนาดไหน หมายถึงทำผิดขึ้นมาโดนเรียกไป ผู้พิพากษามีหน้าที่ดูว่าควรจะให้กลับบ้านแล้วค่อยมาขึ้นศาลหรือไม่ หรือว่าดูแล้วน่าจะมีความเสี่ยง อาจจะหนีไปต่างประเทศก็จำคุกไว้ก่อน ผู้พิพากษาในนิวยอร์กมีหน้าที่แบบนี้ แล้วงานเยอะมาก มีงานแบบนี้ออกมาเต็มไปหมดว่าคนนี้ควรฝากขังหรือให้กลับบ้านได้

ก็มีงานวิจัยที่มี 2 นักเศรษฐศาสตร์และ 2 นักวิทยาศาสตร์ข้อมูล เป็นสัดส่วนที่ออกมาแล้วผมว่าเจ๋งมาก อันนี้ตีพิมพ์ในวารสารที่ดีที่สุดในเศรษฐศาสตร์ ชื่อว่า Human Decisions and Machine Predictions เขาเจอว่าในนิวยอร์ก 40% ของจำเลยที่มีความเสี่ยงหนีคดีและจะก่ออาชญากรรมสูงสุด ผู้พิพากษากลับตัดสินใจไม่ฝากขังและปล่อยออกมาสู่สังคม ทั้งๆ ที่ผู้พิพากษาเอาคนที่เสี่ยงน้อยกว่าไปฝากขัง มันแปลว่ามีอะไรบางอย่างที่ไม่ควรจะเกิดขึ้น ถ้าเราเรียงได้จริงๆ คนที่ควรจะอยู่ในคุกคือคนที่เสี่ยงที่สุดก่อน อันนี้คือปัญหา

แล้ว big data กับกระบวนยุติธรรมก็เป็นอีกแนวหนึ่ง วันนี้จะหลายแนวมาก ผมหวังว่าจะเป็นแรงบันดาลใจว่ามันไปได้หลายทางมากแล้วมันมีผลกระทบจริงๆ กับสังคม อันนี้มันกำลังจะได้ใช้จริงๆ มันก็ทำไปแล้วมันถึงมีข้อมูลออกมา แต่มันจะขยายออกไปมากขึ้นในสหรัฐอเมริกา อันแรกพอมี big data จะช่วยให้ผู้พิพากษาฝากขังได้ดีขึ้น แต่ว่ามันก็มีข้อกังวลเยอะ ผมก็เขียนลงไปเยอะในดุลพาหที่ให้ผู้พิพากษาอ่าน เพราะไม่อยากให้รีบตัดสินใจทำถ้าไม่พร้อม ข้อกังวลมันมีทั้งทางเทคนิคและทางจริยธรรม ทางเทคนิคคือข้อมูลต้องเยอะพอ ถ้าเราทำน้อยๆ พลังมันก็ต่ำ คุณภาพก็ต้องดี เพราะเรื่องนี้คอขาดบาดตายนะครับ เอาคนเข้าคุก โดยเฉพาะในเมืองไทยเหมือนเรามองว่าถ้าไม่ผิดจริงก็ไม่ควรไปรับโทษ

อีกข้อคือเราพยายามจะทำสิ่งที่เป็นไปไม่ได้อีกแล้ว คือนอกจากเราจะทำนายว่าใครควรฝากขัง คือทำนายว่าใครมีสิทธิหนีมากกว่าใคร แต่มันมีปัญหาอีกว่าถ้าเราเอาระบบนี้ใส่ลงไปในสังคม สังคมดีขึ้นหรือไม่ มาอีกแล้ว 2 ความเป็นจริง อันหนึ่งไม่ใช้ อีกอันไม่ใช้ อันไหนดีกว่ากัน คำตอบคือทำไม่ได้ เพราะเราไม่รู้ เราพยายามจะทำ ข้อกังวลด้านจริยธรรมนี่หนักเลย คุยได้เป็นวัน คร่าวๆ คือว่ามันจะมีคนบางกลุ่มที่จะต้องโดนลงโทษก่อนที่จะทำผิด มันประหลาดถ้าถามผม คือเขายังไม่ได้ทำอะไรผิด แต่แบบจำลองทำนายว่าเขามีโอกาสหนีคดีสูงกว่าคนอื่น เพราะฉะนั้นคุณเข้าคุกซะ มันเป็นแบบนี้จริงๆ ถ้าจะเอามาใช้ ซึ่งมันประหลาด สุดท้ายอาจจะต้องใช้ผู้พิพากษามาดูอีกทีและเป็นมุมมองของเขา แต่ถ้าเรารู้ว่าไส้ในมาจากสิ่งนี้มันก็ประหลาดอยู่ดี

แต่ถ้าไม่พูดเรื่องจริยธรรม คือไม่ใช่ไม่สำคัญแต่เราไม่ได้มาคุยกันเรื่องนี้ ถามว่าถ้าใช้เราจะได้อะไรขึ้นมาบ้าง อันแรกมันได้ตัวเลข โปร่งใส ถ้าถามว่าวันนี้ผู้พิพากษาเมืองไทยทำหน้าอย่างไร ทราบหรือไม่ ไม่รู้ มันไม่มีใครเผยแพร่ออกมาว่าฝากขังเท่าไหร่ ไม่ได้จะว่าผู้พิพากษาเพราะเขาควรจะเป็นคนที่ดีที่สุดแล้วที่ทำหน้าที่นี้ ให้ผมไปทำก็ทำไม่ได้ ยิ่งมีงานไหลเข้ามาเยอะขนาดนั้นมันเหนื่อย อันที่ 2 คือ เป็นจุดที่เอา big data มาทำให้มีประสิทธิภาพมากขึ้น แล้วให้ผู้พิพากษาทำหน้าที่อื่นซะแทนที่จะมาเสียเวลา บางทีเข้ามาเป็น 100 คน ใครๆ ก็ทำไม่ได้ เหนื่อยเกิน แล้วประสิทธิภาพหมายถึงอะไร ให้นึกถึงสายการบินจะใส่ที่นั่งหรือโรงภาพยนตร์จะใส่คนในโรง โจทย์นี้ฟังดูแย่หน่อย คือจะใส่คนในเรือนจำอย่างไรให้ดีที่สุด ให้คนที่มานั่งในเรือนจำเป็นคนที่ควรจะมานั่งที่สุดและมีจำนวนน้อยที่สุด อันนี้มันไม่ง่าย เพราะการที่เราจะขังคนให้ถูกคนมันหมายความว่าเราจะลดอัตราอาชญากรรมข้างนอกและโอกาสที่จะมีการหลบหนี เราไม่อยากให้ 2 อย่างนี้เกิด เพราะถ้ามันมีคนหนีตลอดเวลา อีกหน่อยก็จำคุกทุกคนเพราะคนมันหนีกันหมด เราไม่ต้องการให้เกิดแบบนั้น หรือถ้าไปขังผิดคนก็จบเหมือนกัน

จุดที่ 3 ที่นักวิทยาศาสตร์ข้อมูลจะเข้ามาทำให้ดีขึ้นหรือแย่ลง ผมเน้นว่าอาจจะแย่ลงก็ได้ขึ้นอยู่กับคนทำ คือมันอาจจะทำให้เราไม่มีอคติ เช่น ผู้พิพากษาอาจจะมีความคิดที่ไม่ชอบคนรูปแบบหนึ่ง แล้วมีคนนี้เข้ามา คนคนนี้จะได้คำตัดสินที่เป็นธรรมแค่ไหน เราไม่รู้ ถ้าจะทำ big data อย่างน้อยเรามีทางเลือกว่าเราจะไม่ใส่บางตัวแปรลงไปได้ เช่น ไม่เหยียดผิวก็ไม่ใส่ ในเมืองไทยสมมติฐานะไม่เกี่ยวก็เอาออกไปเลย มันมีทางเลือก แล้วทดสอบได้ด้วย

ทีนี้ทั้งหมดทำอย่างไร ข้อมูลมา 700,000-800,000 ข้อมูล มีข้อมูลว่าทำอะไรผิดอะไรมาบ้าง ผู้พิพากษาคือใครที่ไหน แล้วเขาใช้ตัวแปรน้อยมากจนน่าตกใจ แต่พลังการทำนายยังดีอยู่ ตอนแรกผมอ่านคิดไปว่าต้องมีรอยสัก ใส่เสื้อกล้ามมาไหม อะไรต่ออะไร แต่ไม่ใช่เลย คือน้อยมากแบบเหมือนเป็นแค่โครงการของนักศึกษา ซึ่งดีเพราะว่ามันเยอะเกินไปมันมีเรื่องจริยธรรมขึ้นมา ไปตัดสินว่าคนมีรอยสักดีไม่ไดี ผมมีเพื่อนเรียนปริญญาเอกรอยสักเต็มตัวก็มี พอทำแบบนี้เราก็ทำว่าฝั่งหนึ่งเป็นโอกาสที่จะหนีแล้วใส่ข้อมูลป้อนเข้าไปว่ามีลักษณะของคุณ ทำผิดอะไรมา ใครพิพากษา อะไรประมาณนี้

จากข้อมูลตอนแรกคือถ้ามีเข้ามา 100 คนผู้พิพากษาจะปล่อยตัวไป 76 คน ซึ่งไม่รู้ว่าอะไรแย่อะไรดี ดีที่สุดคือปล่อย 100 คน เพราะคุกจะไม่เต็ม ทุกคนกลับไปได้แล้วรอพิจารณาคดีค่อยกลับมา ปัญหาคือมันมีคนที่หนีหรือไปทำอาชญากรรมต่อ พวกนี้ควรจะถูกจำคุกไว้ก่อน ปัญหาของอันนี้มันไม่ใช่พวก 76% แต่พวกที่เสี่ยงมาก คือมันมี 3 แกน อัตราที่ปล่อยตัวไป ค่าทำนายและค่าจริงอัตราก่ออาชญากรรม คือเรารู้ของจริงด้วยว่าคนที่ถูกปล่อยออกไปแล้วทำจริงหรือไม่ ปัญหาคืออัตราปล่อยของพวกที่เสี่ยงมันอยู่ประมาณ 40% คือถ้าถามผมมันสูงไป กลุ่มที่ไม่เสี่ยงไม่มีปัญหาปล่อยเกือบ 100% เลย แต่มันมีปัญหาตรงกลุ่มที่เสี่ยงมากๆ ปลายๆ ว่าทำไมมันไม่เป็น 0% ไม่ปล่อยไปเลย แล้วเทียบกับของจริงเขาก็เจอว่ากลุ่มที่ปล่อยไปมันก็เสี่ยงจริงนะ แบบจำลองมันไม่ได้ผิด

แต่ว่าอันนี้มันไม่ได้หยุดอยู่ที่การพยากรณ์ความเสี่ยงเท่านั้น ไม่เช่นนั้นไม่ต้องไปขอนักเศรษฐศาสตร์มาเขียนด้วยกัน ก็ตีพิมพ์ไปเลย สิ่งที่เขาต้องการทำคือเทียบว่าโลกที่มี Big Data ช่วยอีกแรงกับโลกที่ไม่มีมันดีกว่าหรือไม่ แล้วจะเทียบอย่างไร ความท้าทายมีหลายแบบ อันแรกต้องหาสมดุล คือไม่ต้องขังจำเลยมากเกินไปโดยไม่จำเป็น แต่ก็ต้องลดอัตราหนีคดีและก่ออาชญากรรมเพิ่ม เพราะฉะนั้นถ้าจะไม่ให้คุกล้น คือมันจะหาง่ายมากเลยถ้าไม่มีข้อจำกัดเรื่องพื้นที่คุก ก็ขังทุกคนก็จบ ไม่มีใครออกไปทำอะไรซ้ำ แต่ถ้าจะไม่ให้คุกล้น มันต้องปล่อยจำเลยบางคนที่ถูกกล่าวหาออกมา ปัญหาคือพวกที่ถูกฝากขังไปแล้วในข้อมูลเรา เราไม่รู้ว่าผลลัพธ์ถ้าสมมติว่าอยู่ดีๆ ได้ออกมาจะไปทำอะไร จะหนีหรือไม่ จะไปข่มขืนหรือไม่ แต่ที่รู้คือกลุ่มที่ปล่อยตัวแล้ว ซึ่งอันนี้ข้อมูลจะใหญ่แค่ไหน โปรแกรมจะดีแค่ไหน ทางทฤษฎีแล้วมันแก้ไม่ได้ เพราะว่ามันเป็นสิ่งที่ไม่ได้เกิดขึ้นให้เราเก็บข้อมูล ความเป็นจริงถูกขังไปแล้วจะให้ทำอย่างไร ทำไม่ได้

วิธีแก้มันมีหลายวิธี อาจจะไม่ได้ดีที่สุด คือเราพยายามสังเคราะห์ข้อมูลของคนที่ถูกฝากขัง ฟังดูผิดนะ แต่เราไปลองหาฝาแฝดเชิงข้อมูลในกลุ่มคนที่ปล่อยออกไป คือเหมือนทุกอย่างเลย แค่คนหนึ่งถูกปล่อยอีกคนถูกขัง แล้วที่มันสำคัญคือที่นิวยอร์กการที่เราจะได้ผู้พิพากษาคนไหนมันสุ่ม ซึ่งดี มันไม่ควรมีบางคนที่อยู่ตรงนี้เท่านั้นหรือดูคดีแบบนี้เท่านั้น เพราะฉะนั้นมันจะมีโอกาสที่จำเลย 2 คนที่เป็นฝาแฝดในเชิงข้อมูลแต่บังเอิญได้ผู้พิพากษาที่ใจดีกว่า เราก็ใช้ข้อเท็จจริงว่ามันสุ่ม เพื่อหาผลลัพธ์ของคนที่โดยขังอยู่ เราพยายามเข้าใกล้สิ่งที่ดีที่สุดให้ได้

สุดท้ายทำแล้วได้อะไร ตัวเลขไม่ต้องสนใจมากเพราะข้อมูลเปลี่ยนมันก็เปลี่ยน เขาเจอว่ามันลดอาชญากรรมในสังคมได้ 25% โดยที่คงจำนวนจำเลยในคุกไว้ หรือจะลดจำเลยที่ถูกฝากขังลงถึง 42% โดยที่ข้างนอกไม่ถูกกระทบ ก็แล้วแต่นโยบายว่าจะตัดสินใจอย่างไร สังคมเป็นคนเลือกจะเอาแบบไหน ที่เด่นคือมันลดความเหลื่อมล้ำด้วย เพราะแบบจำลองไม่ได้ใช้ข้อมูลประชากรศาสตร์ ผมคิดว่าอันนี้เป็นสิ่งที่ดีมาก เพราะมันมีปัญหาเยอะมากนะ ถ้าลองไปเรียนต่อการเหยียดผิวเป็นอะไรที่ยากจะเข้าใจสุดๆ อาจจะไม่เจอในรั้วโรงเรียน แต่เดินไปข้างนอกจะเจอ

สรุปวันนี้มี 3 ประเด็น อย่างแรก คือ วันนี้ผมได้โชว์ว่ามันมีจุดร่วมระหว่าง 2 สาขา ผมเสนออันนี้ให้ดูคือผมว่ามันน่าทำ ตอนนี้อาจจะยังไม่เห็นว่าทำได้อย่างไร คือ วิทยาศาสตร์ข้อมูลมันเหมือนเป็นมุ่งไปที่ข้อมูลก่อน (data-first approach) ในมุมมองผมนะ แล้วเน้นไปที่การทำนายพยากรณ์ แต่ด้านนักเศรษฐศาสตร์เป็นพวกทฤษฎีนำ เป็น (theory-first approach) คือเป็นสมมติฐานมาก่อนแล้วหาข้อมูลมาลองทดสอบ พอมารวมกันแล้วมันดี สมดุลดี อย่างที่ 2 คือเทคนิคใหม่ๆ นี้มันเจ๋งจริงๆ ต้องยอมรับ แต่มันมีบางอย่างที่มันเรียบง่ายกว่า แล้วมันอาจจะเร็วกว่า ประยุกต์ใช้ได้ง่ายกว่า แปลได้ง่ายกว่าให้คนในฝั่งธุรกิจหรือคนออกนโยบาย

แล้วมันก็มีที่ใช้คำถามนำ question-first approach ทุกๆ อันที่ผมยกขึ้นมา ผมยกคำถามขึ้นมาก่อน แทนที่จะยกข้อมูลขึ้นมาก่อน ซึ่งอันนี้จะเป็นทักษะที่สำคัญมาก โดยเฉพาะสำหรับน้องๆ ที่ไปในตลาดแรงงาน ตอนนี้สิ่งที่ยากไม่ใช่การพยากรณ์ สิ่งที่ยากคือคำถามว่าโจทย์ไหนควรจะต้องสนใจ พอได้มาเรียงกระบวนการไป

“ผมยกตัวอย่างว่าจะออกนโยบายต้องเรียงอย่างไร ถ้าเรียงได้มันก็ดี ข้อมูลเชิงคุณภาพก็เน้นมาก โดยเฉพาะในห้องนี้จะเป็นวิศวกรเป็นนักวิทยาศาสตร์ข้อมูลหลายคนจะไม่ชินกับข้อมูลแบบสำรวจ ไปสัมภาษณ์คน คือบางทีไปถึงจุดที่เรามองลงไป ผมก็เป็นเหยื่อเหมือนกัน ผมเรียนกับเพื่อนสาขาอื่น เขาบอกว่าจะไปอยู่ที่เคนยา 7 วันไปลงพื้นที่สำรวจ ผมก็ว่ามันไม่มีอคติเหรอ ตอนนั้นยังเด็กอยู่ สุดท้ายมาเรียนรู้ว่าข้อมูลที่เราคิดว่าพอมันไม่พอ บางทีมันก็ได้มุมที่แคบไป”

อีกอันที่ผมว่าสำคัญที่สุดแล้ว โดยเฉพาะในห้องนี้ที่เป็นคนที่เก่งข้อมูลอยู่แล้ว คือเรื่อง soft skill กับความฉลาดทางอารมณ์ อันสุดท้ายที่บอกน้องๆ คือไม่มีปัญหาหางานแน่นอน ถ้าทำข้อมูลได้ เพียงแต่ว่าอย่าลืมว่ามันมีโลกที่มันนอกเหนือไปจากธุรกิจด้วย ธุรกิจโจทย์มันไม่หนีไปจาก optimization เครื่องบิน ระบบห่วงโซ่อุปทาน ทำให้ดีขึ้น แต่ที่ผมเล่ามามันน่าตื่นเต้นกว่าและก็ยากกว่ามาก อาจจะทำไม่มากเท่า แต่วันหนึ่งมันต้องมีโอกาสให้ทำได้

เศรษฐศาสตร์กับ Way of Knowing – ทดลองหรือเก็บข้อมูล

ต้นทุนมลพิษทางอากาศกับการออกแบบนโยบายสุขภาพ

วิเคราะห์ใบสมัครงานหาครูเก่ง – ดันคะแนนสูงกว่าทุกนโยบาย

ตัดสวัสดิการคนคุก เพิ่มการทำผิดซ้ำ

ใช้ Big Data ทำนายโอกาสผู้ต้องหาหนี-ก่ออาชญากรรมซ้ำ

Related posts:

ข่าวหรือบทความที่เกี่ยวข้อง

‘พรรคประชาชน’ ยันจุดยืน ‘ยุบสภา-เลือกตั้งใหม่’ พร้อมยกมือให้นายกฯ ที่ทำตามเงื่อนไข

“ชาญชัยและคณะ” ขนหลักฐานส่ง ป.ป.ช. 11 รายการ จี้ดำเนินคดีปมตัดงบแบงก์รัฐ-โยก‘แจกเงินหมื่น’ผิด ม.144?

นายกฯสั่งด่านศุลกากรตรวจเข้ม สกัดของเถื่อนทะลัก – ขยาย “คุณสู้ เราช่วย” เฟส 2 จ่าย 10% ปิดหนี้ 3 หมื่นบาท