ThaiPublica > คอลัมน์ > มองกระบวนการทำงานข้อมูลผ่าน Pandora Papers

มองกระบวนการทำงานข้อมูลผ่าน Pandora Papers

14 ตุลาคม 2021


จรัล งามวิโรจน์เจริญ Director (CEO Office) Carabao Group

ช่วงนี้ข่าวคราวเรื่องการพัวพันของผู้มีชื่อเสียงต่างๆทั่วโลกกับข่าวสืบสวน Pandora Papers ของทีมงาน ICIJ (International Consortium of Investigative Journalists) เป็นที่กล่าวขวัญกันอย่างทั่วหน้า งานนี้เป็นงานข่าวสืบสวนที่ใหญ่ที่สุดทีเคยมีมา ความใหญ่ของมันมีนักข่าวร่วม 600 ชีวิตจาก 117 ประเทศร่วมกันขุดคุ้ยและวิเคราะห์เอกสารกว่า 11.9 ล้านชิ้น กับข้อมูลการหลบเลี่ยงภาษีของผู้มีชื่อเสียงรวมทั้งนักการเมือง 330 คนจาก 90 ประเทศทั่วโลก

ทว่า วันนี้เราจะไม่มาพูดเรื่อง Pandora Papers แต่เราจะมาดูว่า การเอาข้อมูลมาใช้สืบสวนงานนี้มีกระบวนคร่าวๆ อย่างไร

ข้อมูลเริ่มต้นมาจากเอกสารกว่า 11.9 ล้านชิ้นที่ยังไม่ได้มีโครงสร้างเป็นตาราง (unstructured) เอกสารส่วนใหญ่ 6.4 ล้านไฟล์อยู่ในรูปแบบตัวหนังสือ ซึ่ง 4 ล้านเป็นไฟล์ PDF บางไฟล์มีขนาดใหญ่กว่า 10,000 หน้า เอกสารมีทั้พาสปอร์ต, เอกสารการเงินและภาษี เอกสารที่มีโครงสร้างเป็นตาราง spreadsheet แล้วมีประมาณกว่า 467,000 ไฟล์ ข้อมูลบางส่วนเป็นสไลด์นำเสนอ ข้อมูลเสียง และวีดีโอ

การประมวลข้อมูลแต่ละประเภทต้องใช้กระบวนการต่างกัน

ข้อมูล spreadsheet ก็สามารถกำจัดข้อมูลซ้ำซ้อน (deduplication) แล้วรวมไปเป็น master spreadsheet

ถ้าเป็นข้อมูล PDF หรือ เอกสารที่เป็นตัวหนังสือ ICIJ ก็เขียนภาษา Python มาดึงคำหรือข้อความที่สนใจแล้วมาทำให้เป็นโครงสร้าง บางอย่างที่ซับซ้อนมากก็ใช้เครื่องมือด้าน machine learning (การเรียนรู้ของเครื่องจักร) มาดึงข้อมูลที่น่าสนใจออกมา

ข้อมูลเสียงหรือวีดิโอ อาจต้องถอดแกะมาเป็นตัวหนังสือ

หลังจากที่ดึงข้อมูลและจัดเรียงให้เป็นโครงสร้างตารางมาแล้ว ICIJ ก็ใช้เครื่องมือการวิเคราะห์กราฟ เช่น Neo4J หรือ Linkurious เพื่อมาหาความสัมพันธ์ของส่วนต่างๆ ของบริษัท ผู้ถือหุ้น หน่วยงานที่เกี่ยวข้อง เพื่อทำให้เห็นภาพเครือข่ายความเชื่อมโยงต่างๆ แล้วนำไปใช้ในการสอบสวน

พอได้ตัวละครจากข้อมูล ICIJ ก็ตรวจสอบด้วยการใช้ข้อมูลจากแหล่งอื่น เช่น เอกสารบริษัท รายชื่อจากสื่อตางๆ รวมทั้งแชร์ข้อมูลกับพันธมิตรที่เป็นสื่อเจ้าอื่นๆ ผ่านเครื่องมือที่ใช้ในการแชร์ข้อมูล ข้อมูลรั่วไหลที่ได้รับมาจากผู้ให้บริการก็เก็บมาจากข่าว, Wikipedia, สถาบันให้บริการข้อมูลทางการเงิน โดย ICIJ ใช้การเรียนรู้ของเครื่องจักรในการแท็กชื่อหัวข้อต่างเพื่อทำให้สะดวกในการค้นหา พันธมิตรที่เป็นสื่อเจ้าอื่นๆ 150 แห่งทำงานร่วมกันผ่านแพลตฟอร์มส่งข้อความที่เรียกว่า I-Hub เพื่อมาแชร์ข้อมูลที่น่าสนใจให้กัน

ทีมงาน ICIJ ใช้การค้นหาคำสำคัญในการหานักการเมืองในฐานข้อมูล รวมทั้งตรวจสอบผ่านฐานข้อมูลอื่นๆ ที่เชื่อถือได้ เช่น Dow Jones Risk and Compliance database, Sayari, Nexis, OpenCorporates สุดท้ายก็พบนักการเมืองที่พัวพันอยู่ 330 ราย เศรษฐีกว่า 130 รายที่มีบริษัทในที่ที่ไม่เปิดเผยกว่า 100 รายมีทรัพย์สินกว่า 6 แสนล้านเหรียญสหรัฐในปี 2021 บริษัทเหล่านี้มีความสัมพันธ์กับบริษัทกฎหมายชื่อดัง และหน่วยงานอื่นๆ ทั่วโลก

  • Pandora Papers กับสำนักงานกฎหมาย
  • สิ่งที่เราเห็นได้ก็คือ การจะได้ข้อมูลมามากมายต้องใช้ความร่วมมือจากหลายส่วน กว่าจะทำให้ข้อมูลนั้นนำมาใช้ประโยชน์ได้ต้องผ่านกระบวนการเตรียมที่แตกต่างให้สอดคล้องกับลักษณะของข้อมูล การวิเคราะห์ก็ต้องใช้การร่วมมือกันของเครือข่ายรวมทั้งการตรวจสอบจากแหล่งข้อมูลที่เชื่อถือได้ เพื่อทำให้การวิเคราะห์และนำไปสู่การสืบสวนของทีมนักข่าว ICIJ กระบวนการนี้ใช้ได้กับงานข้อมูลทั่วไป

    แก่นของงานข้อมูลคิดคือเราต้องมีการตรวจสอบข้อมูลที่มีความน่าเชื่อถือมีคุณภาพ (เหมือนวัตถุดิบอาหาร) ก่อนที่เราจะนำไปใช้วิเคราะห์หรือใช้ประโยชน์อย่างอื่นต่อไป

    References:

    https://www.icij.org/investigations/pandora-papers/about-pandora-papers-leak-dataset/

    https://neo4j.com/developer-blog/exploring-the-pandora-papers-with-neo4j/