ThaiPublica > คอลัมน์ > เรื่องเก่าเล่าใหม่: ประวัติศาสตร์ของ Data Science

เรื่องเก่าเล่าใหม่: ประวัติศาสตร์ของ Data Science

17 กุมภาพันธ์ 2018


จรัล งามวิโรจน์เจริญ บริษัท เซอร์ทิส จำกัด

หลายคนพอเห็นหัวข้อเกี่ยวข้องกับประวัติศาสตร์ อาจรู้สึกทันทีว่าเป็นเรื่องราวที่ไม่น่าสนใจ แต่ส่วนตัวผมเองไม่เห็นเช่นนั้น เพราะประวัติศาสตร์ถือได้ว่าเป็นบทเรียนหนึ่งที่ทำให้เรามองอนาคตได้อย่างแยบคาย ทั้งยังช่วยให้สามารถพัฒนาและปรับปรุงสิ่งที่เคยเกิดขึ้นในอดีตได้อย่างเหมาะสมเพื่อผลลัพธ์ที่ดียิ่งขึ้นในอนาคต ไม่เว้นแม้แต่เรื่องราวของศาสตร์ที่กำลังเป็นที่นิยมและถือได้ว่าเป็นสิ่งที่ ‘ทันสมัย’ ในขณะนี้อย่าง Data Science ก็ควรค่าแก่การศึกษาถึงที่มาและความเป็นไปในอดีต เพื่อสร้างความเข้าใจที่มีต่อศาสตร์นี้อย่างลึกซึ้ง เพราะยิ่งเข้าใจมากเท่าไหร่ การดึงเอาสิ่งต่างๆ มาใช้ประโยชน์ก็ยิ่งทำได้ดีมากขึ้นเท่านั้น

ก่อนจะกำเนิดคำว่า Data Science ระยะแรกเริ่มนั้นมาจากงานวิเคราะห์ข้อมูล (Data Analysis) ซึ่งเป็นการประยุกต์ทฤษฎีทางคณิตศาสตร์สถิติประกอบกับการใช้ประสบการณ์ การทดลอง หรือการสังเกต (Empirical Method) มาเป็นเครื่องมือในการทำงานที่เกี่ยวข้องกับข้อมูล

เริ่มจากเมื่อปี ค.ศ. 1962 John W. Tukey นักคณิตศาสตร์จาก Bell Labs (Lab ที่สร้างนวัตกรรมทางการสื่อสาร คอมพิวเตอร์ที่เราใช้กันในปัจจุบัน) เขียนบทความที่มีอิทธิพลต่อโลกของข้อมูล ชื่อว่า The Future of Data Analysis ที่ชี้ว่าเครื่องมือทางสถิติในยุคนั้นมีความสามารถไม่เพียงพอกับการวิเคราะห์ข้อมูลที่มีมากและหลากหลาย คำว่า Data Analysis เป็นคำใหม่ที่ไม่ใช่แค่การหาข้อสรุป (Inference) โดยเทคนิคทางสถิติเพียงอย่างเดียว แต่รวมไปถึงการเก็บข้อมูล การเตรียม และการแปลความ (ซึ่งถ้าสังเกตดูก็เป็นกระบวนการเดียวกันกับ Data Science ในยุคปัจจุบัน)

นอกเหนือจากนี้ Tukey ยังพูดถึงการสร้างความคิดใหม่ในการสอน การวิเคราะห์ มีการตั้งคำถามใหม่ๆ การลองเปลี่ยนข้อจำกัดของกฎเกณฑ์เก่า หรือพูดง่ายๆ ว่าการทำให้หลุดจากกรอบความคิดเก่าไปสู่ความคิดในรูปแบบใหม่ๆ (ซึ่งผมเคยพูดถึงเรื่อง frame/reframe ในบทความ คิดหลายด้าน สร้าง data driven mindset) หลังจากนั้นในปี ค.ศ. 1977 Tukey ก็ตีพิมพ์หนังสือที่มีอิทธิพลกับงานด้านข้อมูล ชื่อ “Exploratory Data Analysis” ที่เน้นการใช้ข้อมูลมาช่วยในการตั้งสมมติฐาน

ต่อมาช่วงยุคปี ’70-’90 ระบบฐานข้อมูล (Database) เข้ามามีบทบาทมากขึ้น พร้อมทั้งมีการนำคอมพิวเตอร์มาช่วยในการวิเคราะห์ข้อมูล จึงเป็นยุคที่เริ่มได้ยินคำว่า “เหมืองข้อมูล” (Data Mining) อย่างแพร่หลาย โดยในปี ค.ศ. 1996 Usama Fayyad, Gregory Piatetsky-Shapiro, และ Padhraic Smyth ได้ตีพิมพ์บทความชื่อว่า “From Data Mining to Knowledge Discovery in Databases.” ที่เล่าถึงกระบวนการเตรียมข้อมูลและการทำ Data Mining ที่เป็นต้นแบบของกระบวนการทาง Data Analysis และ Data Science ขึ้น ช่วงเวลานี้เองที่คำว่า “Data Science” ได้ถือกำเนิดและเริ่มเป็นที่รู้จักมากขึ้น

การขยายตัวของวงการข้อมูลยังไม่หยุดเพียงเท่านี้ ในปี ค.ศ. 2001 William S. Cleveland นักวิจัยทางสถิติจาก Bell Labs เขียนบทความ “Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics.” เสนอให้ขยายหลักสูตรภาคสถิติอย่าง “Data Science” เพื่อรองรับการใช้คอมพิวเตอร์ในการวิเคราะห์และสร้างโมเดล และในช่วงเวลาเดียวกัน Leo Breiman นักสถิติชื่อดังจาก UC Berkeley ได้เขียนบทความคลาสสิกเกี่ยวกับความแตกต่างของสองวัฒนธรรมในการสร้างโมเดล ด้วยการใช้ อัลกอริทึมกับโมเดลทางสถิติที่ชื่อว่า Statistical Modeling: The Two Cultures แสดงให้เห็นว่าการนำข้อมูลมาใช้ในงานทำนายอนาคต (Prediction) กับการแปลความหมายของข้อมูล (Interpretation) ใช้ โมเดลที่แตกต่างกันไป

กล่าวได้ว่าภายหลังช่วงปี 2000 เป็นต้นมา มีการพูดถึง Data Science บนสิ่งพิมพ์ต่างๆ มากขึ้นเรื่อยๆ จนเมื่อปี ค.ศ. 2012 ที่ผ่านมา Harvard Business Review ได้ตีพิมพ์บทความ “Data Scientist: The Sexiest Job of the 21st Century” โดย Tom Davenport and D.J. Patil ที่ทำให้คำว่า Data Science ได้รับการพูดถึงจนเป็นกระแสนิยมถึงทุกวันนี้

ถ้าสังเกตดูวิวัฒนาการของ Data Science จะพบว่าเป็นกระบวนการที่นักวิทยาศาสตร์พยายามจะประยุกต์ใช้เครื่องมือทางด้านคอมพิวเตอร์ และสรรหาเทคนิคใหม่ๆ มาใช้กับข้อมูลที่แตกต่างออกไปในแต่ละยุคสมัย แต่ก็ยังคงอาศัยการต่อยอดวิธีการที่เคยใช้ในอดีต อย่าง Data Analysis จนสามารถขยายขอบเขตการเรียนรู้ได้กว้างและลึกซึ้งมากขึ้นเรื่อยๆ นอกจากนี้ Data Science ยังถือเป็นนวัตกรรมในการเรียนรู้และประยุกต์ที่เกิดจากนักวิจัยหรือมหาวิทยาลัยที่ต้องการเพิ่มขอบเขตความสามารถเพื่อตอบโจทย์ภาคอุตสาหกรรม

แง่คิดจากการศึกษาประวัติศาสตร์ของ Data Science ที่ผมเห็นได้ชัดคือ มหาวิทยาลัยเป็นแหล่งสร้างความรู้ใหม่ที่ควรจะเป็นผู้นำทางความคิด (thought leader) ในการพัฒนาหลักสูตรให้เหมาะสมกับยุคสมัยอยู่เสมอ เพราะการพัฒนาและต่อยอดความรู้อย่างต่อเนื่องเป็นพื้นฐานสำคัญที่นำไปสู่การพัฒนาอย่างยั่งยืน

นอกจากนี้ การร่วมมือกับภาคอุตสาหกรรมหรือเอกชนเพื่อตอบสนองความต้องการในการแก้ปัญหาใหม่ๆ ที่เกิดขึ้นในสังคมก็เป็นสิ่งสำคัญ รวมถึงควรสร้างวัฒนธรรมที่ทำให้เกิด cross collaboration เพื่อให้เกิดหลักสูตรใหม่ๆ ที่สามารถผลักดันทั้ง ‘คน’ และ ‘เทคโนโลยี’ ให้ก้าวทันกับโลกในอนาคตที่เปลี่ยนแปลงอย่างไม่หยุดนิ่งต่อไป

อ้างอิง
https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/#369e0eab55cf