ทำงานสาย Data Science ต้องมีทักษะอะไรบ้าง?

data-science-10-essential-skills

ในยุคนี้ การทำธุรกิจให้ประสบความสำเร็จบนโลกออนไลน์ต้องอาศัยปัจจัยหลายอย่าง ไม่ว่าจะเป็นการตลาด การทำคอนเทนต์ รวมไปถึงการบริการที่ถูกใจลูกค้าและการตอบสนองต่อเหตุการณ์ที่เข้ามาได้อย่างทันท่วงที แต่สิ่งที่สำคัญไม่แพ้กันและกลายเป็นจุดตัดสินความสำเร็จของธุรกิจ นั่นก็คือ “ข้อมูล (Data)”

แต่ใช่ว่าเรามีข้อมูลอยู่ในมือเป็นจำนวนมากแล้วจะได้เปรียบทันที จุดตัดสินชัยชนะอีกจุดหนึ่งเป็นเรื่องของการนำข้อมูลไปวิเคราะห์และใช้ประโยชน์ได้ตรงตามโจทย์ที่เราตั้งไว้ เช่น เราต้องการผลิตสินค้าตัวใหม่ที่จะตีตลาดลูกค้ากลุ่มคนทำงาน เราก็ต้องหาคนรวบรวม ประมวล เรียบเรียงและสรุปข้อมูลนั้นออกมาเป็นตัวเลขที่เข้าใจได้ง่ายและนำไปต่อยอดทางธุรกิจอีกทีหนึ่ง ซึ่งคนที่ทำหน้าที่ดังกล่าว คือ Data Scientist นั่นเอง

การเป็น Data Scientist ที่เก่งและประสบความสำเร็จได้นั้นไม่ใช่เรื่องง่าย เราจะต้องเรียนรู้ทักษะและวิชาที่จำเป็นในระดับหนึ่ง ซึ่งมีทั้ง ทักษะด้านเทคโนโลยี (Technological Skills) เช่น วิชาคณิตศาสตร์และสถิติ การเขียนโปรแกรม Machine Learning การทำงานจริง และทักษะการปฏิสัมพันธ์กับสภาพแวดล้อม (Soft Skills) เช่น การทำงานเป็นทีม จริยธรรม เป็นต้น

บทความนี้ขอนำเสนอทักษะ 10 ข้อที่จะทำให้เราเป็น Data Scientist ที่เก่ง โดยเริ่มกันที่ทักษะด้านเทคโนโลยีก่อนเลย

1. วิชาคณิตศาสตร์และสถิติ

ข้อนี้มีความสำคัญมาก เนื่องจากเป็นทักษะด้านคณิตศาสตร์ที่เป็นพื้นฐานของวิชา Data Science และเป็นส่วนสำคัญที่จะนำมาใช้ในการประมวลข้อมูลและการแสดงผล เรื่องหลัก ๆ ที่ต้องรู้ก็น่าจะเป็นที่คุ้นหูคุ้นตากันตั้งแต่เรียนมัธยม คือ ความรู้ด้านสถิติและความเป็นไปได้ ไม่ว่าจะเป็นการหาค่าเฉลี่ย (Mean) ค่ามัธยฐาน (Median) ฐานนิยม (Mode) ค่าเบี่ยงเบนมาตรฐานและความแปรปรวน (Standard Deviation/Variance) เป็นต้น

ยังไม่หมดแค่นั้นเรายังต้องมีความรู้เรื่องแคลคูลัสไว้บ้าง เพราะมีความจำเป็นในการใช้สร้างรูปแบบ Machine Learning ซึ่งเป็นส่วนสำคัญของการทำงานด้าน Data Science หลัก ๆ ที่ต้องรู้เลย คือ ฟังก์ชันหลายตัวแปร (Functions of Several Variables) รวมไปถึงวิชาพีชคณิตเชิงเส้น เช่น เวกเตอร์ (Vector) และเมตริกซ์ (Matrix) ซึ่งจะต้องใช้ในการประมวลผลข้อมูล การแปลงข้อมูลและการทำรูปแบบของการประเมินผล (Evaluation Model)

2. โปรแกรมที่ต้องรู้

มาถึงหัวใจสำคัญในการเป็น Data Scientist อีกตัวหนึ่งก็คือโปรแกรมที่เราต้องใช้ในการทำงานเพื่อสร้างระบบการประมวลผลขึ้นมา หลัก ๆ ก็คือ Python, R และภาษาที่ใช้ในการเขียนโปรแกรมอย่าง SQL

3. อยู่กับ Data Wrangling ให้ทน

ข้อมูลที่เราหาได้มาจากทุกทิศทุกทาง ไม่ว่าจะเป็นเว็บไซต์ รูปภาพ เสียง วีดีโอหรือตัวอักษร สิ่งที่ Data Scientist จะต้องทำก็คือ การรวบรวม เรียบเรียง และจัดการออกมาให้เป็นระเบียบเพื่อพร้อมต่อการนำไปใช้หรือการวิเคราะห์เพื่อทำโครงการ ข้อมูลบางอย่างอาจเข้าถึงได้ยากและไม่ใช่ทุกข้อมูลที่จะให้สิ่งที่เราต้องการ จึงต้องทำให้ข้อมูล “สะอาด” ให้ได้ เช่น ต้องมั่นใจว่าข้อมูลที่ได้มาจะตอบโจทย์ต่อโครงการที่ทำจริง ๆ ข้อมูลที่ต้องการไม่ตกหล่นหรือแหล่งข้อมูลเชื่อถือได้ เป็นต้น ว่ากันว่างานนี้เป็นงานที่ต้องใช้เวลานานมาก แต่ Data Scientist ที่ดี ก็ต้องรู้จักเลือกข้อมูลที่มีประโยชน์เช่นกัน

4. ทำ Data Visualization ให้ดี

Data Visualization คือการที่เราต้องนำข้อมูลที่ได้มาวิเคราะห์และแสดงผลในรูปแบบต่าง ๆ ไม่ว่าจะเป็นแผนภูมิ กราฟ หรือรูปภาพที่ทำให้คนดูแล้วเข้าใจได้ง่าย และต้องคำนึงถึงว่ารูปแบบการนำเสนอ สัญลักษณ์และรูปแบบตัวอักษรที่นำมาใช้เข้ากับข้อมูลที่นำมาเสนอหรือไม่

และที่สำคัญ ต้องนำเสนออย่างถูกต้อง ไม่ทำให้คนเข้าใจผิดหรือเจตนาทำให้เกิดความเสียหายจากข้อมูลดังกล่าว ดังนั้น Data Visualization จึงเป็นการนำเสนอความจริงที่มาพร้อมกับความเข้าใจง่ายนั่นเอง

5.  มีพื้นฐานด้าน Machine Learning 

เป็นอีกสิ่งสำคัญที่ Data Scientist ต้องเรียนรู้เป็นทุนเดิมอยู่แล้ว เพราะเป็นไปไม่ได้หากเราต้องจัดการข้อมูลโดยไม่มี Machine Learning โดยมี 3 ประเภทหลัก ๆ ก็คือ 

5.1 Supervised Learning แบบ Regression เป็นการคำนวณและประมวลผลข้อมูลในรูปแบบตัวเลขต่อเนื่อง เราสามารถใช้รูปแบบนี้คำนวณหายอดขายของในแต่ละวันของแต่ละสาขาได้

5.2 Supervised Learning แบบ Classification ใช้จัดประเภทข้อมูลเข้าด้วยกัน ลักษณะนี้จะเหมือนการสอนระบบคอมพิวเตอร์ให้จับคู่ภาพและความหมาย

5.3 Unsupervised Learning เป็นประเภทไม่ได้รับการเรียนรู้ใด ๆ ในทางกลับกัน ระบบจะหาทางจัดกลุ่มข้อมูลที่ไม่ได้รับการจัดระเบียบหรือบอกประเภทด้วยตัวเอง

6. ทำงานจริง

ลองนำตัวเองเข้าไปใกล้สถานการณ์จริงเพื่อเพิ่มโอกาสในการทำงานด้านนี้ ไม่ว่าจะเป็นการสัมภาษณ์งานหรือการฝึกงานกับบริษัทหลังเรียนจบก็ช่วยให้เราได้เห็นโลกของ Data Science ที่สามารถนำไปประยุกต์ใช้งานได้หลากหลายมาก

ทักษะด้านคณิตศาสตร์และโปรแกรมต่าง ๆ ที่กล่าวมาเป็นเรื่องขององค์ความรู้ที่สามารถเรียนรู้ได้จากคอร์สเรียน การสืบค้นจากเว็บไซต์ พูดคุยกับคนเก่ง ๆ หรือสอบถามจากบรรดาผู้รู้ที่มีอยู่มากมายในเพจต่าง ๆ แต่ทักษะต่อไปนี้ก็ถือว่ามีความสำคัญไม่แพ้การมีความรู้เช่นกัน นั่นคือ การปฏิสัมพันธ์กับสภาพแวดล้อมในการทำงาน (Soft Skills) ซึ่งสิ่งที่จะทำให้เราทำงานกับคนรอบข้างได้อย่างประสบความสำเร็จและมีความสุขก็มีดังนี้

7. ทักษะการสื่อสาร

การมีข้อมูลและองค์ความรู้ที่มีค่าอยู่ในมือนับว่าสำคัญแล้ว แต่การสื่อสารให้อีกฝ่ายรับรู้ถึงความสำคัญและเข้าใจได้เป็นเรื่องที่สำคัญกว่า ไม่ว่าเรากำลังเป็น Data Scientist ที่ทำงานร่วมกับสมาชิกในทีมหรือต้องเสนอผลงานสุดล้ำให้กับผู้บริหารหรือเจ้าของธุรกิจ ใจความสำคัญ คือ การต้องอธิบายศัพท์แสงทางเทคนิคและความรู้ระดับลึกให้กับผู้ที่ไม่มีความรู้ได้เข้าใจง่ายที่สุดจะช่วยให้การนำเสนอผลงานหรือการประชุมมีผลลัพธ์ออกมาดี คนทำงานก็มีความสุขและเข้าใจเป้าหมายที่จะบรรลุร่วมกันได้

8. เรียนรู้ตลอดชีวิต (Lifelong Learner)

ไม่ใช่คำพูดที่สวยหรู แต่เป็นความจริงที่ Data Scientist จะต้องปรับตัวเรียนรู้กันไปตลอดชีวิต ด้วยความที่เทคโนโลยี แพลตฟอร์มและแอปพลิเคชันมีการพัฒนาตลอดเวลา Data Scientist จึงเป็นกำลังสำคัญในการพัฒนาสิ่งใหม่ ๆ ออกมาแข่งขันในวงการอยู่เสมอ แพลตฟอร์มหางานอย่าง LinkedIn เป็นแหล่งข้อมูลข่าวสารความก้าวหน้าของโลก ดังนั้น Data Scientist ที่พร้อมเรียนรู้และปรับตัวไปกับเทคโนโลยีย่อมได้เปรียบ

9. ทำงานเป็นทีมได้ดี

นอกจากโครงการขนาดใหญ่ที่ต้องเข้าไปทำในระยะยาวแล้ว สิ่งที่เราต้องเข้าไปเกี่ยวข้องด้วย คือ คนมากมายหลายประเภทและหลายตำแหน่ง ไล่ตั้งแต่ผู้วิเคราะห์ข้อมูล วิศวกร ไปจนถึงระดับผู้บริหาร การเป็นผู้ฟังที่ดีจึงเป็นเรื่องสำคัญเพราะเราต้องรับฟังความต้องการ คำแนะนำและคำวิจารณ์เพื่อขับเคลื่อนธุรกิจไปให้ได้

10. มีจริยธรรมในการทำงาน

บางคนอาจคิดว่าการพูดถึงเรื่องจริยธรรมหรือความถูกต้องเป็นเรื่องล้าสมัย แต่ไม่ใช่กับยุคปัจจุบันแน่นอนที่คนในสังคมสามารถหาข้อมูลมายืนยันความจริงอีกด้านได้อย่างรวดเร็ว ทำให้การปกปิด ตกแต่ง บิดเบือนหรือพูดข้อมูลเกินจริงนำไปสู่บทลงโทษทางกฎหมายได้เลยทีเดียว ดังนั้นการเป็น Data Scientist จะต้องซื่อสัตย์กับตัวเอง ไม่นำข้อมูลไปบิดเบือนเพื่อสร้างความเข้าใจผิดต่อกลุ่มผู้รับข้อมูล และต้องยอมรับความจริงต่อผลการทดลองหรือการวิเคราะห์ให้ได้ด้วย