เป็นยังไงนะ… การสอบคุณวุฒิวิชาชีพ (TPQI) ด้าน Data Science สาย Data Analytics & Data Engineerในระดับ 3

Top'p Kullawattana
4 min readDec 5, 2023

--

สวัสดีครับ ในครั้งนี้ก็เป็นอีกครั้ง ที่ผมได้ลองสมัครเข้าร่วมโครงการเพิ่ม Skill ด้าน Data Science สาย Data Analytics & Data Engineer จัดโดย คณาจารย์จากกลุ่มสาขาวิชาเทคโนโลยีการจัดการระบบสารสนเทศ คณะวิศวกรรมศาสตร์ มหาวิทยาลัยมหิดล ซึ่งจะมีการอบรมและจัดสอบเพื่อรับใบประกอบคุณวุฒิวิชาชีพด้าน Data Analytics & Data Engineer พร้อมกันเลย รวมถึง เพื่อนๆ ทุกคนที่ผ่านการสอบสามารถนำไปประกอบวิชาชีพหรือสมัครงานก็ได้ สำหรับใครที่สนใจโครงการนี้ ก็เชิญชวนติดตามได้จากบทความนี้นะครับ

Professional Qualification and Occupational Standards of Data Science by Thailand Professional Qualification Institute (TPQI) คือ การสอบเพื่อประเมินความรู้และสมรรถนะทางคุณวุฒิวิชาชีพ โดย TPQI เป็นองค์กรที่ทำหน้าที่ในการรับรองคุณวุฒิวิชาชีพให้กับผู้ที่มีความรู้ความสามารถในด้านนั้นๆ ซึ่งด้าน Data Science (วิทยาศาสตร์ข้อมูล) ก็ถือเป็นอีกคุณวุฒิวิชาชีพหนึ่งที่ทางองค์กรให้การรับรอง ผ่านการจัดอบรมและประเมินผลการสอบทั้งในภาคทฤษฎีและปฏิบัติโดย มหาวิทยาลัยมหิดล

การเริ่มต้นการสมัคร ทำอย่างไร?

การสมัคร ให้ผู้ที่มีความสนใจเข้าไปติดตามได้ทั้ง 2 ช่องทางของทางคณะ คือ

https://www.facebook.com/ITM.mahidol

https://www.facebook.com/CBTUMU

ในการสมัครนั้น… จะมีการเสียค่าสมัครตามที่ทางโครงการระบุ โดยค่าใช้จ่ายทั้งหมดนั้นจะรวมถึงค่าดำเนินการอบรม การสอบ การออกใบรับรอง (Certificate) ในระดับ 3 จาก TPQI หลังจากที่ผู้เข้ารับการอบรมผ่านการประเมินการสอบทั้งในภาคทฤษฎีและปฏิบัติ และก็จะมีใบรับรองจัดส่งมาให้ที่บ้านเลยภายใน 60 วัน หลังจากที่ดำเนินการส่งข้อมูลผลการสอบจากทางมหาวิทยาลัยมหิดลไปให้ทาง TPQI เรียบร้อยแล้ว

Reference : IT Management, Faculty of Engineering, Mahidol University

ระยะเวลาการอบรม ใช้เวลานานเท่าไหร่ ?

การอบรม จะใช้เวลา 4 วัน โดย 2 วันแรกจะเป็นการเรียนรู้ในส่วนของ Data Science และ Data Analytics เพื่อเป็นนักวิเคราะห์ข้อมูล ส่วนอีก 2 วันสุดท้าย จะเป็นการเรียนรู้ในส่วนของ Data Engineer ซึ่งเนื้อหาในการอบรมทั้ง 4 วันนั้น จะครอบคลุมในส่วนของพื้นฐานด้านการวิเคราะห์ข้อมูล การตัดสินใจเลือกใช้ข้อมูล การอธิบายข้อมูล และการนำเสนอข้อมูล ดังนี้

ในส่วนการสอบมาตรฐานคุณวุฒิวิชาชีพ Data Analytics ระดับ 3 มีดังนี้

70202: Collect Initial Data

  • การเลือกใช้ข้อมูลเชิงสถิติโดยใช้โปรแกรม RapidMiner ในการศึกษาข้อมูล โดยเริ่มจาก Descriptive Analytics (การวิเคราะห์พื้นฐาน รู้ว่าข้อมูลเป็นอย่างไร), Diagnotic Analytics (วินิจฉัยข้อมูล), Predictive Analytics (พยากรณ์ข้อมูล) และ Prescriptive Analytics (ให้คำแนะนำจากข้อมูล)
  • การวิเคราะห์ข้อมูลจาก Data Source ในรูปแบบ Structured Data และ Unstructured Data, การเตรียมข้อมูล (Data Preparation)
  • การดูค่าสถิติพื้นฐาน ประกอบด้วย Arithmetic Mean (ค่าเฉลี่ยเลขคณิต), ค่ากลาง (Median), ค่าฐานนิยม (Mode)
  • การวัดการกระจายข้อมูล ประกอบด้วย Variance (ค่าความแปรปรวน), Standard Deviation (ค่าเบี่ยงเบนมาตรฐาน : SD), Range (พิสัย)
  • การวัดตำแหน่งข้อมูล ประกอบด้วย Quartile (การแบ่งข้อมูลเป็น 4 ส่วน), Deciles และ Percentiles (การแบ่งข้อมูลเป็น 10 และ 100 ตามลำดับ)
  • การแสดงกราฟที่แสดงความผันแปรของข้อมูล (Histogram), การดูค่าความผิดปกติของข้อมูล (Outlier) การแสดงค่ากลาง และการกระจายของข้อมูลจาก Box plot, Scatter plot graph จาก DataSet
  • การเปรียบเทียบการกระจายตัวของข้อมูลผ่าน Box Plot (แนะนำให้ดูเรื่องนี้เพื่อใช้สอบภาคปฏิบัติ)
  • การวิเคราะห์ความสัมพันธ์ของข้อมูลตั้งแต่ 2 ตัวแปรขึ้นไป ด้วย Correlation Analysis ใน RapidMiner
  • การหา Correlation Coefficient เพื่อดูความสัมพันธ์ว่ามีค่ามากน้อยเพียงใด ด้วยวิธี Pearson Product Moment Correlation Coefficient ซึ่งการดู Correlation มี 3 ระดับ คือ ความสัมพันธ์เป็นลบ (-1) => r < 0, ความสัมพันธ์เป็น (0) => r = 0, ความสัมพันธ์เป็นบวก (+1) => r > 0
  • การสร้างโมเดลด้วย Machine Learning Algorithms จากการเขียนภาษา Python ประกอบด้วย Linear Regression (หาความสัมพันธ์ของข้อมูลระหว่างตัวแปรอิสระกับตัวแปรตามซึ่งมีความสัมพันธ์เป็นเส้นตรง โดยศึกษาความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตาม 1 ตัว และความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตามมากกว่า 1 ตัว)
  • การสร้างโมเดลด้วย Machine Learning Algorithms แบบมีการระบุคำตอบของข้อมูลที่สร้างแบบจำลอง (Supervised Learning) หรือที่เรียกง่ายๆ ว่า โมเดลมีการลาเบลคำตอบไว้แล้ว (Classification) เช่น โมเดลการทำนายค่าเชื้อเพลิงจากจำนวนผู้โดยสาร
  • การสร้างโมเดลด้วย Machine Learning Algorithms แบบไม่มีการระบุคำตอบของข้อมูลที่สร้างแบบจำลอง (Unsupervised Learning) หรือที่เรียกง่ายๆ ว่า โมเดลต้องหาคำตอบเองจากการจัดกลุ่มข้อมูล (Clustering) ซึ่งในโมเดลนี้ก็จะมีเรื่องการทำ Anomaly Detection และ Dimensionality Reduction ด้วย ยกตัวอย่างเช่น โมเดลการแบ่งกลุ่มลูกค้า โมเดลการตรวจจับธุรกิจที่ผิดปกติ

ในส่วนนี้ ทางอาจารย์เตรียมไว้ให้ในรูปแบบ Structured Data และ Unstructured Data และจะมีการสอบปฏิบัติด้วยโปรแกรม RapidMiner ภายในเวลา 15 นาทีเพื่อทำการอธิบายโครงสร้างข้อมูล และรูปแบบข้อมูลว่ามีลักษณะเป็นอย่างไร

70203: Describe Data

  • การวิเคราะห์ข้อมูลจากค่าต่างๆ ที่ปรากฏในโปรแกรม RapidMiner ซึ่งทางอาจารย์จะมีการสอบในภาคปฏิบัติด้วยเพื่อตรวจสอบว่า เรามีความเข้าใจข้อมูลมากน้อยแค่ไหน
  • การวัดข้อมูลทางสถิติ ประกอบด้วย Nominal (ข้อมูลตัวเลข), Ordinal (ข้อมูลที่มีลำดับ), Interval (ข้อมูลอุณหภูมิที่มีการเปลี่ยนแปลง), Ratio (ข้อมูลที่เป็นอัตราส่วน)
  • การดูข้อมูลในรูปแบบต่างๆ ใน RapidMiner เช่น ข้อมูลที่เป็น Text, Nominal ประกอบด้วย Binominal (มีแค่ 2 ค่า เช่น ขาว/ดำ, yes/no), Polynominal (มีค่ามากกว่า 2 ค่า เช่น สี), Numerical เช่น Integer (จำนวนเต็มบวก/ลบ), Real (จำนวนเต็มบวก/ลบ, จำนวนทศนิยม)
  • มีเสริมเรื่องการสร้างโมเดล Linear Regression, Logistic Regression, Decision Tree, K-Means, KNN ด้วย RapidMiner และการประเมินโมเดลด้วย Confusion Matrix (การดู Accuracy, Precision, Recall, F1-Score)

ในส่วนการสอบมาตรฐานคุณวุฒิวิชาชีพ Data Engineer ระดับ 3 มีดังนี้

70204: Explore Data

  • เข้าใจการทำ EDA ข้อมูลด้วย RapidMiner โดยสามารถดูการกระจายตัวของข้อมูลได้ในรูปแบบกราฟปกติ (Normal Distribution), กราฟเบ้ขวา/ซ้าย เกิดจากการวัดด้วยเวลาหรือนับจำนวน (Positively/Negatively Skewed) และการแจกแจงแบบ 2 ยอด จากการรวมกันของข้อมูลหลายแหล่ง (Bimodal Distribution)
  • การเลือกข้อมูลและเตรียมข้อมูลก่อนการวิเคราะห์ (Distinguish Attribute)
  • การวิเคราะห์ข้อมูลตัวแปรเดียว (Univariate Analysis)
  • การวิเคราะห์ข้อมูลมากกว่า 1 ตัวแปร (Bi-/Multivariate Analysis)
  • การมองหาสิ่งผิดปกติในชุดข้อมูล (Detect Aberrant and Missing Values)
  • การวิเคราะห์หาข้อมูลที่ผิดปกติไปจากค่ากลาง (Detect Outlier)
  • การสร้าง Feature เพื่อนำไปวิเคราะห์เชิงลึก (Feature Engineering)
  • การเรียนภาษา python, pandas, Matplotlib, NumPy, PySpark ในการสอบจะใช้ส่วนนี้ค่อนข้างเยอะในภาคทฤษฎีซึ่งมีทั้งแบบปรนัยและอัตนัยในส่วนของการยกตัวอย่างและอธิบาย Code เพื่อทำกระบวนการ EDA

70301: Select Structured Data

  • การเรียนรู้ SQL ซึ่งเป็นหัวใจหลักในการวิเคราะห์ข้อมูลผ่าน MySQL Server ในการสอบจะใช้ส่วนนี้ในภาคทฤษฎีที่เป็นอัตนัย
  • การอธิบายคุณลักษณะของข้อมูล (Metadata) และการอธิบาย Type เพื่อใช้ในการเก็บข้อมูลประเภทตาราง (Data Dictionary) ประกอบด้วย ชื่อ Attribute (Data Item), ชนิดของข้อมูลในรูปแบบ (Data Type) ประกอบด้วย String, Integer, Floating และ Boolean, การกำหนดรูปแบบข้อมูล (Data Format), จำนวนอักขระ (Bytes of Storage), คำอธิบาย (Description), ข้อกำหนดการตรวจสอบข้อมูล (Validation)
  • การเรียนรู้ระบบฐานข้อมูลเชิงสัมพันธ์ (Relational Database) ผ่าน Entity Relationship Model (E-R Model) ประกอบด้วย Entity, Attribute และ Relationship ซึ่งมีความสัมพันธ์แบบ 1–1, 1-N, M-N (ในการสอบจะใช้ส่วนนี้ในภาคปฏิบัติของ Data Engineer ที่เป็นการสอบสัมภาษณ์เพื่อให้อธิบาย)
  • การลดความซ้ำซ้อนของข้อมูลผ่านการทำ Normalization ข้อมูล

70302: Transform Data

  • การแปลงข้อมูลโดยใช้ค่าทางสถิติในการวิเคราะห์ข้อมูลและปรับปรุงข้อมูล ประกอบด้วย การปรับช่วงขอบเขตข้อมูล (Feature Scaling), การทำ Min-Max Normalization เพื่อช่วยปรับช่วงข้อมูลในรูป [0,1], การใช้ค่าเฉลี่ยเพื่อปรับข้อมูลแทนการใช้ Min-Max Normalization ที่เรียกว่า Mean Normalization หรือการนำข้อมูล Feature/Column มาปรับให้ Mean = 0 และ Standard Deviation = 1 หรือที่เรียกว่า Z-score Normalization
  • การทำ Feature Scaling โดยใช้ Machine Learning (ในส่วนนี้อาจารย์สอนเสริมเพื่อนำมาใช้ในการทำงาน)
  • การทำ Normalization และ Standardization ด้วย sklearn

ในส่วนนี้ทางอาจารย์จะมีการสอบในภาคปฎิบัติเพื่อทดสอบว่า ถ้าเจอสถานการณ์ที่ข้อมูลไม่พร้อมที่จะนำไปวิเคราะห์ข้อมูล เราจะมีกระบวนการจัดการข้อมูลอย่างไรก่อนที่จะนำเข้าข้อมูล เช่น การเจอค่าว่าง หรือ Missing Value ข้อมูลซ้ำซ้อน ค่า NULL หรือเจอว่าข้อมูลมีความผิดปกติ ไม่สามารถนำไปใช้งานได้ เป็นต้น

70305: Format Data

  • ในส่วนนี้จะอยู่ในข้อสอบปรนัยของ Data Engineer ประกอบด้วย การใช้ Pandas ในการ Sorting ข้อมูลหรือการ Grouping ข้อมูลเพื่อให้ได้ DataFrame ออกมา

เมื่อผ่านการอบรม เป็นเวลา 4 วันแล้ว จะมีการจัดสอบเมื่อไหร่ ?

หลังจากเรียนจบภาคทฤษฎีแล้วก็จะมีการให้ซ้อมทำข้อสอบก่อนสอบจริง ซึ่งเราจะต้องนำผลสอบที่ผ่านการซ้อมสอบไปใช้ในการยื่นเพื่อขอใบประกอบวิชาชีพกับทาง TPQI ด้วย

และก็มาเริ่มเข้าสู่การสอบจริง อาจารย์จะนัดสอบเป็นรอบๆ โดยจะแบ่งออกเป็น 2 รอบ คือ การสอบทฤษฎีโดยผ่านการสอบแบบออนไลน์ จำนวน 3 ชั่วโมง และการสอบภาคปฏิบัติจำนวน 15 นาทีใน ระดับ 3 และการสอบภาคปฏิบัติโดยใช้เวลา 45 นาที โดยทุกรอบจะครอบคลุมเนื้อหาที่เรียนทั้งหมด

เมื่อสอบผ่านแล้ว ทำไงต่อ?

เมื่อสอบผ่านแล้ว ทุกคนจะต้องเข้าไปที่เว็บไซต์ของ TPQI เพื่อยื่นขอใบประกอบวิชาชีพภายในช่วงเวลาที่กำหนด หลังจากนั้น ใบประกอบวิชาชีพจะถูกส่งมาที่มหาวิทยาลัยมหิดล และทางมหาวิทยาลัยจะส่งมาให้เราที่บ้านอีกที

ใบประกอบวิชาชีพ Data Analyst (นักวิเคราะห์ข้อมูล) และ ใบประกอบวิชาชีพ Data Engineer (ผู้ปฏิบัติงานด้านวิศวกรรมข้อมูล) ระดับ 3

สุดท้าย… บทความนี้จะเป็นประโยชน์ไม่มากก็น้อยกับผู้ที่มีความสนใจจะเพิ่มทักษะด้าน Data Science ให้สูงขึ้น และสามารถนำใบประกอบวิชาชีพไปสมัครงานหรือไปเพิ่มคุณวุฒิให้กับตนเองได้

--

--

Top'p Kullawattana

Coding Stylist of Kept by Krungsri, I have experience of 10 years in the design and implementation of enterprise applications.