09 มีนาคม 2553

Data Classification

เป็นกระบวนการสร้างโมเดลจัดการข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้ เพื่อแสดงให้เห็นความแตกต่างระหว่าง class หรือ กลุ่มของข้อมูลได้ และเพื่อทำนายว่าข้อมูลนี้ ควรจัดอยู่ใน classใด ซึ่งโมเดลที่ใช้จำแนกข้อมูลออกเป็นกลุ่มตามที่ได้กำหนดไว้ จะขึ้นอยู่กับการวิเคราะห์เซตของข้อมูลทดลอง (Training data) โดยนำ Training data มาสอนให้ระบบเรียนรู้ว่ามีข้อมูลใดอยู่ในclass เดียวกันบ้าง

ผลลัพธ์ที่ได้จากการเรียนรู้ คือ โมเดลจัดประเภทข้อมูล ( classifier model ) โมเดลนี้ สามารถแทนได้ในหลายรูปแบบ เช่น Classification (IF-THEN) rules, Decision Tree, Mathematical formulae หรือ Neural networks และจะนำข้อมูลส่วนที่เหลือจาก training data เป็นข้อมูลที่ใช้ทดสอบ ( testing data ) ซึ่งเป็นกลุ่มที่แท้จริงของข้อมูลที่ใช้ทดสอบนี้จะถูกนำมาเปรียบเทียบกับกลุ่มที่หามาได้จากโมเดลเพื่อทดสอบความถูกต้อง โดยเราจะปรับปรุงโมเดลจนกว่าจะได้ค่าความถูกต้องในระดับที่น่าพอใจ หลังจากนั้นเมื่อมีข้อมูลใหม่เข้ามา เราจะนำข้อมูลผ่านโมเดล โดยโมเดลจะสามารถทำนายกลุ่มของข้อมูลนี้ได้


# Data Classification มี 2 ขั้นตอนคือ #


1. Learning : ข้อมูลทดลอง (Trainning Data) จะถูกวิเคราะห์โดย algorithm ของ classification และ Learning model ถูกแทนในรูปของ classification rules

2. Classification เมื่อได้ classification rules จะมีการตรวจสอบว่ากฎที่ได้สามารถทำนายได้ถูกต้องแม่นยำหรือไม่ โดยการนำเอา test data ที่เราทราบแล้วว่ามันอยู่ในกลุ่มใด ไปเปรียบเทียบกับ learning model จากข้อ 1 5ถ้าหากว่าผลที่ได้มีความถูกต้อง ก็จะสามารถนำ model หรือกฎที่ได้ไปทำนาย credit_rating ของข้อมูลลูกค้าที่เข้ามาใหม่ได้


http://www2.cs.science.cmu.ac.th/alumni/comp18/Seminar/DataMining/dataclassification.htm

ไม่มีความคิดเห็น:

แสดงความคิดเห็น