เครื่องมือที่ใช้ในการวิเคราะห์ข้อมูล
การวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining กำลังเป็นที่นิยมในปัจจุบัน ซึ่งกระแสสืบเนื่องมาจาก คำว่า Big Data คือปริมาณข้อมูลขนาดใหญ่ การวิเคราะห์ด้วยเทคนิดเดิม เช่น excel คงไม่ได้ หรืออาจต้องใช้เวลานาน ปัจจุบันจึงมีเครื่องมือหรือซอฟต์แวร์ที่ช่วยในการวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining อยู่หลายตัว เช่น RapidMiner, Orage, Tableau ซึ่งซอฟต์แวร์ที่กล่าวถึงเป็นเป็นซอฟต์แวร์ประเภท GUI ใช้งานง่าย เหมาะสำหรับผู้เริ่มต้น ส่วนซอฟต์แวร์อีกประเภทหนึ่งคือซอฟต์แวร์ที่ต้องเขียนโค้ดเพื่อวิเคราะห์ข้อมูล เช่น R, Python
บทความนี้จะขอแนะนำการใช้งานซอฟต์แวร์ RapidMiner version 7.3
RapidMiner เป็นซอฟต์แวร์ประเภท freemium สามารถใช้งานได้ฟรี (ในปริมาณข้อมูลที่จำกัด ไม่เกิน 10,000 records) แต่ถ้าต้องการวิเคราะห์ข้อมูลขนาดใหญ่ขึ้นก็ต้องจ่ายเพิ่ม สำหรับผู้เริ่มต้น RapidMiner ถือเป็นเครื่องมือที่จะทำให้คุณเข้าใจ Data Science, Machine Learning ได้ดียิ่งขึ้น
แนะนำการใช้งาน RapidMiner ในเบื้องต้น
ข้อดีของ RapidMiner
- รองรับการใช้งานไฟล์ได้หลายประเภท เช่น ไฟล์ Text, Excel, CSV (ซึ่งโดยส่วนใหญ่ข้อมูลเราก็จะถูกเป็นไว้ในไฟล์ excel หรือ csv อยู่แล้ว)
- สามารถแสดงข้อมูล Visualization ได้หลากหลาย เช่น scatter plot, histogram
- สามารถแสดงผลและ export file ออกมาวิเคราะห์และใช้งานต่อได้อย่างสะดวก
- มี Algorithms ที่นิยมให้ใช้งานครบ เช่น การทำ data preprocessing (filter missing value, detect outlier), classification (decision tree, naive bayes, SVM)