เครื่องจะเรียนรู้ได้ดี
เมื่อมีข้อมูลการฝึกฝนที่ดี
ฉะนั้นการใช้ข้อมูลคุณภาพสูง
ในปริมาณมากจึงสำคัญ
ในเมื่อข้อมูลสำคัญ ก็น่าสนใจว่า
ข้อมูลการฝึกนั้นมาจากไหน
หลายครั้งที่คอมพิวเตอร์เก็บข้อมูลการฝึก
จากคนอย่างเรา ๆ ท่าน ๆ
โดยที่เราไม่ต้องพยายามอะไร
บริการสตรีมมิงวีดีโอ
อาจเก็บข้อมูลว่าเราชอบดูอะไร
ก่อนจำรูปแบบของข้อมูลนั้น
จะได้แนะนำเราได้ว่า
เราน่าจะอยากชมอะไรต่อ
บางทีมันก็ขอความช่วยเหลือจากเรา
เช่นเมื่อเว็บไซต์ถามเราว่า
ภาพไหนเป็นป้ายจราจรบ้าง
นั่นแหละคือการที่คุณมอบข้อมูลการฝึก
เพื่อช่วยให้เครื่องรู้จักการเห็น
และอาจขับรถได้สักวันหนึ่ง
นักวิจัยด้านการแพทย์อาจใช้ภาพ
ด้านการแพทย์เป็นข้อมูลการฝึก
เพื่อสอนให้คอมพิวเตอร์รู้จัก
และวินิจฉัยโรค
การเรียนรู้ของเครื่องอาศัยภาพ
หลายร้อยหลายพันภาพ
และการสอนจากแพทย์ที่รู้ว่า
ต้องมองหาอะไร
ก่อนที่มันจะสามารถระบุโรคได้อย่างถูกต้อง
แต่แม้จะมีหลายพันตัวอย่าง
ก็อาจเกิดปัญหาในการคาดการณ์
ของคอมพิวเตอร์ได้
หากมีการเก็บข้อมูลเอ็กซเรย์
จากผู้ชายอย่างเดียว
การคาดการณ์ของคอมพิวเตอร์ก็
อาจใช้ได้กับผู้ชายเท่านั้น
และอาจไม่รู้จักโรคที่เราขอ
ให้วินิจฉัยจากผลเอ็กซเรย์ของผู้หญิง
จุดบอดในข้อมูลการฝึกนี้
ก่อให้เกิดสิ่งที่เรียกว่าความลำเอียง
ข้อมูลที่ลำเอียง
จะให้ความสำคัญกับบางอย่าง
ไม่ให้ความสำคัญกับบางอย่าง
และตัดบางอย่างไป
ขึ้นอยู่กับการเก็บข้อมูลการฝึก
ใครเป็นคนเก็บ และมีการป้อนข้อมูลอย่างไร
ก็มีโอกาสที่จะมีอคติของมนุษย์ในข้อมูลค่ะ
เมื่อเรียนรู้จากข้อมูลที่ลำเอียง
คอมพิวเตอร์อาจคาดการณ์แบบมีอคติ
ไม่ว่าผู้ฝึกคอมพิวเตอร์จะรู้ตัวหรือไม่
เมื่อคุณหาข้อมูลการฝึก
ให้ถามตัวเองสองข้อ
ข้อมูลนี้เพียงพอต่อการฝึกคอมพิวเตอร์
อย่างแม่นยำไหม
และข้อมูลนี้นำเสนอทุกสถานการณ์และผู้ใช้
ที่เป็นไปได้โดยไม่ลำเอียงหรือยัง
คุณมีบทบาทสำคัญยิ่งในตรงนี้
ในฐานะผู้ฝึกที่เป็นมนุษย์
อยู่ที่คุณ
ว่าจะให้ข้อมูลที่ไม่ลำเอียงหรือไม่
อันหมายถึงตัวอย่างมากมายจากหลายแหล่ง
อย่าลืมว่าเมื่อคุณเลือกข้อมูล
ให้การเรียนรู้ของเครื่อง
คุณกำลังลงโปรแกรมให้อัลกอริธึม
ด้วยการใช้ข้อมูลการฝึกแทนโค้ด
ข้อมูลนี่แหละ คือโค้ด
ยิ่งมอบข้อมูลดีเท่าไหร่
คอมพิวเตอร์ยิ่งเรียนรู้ได้ดีเท่านั้นค่ะ