การเรียนรู้ของระบบจะมีประสิทธิภาพหรือไม่ให้ดูที่ข้อมูลที่คุณป้อนลงไปเพื่อฝึกฝนค่ะ
ดังนั้น
สิ่งที่สำคัญคือใช้ข้อมูลคุณภาพสูงให้ได้มากที่สุด
แต่ถ้าข้อมูลเป็นเรื่องที่สำคัญ
เราก็ควรสอบถามที่มาที่ไปของข้อมูลที่ใช้ฝึกด้วยนะคะ
คอมพิวเตอร์มักรวบรวมข้อมูลที่ใช้ฝึกจากคนอื่นๆ
เช่นคุณและฉัน
โดยเราไม่ต้องพยายามทำอะไรเลย
บริการวิดีโอสตรีมมิงจะติดตามสิ่งที่คุณดู
ก่อนจดจำรูปแบบ
ในข้อมูลนั้น แล้วแนะนำสิ่งที่คุณอาจอยากดูในอนาคต
หรือไม่คุณก็อาจต้องให้ความช่วยเหลือ
เหมือนตอนที่เว็บไซต์ุขอให้คุณระบุป้ายสัญญาณและรูปถ่ายของถนน
คุณมีข้อมูลที่ใช้ฝึกเพื่อช่วยให้การเรียนรู้ของระบบมองเห็น
หรือแม้กระทั่งขับรถได้
นักวิจัยทางการแพทย์ใช้ภาพของยาเป็นข้อมูลในการฝึกเพื่อสอน
ให้คอมพิวเตอร์จดจำและวินิจฉัยโรค
การเรียนรู้ของระบบต้องใช้ภาพเป็นร้อยเป็นพันภาพ
และคำแนะนำจากแพทย์
ที่รู้ว่าเราต้องมองหาอะไร
ก่อนทำการวินิจฉัยได้อย่างถูกต้อง
แต่ถึงจะมีตัวอย่างเป็นพันๆ ตัวอย่าง
คอมพิวเตอร์ก็ยังมีปัญหาในเรื่องการคาดการณ์
ถ้ารวบรวมข้อมูลเอ็กซ์เรย์จากแค่เพศชายอย่างเดียว
การคาดการณ์ของคอมพิวเตอร์อาจใช้ได้กับผู้ชายเท่านั้น
แต่อาจไม่จดจำโรคเมื่อขอให้วินิจฉัยฟิล์มเอ็กซ์เรย์ของผู้หญิง
จุดบอดนี้ที่ได้จากข้อมูลการฝึกฝนทำให้เกิดอคติได้
ข้อมูลที่เอนเอียงเช่นนี้จะชื่นชอบเรื่องหนึ่ง
และลดทอนความสำคัญหรือมองข้ามเรื่องอื่น
ทั้งวิธีการรวบรวมข้อมูลเพื่อฝึกหัด
ผู้ที่รวบรวมข้อมูลและวิธีใช้ข้อมูล
ทำให้มีโอกาสที่ข้อมูลเหล่านั้นจะมีอคติรวมอยู่ด้วย
เมื่อเรียนรู้จากข้อมูลที่มีอคติ
คอมพิวเตอร์ก็อาจมีอคติในการคาดการณ์ไปด้วย
ไม่ว่าผู้ที่ฝึกสอนคอมพิวเตอร์จะทราบหรือไม่ก็ตาม
เมื่อคุณพิจารณาข้อมูลที่ใช้ฝึก
แนะนำให้ถามคำถามสองข้อต่อไปนี้กับตัวเอง
มีข้อมูลมากพอที่จะใช้ฝึกคอมพิวเตอร์ได้อย่างถูกต้องรึเปล่า
และข้อมูลนี้แทนสถานการณ์จำลองและผู้ใช้โดยไม่มีอคติรึเปล่า
ตรงนี้คือจุดที่คุณในฐานะผู้ฝึกสอนจะมีบทบาทสำคัญ
คุณเองเป็นคนเลือกว่าจะป้อนข้อมูลที่ไม่มีอคติให้กับคอมพิวเตอร์
ซึ่งก็คือการรวบรวมตัวอย่างจำนวนมากจากหลายๆ แหล่ง
โปรดจำไว้ว่า
เมื่อคุณคัดสรรและเลือกข้อมูลให้การเรียนรู้ของระบบ
คุณกำลังใช้ข้อมูลการฝึกฝน ไม่ใช่โค้ด
เพื่อตั้งโปรแกรมอัลกอริธึม
และข้อมูลนั่นก็คือโค้ด
คุณป้อนข้อมูลดีเท่าไร
คอมพิวเตอร์ก็จะเรียนรู้ได้ดีขึ้นเท่านั้น