การเรียนรู้ของระบบจะมีประสิทธิภาพหรือไม่ให้ดูที่ข้อมูลที่คุณป้อนลงไปเพื่อฝึกฝนค่ะ ดังนั้น สิ่งที่สำคัญคือใช้ข้อมูลคุณภาพสูงให้ได้มากที่สุด แต่ถ้าข้อมูลเป็นเรื่องที่สำคัญ เราก็ควรสอบถามที่มาที่ไปของข้อมูลที่ใช้ฝึกด้วยนะคะ คอมพิวเตอร์มักรวบรวมข้อมูลที่ใช้ฝึกจากคนอื่นๆ เช่นคุณและฉัน โดยเราไม่ต้องพยายามทำอะไรเลย บริการวิดีโอสตรีมมิงจะติดตามสิ่งที่คุณดู ก่อนจดจำรูปแบบ ในข้อมูลนั้น แล้วแนะนำสิ่งที่คุณอาจอยากดูในอนาคต หรือไม่คุณก็อาจต้องให้ความช่วยเหลือ เหมือนตอนที่เว็บไซต์ุขอให้คุณระบุป้ายสัญญาณและรูปถ่ายของถนน คุณมีข้อมูลที่ใช้ฝึกเพื่อช่วยให้การเรียนรู้ของระบบมองเห็น หรือแม้กระทั่งขับรถได้ นักวิจัยทางการแพทย์ใช้ภาพของยาเป็นข้อมูลในการฝึกเพื่อสอน ให้คอมพิวเตอร์จดจำและวินิจฉัยโรค การเรียนรู้ของระบบต้องใช้ภาพเป็นร้อยเป็นพันภาพ และคำแนะนำจากแพทย์ ที่รู้ว่าเราต้องมองหาอะไร ก่อนทำการวินิจฉัยได้อย่างถูกต้อง แต่ถึงจะมีตัวอย่างเป็นพันๆ ตัวอย่าง คอมพิวเตอร์ก็ยังมีปัญหาในเรื่องการคาดการณ์ ถ้ารวบรวมข้อมูลเอ็กซ์เรย์จากแค่เพศชายอย่างเดียว การคาดการณ์ของคอมพิวเตอร์อาจใช้ได้กับผู้ชายเท่านั้น แต่อาจไม่จดจำโรคเมื่อขอให้วินิจฉัยฟิล์มเอ็กซ์เรย์ของผู้หญิง จุดบอดนี้ที่ได้จากข้อมูลการฝึกฝนทำให้เกิดอคติได้ ข้อมูลที่เอนเอียงเช่นนี้จะชื่นชอบเรื่องหนึ่ง และลดทอนความสำคัญหรือมองข้ามเรื่องอื่น ทั้งวิธีการรวบรวมข้อมูลเพื่อฝึกหัด ผู้ที่รวบรวมข้อมูลและวิธีใช้ข้อมูล ทำให้มีโอกาสที่ข้อมูลเหล่านั้นจะมีอคติรวมอยู่ด้วย เมื่อเรียนรู้จากข้อมูลที่มีอคติ คอมพิวเตอร์ก็อาจมีอคติในการคาดการณ์ไปด้วย ไม่ว่าผู้ที่ฝึกสอนคอมพิวเตอร์จะทราบหรือไม่ก็ตาม เมื่อคุณพิจารณาข้อมูลที่ใช้ฝึก แนะนำให้ถามคำถามสองข้อต่อไปนี้กับตัวเอง มีข้อมูลมากพอที่จะใช้ฝึกคอมพิวเตอร์ได้อย่างถูกต้องรึเปล่า และข้อมูลนี้แทนสถานการณ์จำลองและผู้ใช้โดยไม่มีอคติรึเปล่า ตรงนี้คือจุดที่คุณในฐานะผู้ฝึกสอนจะมีบทบาทสำคัญ คุณเองเป็นคนเลือกว่าจะป้อนข้อมูลที่ไม่มีอคติให้กับคอมพิวเตอร์ ซึ่งก็คือการรวบรวมตัวอย่างจำนวนมากจากหลายๆ แหล่ง โปรดจำไว้ว่า เมื่อคุณคัดสรรและเลือกข้อมูลให้การเรียนรู้ของระบบ คุณกำลังใช้ข้อมูลการฝึกฝน ไม่ใช่โค้ด เพื่อตั้งโปรแกรมอัลกอริธึม และข้อมูลนั่นก็คือโค้ด คุณป้อนข้อมูลดีเท่าไร คอมพิวเตอร์ก็จะเรียนรู้ได้ดีขึ้นเท่านั้น