يعد التعلم الآلي جيداً فقط عندما تكون بيانات التدريب المدخلة جيدة أيضاً. لذا، من الأهمية القصوى أن تستخدم بيانات ذات جودة عالية، وبأعداد كبيرة منها. لكن، إذا كانت البيانات هامة، هنا يجدر التساؤل عن المصدر الذي تأتي منه؟ غالبا، يعمل الحاسوب على تجميع البيانات من الأشخاص امثالنا، بدون بذل اي جهد. تعمل خدمة تتبع الفيديو على تتبع ما تشاهده، ثم، يمكنها تمييز المحتوى ووضعه في شكل أنماط توصي لك بما قد تشاهده لاحقاً. وفي أحيان أخرى، قد يطلب منك المساعدة مباشرة، مثلاً عند طلب استكشاف إشارات الشوارع والصور، فأنت تقدم بيانات تدريبية لمساعدة الآلة على تعلم الرؤية، وحتى على تولي القيادة يوماً ما. يمكن للباحثين الطبيين استخدام الصور الطبية باعتبارها بيانات تدريبية من أجل تعليم أجهزة الحاسوب طريقة التعرف على الأمراض وتشخيصها. يحتاج التعلم الآلي لمئات وآلاف الصور، وتوجيه تدريبي من الطبيب الذي يعلم ما يتم البحث عنه قبل أن يتم التعرف على المرض بصورة صحيحة. حتى في ظل وجود آلاف الأمثلة، فقد توجد مشكلات مع عمليات التنبؤ التي يقوم بها الحاسوب. ففي حالة تجميع بيانات الأشعة السينية من قبل الرجال فقط، فقد تصيح كل عمليات التنبؤ التي يقوم بها الحاسوب صالحة للرجال دون غيرهم. وقد لا يتمكن الحاسوب من تحديد الأمراض عندما يطلب منه إجراء تشخيص بالأشعة السينية على السيدات. هذه النقطة العمياء في البيانات التدريبية التي تقوم بإنشاء شيء ما يطلق عليه اسم "التحيز". هذه البيانات التحيزية تعمل على تفضيل بعض الأشياء عن بعضها البعض، أو لا تضع أشياء في أولوياتها، أو تستثني أخرى. بحسب الطريقة التي يتم بها تجميع بيانات التدريب، ومن القائم على تجميعها، وطريقة تغذية البيانات، توجد احتمالية بأن يكون التحيز البشري متضمناً في البيانات. وبتعلم البيانات التحيزية، فقد يقوم الحاسوب بإجراء عمليات تنبؤ متحيزة، سواء كأن الأشخاص الذين يدربون الحاسوب على إدراك بهذا الأمر أم لا. عند قيامك بالبحث عن بيانات التدريب، اطرح على نفسك سؤالين: هل هذه البيانات كافية لتدريب الحاسوب بدقة؟ وهل تمثل هذه البيانات كل السيناريوهات الممكنة والمستخدمين بدون أي تحيز؟ ومن هنا يجب أن يلعب التدريب البشري دوراً حيوياً. الأمر يرجع إليك في مسألة تقديم بيانات غير متحيزة لآلتك. ويعني هذا تجميع أطنان من الأمثلة، ومن الكثير من المصادر. تذكر بأنه عند قيامك بانتقاء البيانات واختيارها من أجل التعلم الآلي، فأنك تقوم بشكل فعلي ببرمجة الخورزاميات باستخدام بيانات التدريب بدلاً من التعليمات البرمجية. البيانات هي التعليمات البرمجية. كلما قدمت بيانات أفضل، كلما تعلم الحاسوب بشكل أفضل.