Machine learning उतना ही बेहतर होगा जितना ट्रेनिंग डाटा आप उसमें डालेंगे। तो, बहुत सारे हाई क्वालिटी डाटा का उपयोग करना काफी आवश्यक है। लेकिन यदि डाटा महत्वपूर्ण है, फिर यह पूछना जरूरी है कि यह ट्रेनिंग डाटा कहां से आता है? अक्सर, कंप्यूटर मेरे और आपके जैसे लोगों से ट्रेनिंग डाटा इकट्ठा करती है, इसके लिए हमें कोई प्रयास नहीं करना पड़ता। एक वीडियो स्ट्रीमिंग सेवा आप क्या देखते हैं उसे ट्रैक कर रहा होता है, फिर वह डाटा में पैटर्न को पहचानने लगता है जिससे की वह आपको सलाह दे सके की आपको अगला क्या देखना चाहिए। अन्य समय में, आपको मदद करने के लिए सीधा कहा जाता है, जैसे जब कोई वेबसाइट आपको स्ट्रीट साइन या फोटो को चिन्हित करने के लिए कहता है, जिससे मशीन सीख सके या शायद कभी ड्राइव भी कर सके इसलिए आप ट्रेनिंग डाटा मुहैया करा रहे हैं। मेडिकल शोधकर्ता कंप्यूटर को बीमारियों का निदान कैसे करना है यह सिखाने के लिए प्रशिक्षण डेटा के रूप में मेडिकल तस्वीरों का उपयोग कर सकते हैं। Machine Learning को सैकड़ों और हजारों तस्वीरों की आवश्यकता होती है, और एक डॉक्टर से प्रशिक्षण दिशा जो जानता है कि उसे क्या देखना है, इससे पहले कि वह बीमारी की सही पहचान कर सके। यहां तक की हजारों उदाहरणों के बावजूद, कंप्यूटर के भविष्यवाणी में गड़बड़ी हो सकती है। यदि X-ray डाटा केवल पुरुषों से इकट्ठा की गई हो, फिर हो सकता है कंप्यूटर की भविष्यवाणी केवल पुरुषों के लिए ही काम करें। अगर किसी महिला के X-ray को पहचानने के लिए दिया जाए तो हो सकता है कि यह बीमारी का निदान ना कर पाए। प्रशिक्षण डेटा में यह अस्पष्ट बिंदु पूर्वाग्रह को जन्म देता है। पक्षपातपूर्ण डाटा कुछ चीजों का पक्ष लेती है और बाकियों को कम प्राथमिकता या दरकिनार कर देती है। इस बात पर निर्भर करते हुए की ट्रेनिंग डाटा को कैसे इकट्ठा किया जाता है, कौन इसे इकट्ठा कर रहा है, और कैसे इस डाटा को कंप्युटर मे डाला जा रहा है संभावना है कि इंसानी पूर्वाग्रह भी इस डाटा में शामिल है। पूर्वाग्रह ग्रस्त डाटा से सीख कर, कंप्यूटर पूर्वाग्रह युक्त भविष्यवाणियां कर सकता है, चाहे कंप्यूटर को ट्रेनिंग देने वाले लोग इससे अवगत हो या नहीं हो। जब आप ट्रेनिंग डाटा को देख रहे हैं, अपने आप से दो सवाल पूछिए: क्या यह डाटा पर्याप्त है इस कंप्यूटर को प्रशिक्षण देने के लिए? और, क्या यह डाटा बिना पूर्वाग्रह के सभी यूजर और संभावित परिदृश्यों का प्रतिनिधित्व कर रहा है? यहीं पर आप, एक इंसानी ट्रैनर के रूप में एक महत्वपूर्ण भूमिका निभा सकते हैं। यह आप पर निर्भर करता है कि आप मशीन को पूर्वाग्रह रहित डाटा प्रदान करें। इसका अर्थ है कि कई सारे स्रोतों से, बहुत सारे उदाहरण इकट्ठा करना है। याद रखें, जब आप मशीन लर्निंग के लिए डाटा का चयन कर रहे हैं, तो आप असल में कोड के बजाय ट्रेनिंग डाटा का उपयोग एल्गोरिदम के प्रोग्रामिंग के लिए कर रहे हैं डाटा ही कोड है। जितना बेहतर डाटा आप मुहैया कराएंगे, उतना ही बेहतर कंप्यूटर सीखेगा।