-
Machine learning उतना ही बेहतर
होगा जितना ट्रेनिंग डाटा आप उसमें डालेंगे।
-
तो, बहुत सारे हाई क्वालिटी डाटा
का उपयोग करना काफी आवश्यक है।
-
लेकिन यदि डाटा महत्वपूर्ण है, फिर यह पूछना
जरूरी है कि यह ट्रेनिंग डाटा कहां से आता है?
-
अक्सर, कंप्यूटर मेरे और आपके जैसे
लोगों से ट्रेनिंग डाटा इकट्ठा करती है,
-
इसके लिए हमें कोई
प्रयास नहीं करना पड़ता।
-
एक वीडियो स्ट्रीमिंग सेवा आप क्या देखते हैं उसे ट्रैक कर
रहा होता है, फिर वह डाटा में पैटर्न को पहचानने लगता है
-
जिससे की वह आपको सलाह दे सके
की आपको अगला क्या देखना चाहिए।
-
अन्य समय में, आपको मदद
करने के लिए सीधा कहा जाता है,
-
जैसे जब कोई वेबसाइट आपको स्ट्रीट साइन
या फोटो को चिन्हित करने के लिए कहता है,
-
जिससे मशीन सीख सके या शायद कभी ड्राइव भी कर
सके इसलिए आप ट्रेनिंग डाटा मुहैया करा रहे हैं।
-
मेडिकल शोधकर्ता कंप्यूटर को बीमारियों
का निदान कैसे करना है यह सिखाने के लिए
-
प्रशिक्षण डेटा के रूप में मेडिकल
तस्वीरों का उपयोग कर सकते हैं।
-
Machine Learning को सैकड़ों और हजारों तस्वीरों की
आवश्यकता होती है, और एक डॉक्टर से प्रशिक्षण दिशा
-
जो जानता है कि उसे क्या देखना है,
इससे पहले कि वह बीमारी की सही पहचान कर सके।
-
यहां तक की हजारों उदाहरणों के बावजूद,
कंप्यूटर के भविष्यवाणी में गड़बड़ी हो सकती है।
-
यदि X-ray डाटा केवल पुरुषों से इकट्ठा की गई हो,
-
फिर हो सकता है कंप्यूटर की भविष्यवाणी
केवल पुरुषों के लिए ही काम करें।
-
अगर किसी महिला के X-ray को पहचानने के लिए दिया
जाए तो हो सकता है कि यह बीमारी का निदान ना कर पाए।
-
प्रशिक्षण डेटा में यह अस्पष्ट
बिंदु पूर्वाग्रह को जन्म देता है।
-
पक्षपातपूर्ण डाटा कुछ चीजों का पक्ष लेती है और
बाकियों को कम प्राथमिकता या दरकिनार कर देती है।
-
इस बात पर निर्भर करते हुए की ट्रेनिंग
डाटा को कैसे इकट्ठा किया जाता है,
-
कौन इसे इकट्ठा कर रहा है, और
कैसे इस डाटा को कंप्युटर मे डाला जा रहा है
-
संभावना है कि इंसानी पूर्वाग्रह
भी इस डाटा में शामिल है।
-
पूर्वाग्रह ग्रस्त डाटा से सीख कर, कंप्यूटर
पूर्वाग्रह युक्त भविष्यवाणियां कर सकता है,
-
चाहे कंप्यूटर को ट्रेनिंग देने वाले
लोग इससे अवगत हो या नहीं हो।
-
जब आप ट्रेनिंग डाटा को देख रहे हैं,
अपने आप से दो सवाल पूछिए:
-
क्या यह डाटा पर्याप्त है इस
कंप्यूटर को प्रशिक्षण देने के लिए?
-
और, क्या यह डाटा बिना पूर्वाग्रह के सभी यूजर और
संभावित परिदृश्यों का प्रतिनिधित्व कर रहा है?
-
यहीं पर आप, एक इंसानी ट्रैनर के रूप
में एक महत्वपूर्ण भूमिका निभा सकते हैं।
-
यह आप पर निर्भर करता है कि आप
मशीन को पूर्वाग्रह रहित डाटा प्रदान करें।
-
इसका अर्थ है कि कई सारे स्रोतों से,
बहुत सारे उदाहरण इकट्ठा करना है।
-
याद रखें, जब आप मशीन लर्निंग
के लिए डाटा का चयन कर रहे हैं,
-
तो आप असल में कोड के बजाय ट्रेनिंग डाटा का उपयोग
एल्गोरिदम के प्रोग्रामिंग के लिए कर रहे हैं
-
डाटा ही कोड है।
-
जितना बेहतर डाटा आप मुहैया
कराएंगे, उतना ही बेहतर कंप्यूटर सीखेगा।