1 00:00:07,360 --> 00:00:11,760 يعد التعلم الآلي جيداً فقط عندما تكون بيانات التدريب المدخلة جيدة أيضاً. 2 00:00:11,800 --> 00:00:15,820 لذا، من الأهمية القصوى أن تستخدم بيانات ذات جودة عالية، وبأعداد كبيرة منها. 3 00:00:16,760 --> 00:00:21,960 لكن، إذا كانت البيانات هامة، هنا يجدر التساؤل عن المصدر الذي تأتي منه؟ 4 00:00:22,280 --> 00:00:26,260 غالبا، يعمل الحاسوب على تجميع البيانات من الأشخاص امثالنا، 5 00:00:26,260 --> 00:00:27,860 بدون بذل اي جهد. 6 00:00:28,440 --> 00:00:31,480 قد تعمل خدمة تتبع الفيديو على تتبع ما تشاهده، ثم بعد ذلك، يمكنها تميز المحتوى ووضعه في شكل أنماط 7 00:00:31,660 --> 00:00:36,000 في بيانات توصى لك بما قد تشاهده لاحقاً. 8 00:00:37,420 --> 00:00:43,200 وفي أحيان أخرى، قد يطلب منك المساعدة مباشرة، مثلاً عندما يطلب منك موقع الويب استكشاف إشارات الشوارع والصور، 9 00:00:43,780 --> 00:00:49,280 فأنت تقدم بيانات تدريبية لمساعدة الآلة على تعلم الرؤية، وحتى على تولي القيادة يوماً ما. 10 00:00:52,320 --> 00:00:56,440 يمكن للباحثين الطبيين استخدام الصور الطبية باعتبارها بيانات تدريبية من أجل تعليم 11 00:00:56,520 --> 00:00:59,900 أجهزة الحاسوب طريقة التعرف على الأمراض وتشخيصها. 12 00:01:00,300 --> 00:01:05,560 يحتاج التعلم الآلي لمئات وآلاف الصور، وتوجيه تدريبي من الطبيب 13 00:01:05,640 --> 00:01:09,920 الذي يعلم ما يتم البحث عنه قبل أن يتم التعرف على المرض بصورة صحيحة. 14 00:01:10,520 --> 00:01:15,540 حتى في ظل وجود آلاف الأمثلة، فقد توجد مشكلات مع عمليات التنبؤ التي يقوم بها الحاسوب. 15 00:01:15,880 --> 00:01:20,660 ففي حالة تجميع بيانات الأشعة السينية من قبل الرجال فقط، فقد تصيح كل عمليات التنبؤ التي يقوم بها الحاسوب صالحة للرجال دون غيرهم. 16 00:01:21,880 --> 00:01:26,300 وقد لا يتمكن الحاسوب من تحديد الأمراض عندما يطلب منه إجراء تشخيص بالأشعة السينية على السيدات. 17 00:01:26,620 --> 00:01:30,820 هذه النقطة العمياء في البيانات التدريبية التي تقوم بإنشاء شيء ما يطلق عليه اسم "التحيز". 18 00:01:31,260 --> 00:01:36,420 هذه البيانات التحيزية تعمل على تفضيل بعض الأشياء عن بعضها البعض، أو لا تضع أشياء في أولوياتها، أو تستثني أخرى. 19 00:01:36,780 --> 00:01:41,800 بحسب الطريقة التي يتم بها تجميع بيانات التدريب، ومن القائم على تجميعها، وطريقة تغذية البيانات، 20 00:01:41,800 --> 00:01:45,340 توجد احتمالية بأن يكون التحيز البشري متضمناً في البيانات. 21 00:01:45,880 --> 00:01:50,700 وبتعلم البيانات التحيزية، فقد يقوم الحاسوب بإجراء عمليات تنبؤ متحيزة، 22 00:01:50,780 --> 00:01:54,320 سواء كأن الأشخاص الذين يدربون الحاسوب على إدراك بهذا الأمر أم لا. 23 00:01:54,760 --> 00:01:58,400 عند قيامك بالبحث عن بيانات التدريب، اطرح على نفسك سؤالين: 24 00:01:58,640 --> 00:02:01,600 هل هذه البيانات كافية لتدريب الحاسوب بدقة؟ 25 00:02:02,320 --> 00:02:06,860 وهل تمثل هذه البيانات كل السيناريوهات الممكنة والمستخدمين بدون أي تحيز؟ 26 00:02:07,460 --> 00:02:11,040 ومن هنا يجب أن يلعب التدريب البشري دوراً حيوياً. 27 00:02:11,160 --> 00:02:14,500 الأمر يرجع إليك في مسألة تقديم بيانات غير متحيزة لآلتك. 28 00:02:14,500 --> 00:02:18,160 ويعني هذا تجميع أطنان من الأمثلة، ومن الكثير من المصادر. 29 00:02:19,300 --> 00:02:22,580 تذكر بأنه عند قيامك بانتقاء البيانات واختيارها من أجل التعلم الآلي، 30 00:02:22,580 --> 00:02:26,660 فأنك تقوم بشكل فعلي ببرمجة الخورزاميات باستخدام بيانات التدريب بدلاً من التعليمات البرمجية. 31 00:02:27,100 --> 00:02:29,780 البيانات هي التعليمات البرمجية. 32 00:02:30,180 --> 00:02:34,680 كلما قدمت بيانات أفضل، كلما تعلم الحاسوب بشكل أفضل.