WEBVTT 00:00:07.360 --> 00:00:11.760 يعد التعلم الآلي جيداً فقط عندما تكون بيانات التدريب المدخلة جيدة أيضاً. 00:00:11.800 --> 00:00:15.820 لذا، من الأهمية القصوى أن تستخدم بيانات ذات جودة عالية، وبأعداد كبيرة منها. 00:00:16.760 --> 00:00:21.960 لكن، إذا كانت البيانات هامة، هنا يجدر التساؤل عن المصدر الذي تأتي منه؟ 00:00:22.280 --> 00:00:26.260 غالبا، يعمل الحاسوب على تجميع البيانات من الأشخاص امثالنا، 00:00:26.260 --> 00:00:27.860 بدون بذل اي جهد. 00:00:28.440 --> 00:00:31.480 قد تعمل خدمة تتبع الفيديو على تتبع ما تشاهده، ثم بعد ذلك، يمكنها تميز المحتوى ووضعه في شكل أنماط 00:00:31.660 --> 00:00:36.000 في بيانات توصى لك بما قد تشاهده لاحقاً. 00:00:37.420 --> 00:00:43.200 وفي أحيان أخرى، قد يطلب منك المساعدة مباشرة، مثلاً عندما يطلب منك موقع الويب استكشاف إشارات الشوارع والصور، 00:00:43.780 --> 00:00:49.280 فأنت تقدم بيانات تدريبية لمساعدة الآلة على تعلم الرؤية، وحتى على تولي القيادة يوماً ما. 00:00:52.320 --> 00:00:56.440 يمكن للباحثين الطبيين استخدام الصور الطبية باعتبارها بيانات تدريبية من أجل تعليم 00:00:56.520 --> 00:00:59.900 أجهزة الحاسوب طريقة التعرف على الأمراض وتشخيصها. 00:01:00.300 --> 00:01:05.560 يحتاج التعلم الآلي لمئات وآلاف الصور، وتوجيه تدريبي من الطبيب 00:01:05.640 --> 00:01:09.920 الذي يعلم ما يتم البحث عنه قبل أن يتم التعرف على المرض بصورة صحيحة. 00:01:10.520 --> 00:01:15.540 حتى في ظل وجود آلاف الأمثلة، فقد توجد مشكلات مع عمليات التنبؤ التي يقوم بها الحاسوب. 00:01:15.880 --> 00:01:20.660 ففي حالة تجميع بيانات الأشعة السينية من قبل الرجال فقط، فقد تصيح كل عمليات التنبؤ التي يقوم بها الحاسوب صالحة للرجال دون غيرهم. 00:01:21.880 --> 00:01:26.300 وقد لا يتمكن الحاسوب من تحديد الأمراض عندما يطلب منه إجراء تشخيص بالأشعة السينية على السيدات. 00:01:26.620 --> 00:01:30.820 هذه النقطة العمياء في البيانات التدريبية التي تقوم بإنشاء شيء ما يطلق عليه اسم "التحيز". 00:01:31.260 --> 00:01:36.420 هذه البيانات التحيزية تعمل على تفضيل بعض الأشياء عن بعضها البعض، أو لا تضع أشياء في أولوياتها، أو تستثني أخرى. 00:01:36.780 --> 00:01:41.800 بحسب الطريقة التي يتم بها تجميع بيانات التدريب، ومن القائم على تجميعها، وطريقة تغذية البيانات، 00:01:41.800 --> 00:01:45.340 توجد احتمالية بأن يكون التحيز البشري متضمناً في البيانات. 00:01:45.880 --> 00:01:50.700 وبتعلم البيانات التحيزية، فقد يقوم الحاسوب بإجراء عمليات تنبؤ متحيزة، 00:01:50.780 --> 00:01:54.320 سواء كأن الأشخاص الذين يدربون الحاسوب على إدراك بهذا الأمر أم لا. 00:01:54.760 --> 00:01:58.400 عند قيامك بالبحث عن بيانات التدريب، اطرح على نفسك سؤالين: 00:01:58.640 --> 00:02:01.600 هل هذه البيانات كافية لتدريب الحاسوب بدقة؟ 00:02:02.320 --> 00:02:06.860 وهل تمثل هذه البيانات كل السيناريوهات الممكنة والمستخدمين بدون أي تحيز؟ 00:02:07.460 --> 00:02:11.040 ومن هنا يجب أن يلعب التدريب البشري دوراً حيوياً. 00:02:11.160 --> 00:02:14.500 الأمر يرجع إليك في مسألة تقديم بيانات غير متحيزة لآلتك. 00:02:14.500 --> 00:02:18.160 ويعني هذا تجميع أطنان من الأمثلة، ومن الكثير من المصادر. 00:02:19.300 --> 00:02:22.580 تذكر بأنه عند قيامك بانتقاء البيانات واختيارها من أجل التعلم الآلي، 00:02:22.580 --> 00:02:26.660 فأنك تقوم بشكل فعلي ببرمجة الخورزاميات باستخدام بيانات التدريب بدلاً من التعليمات البرمجية. 00:02:27.100 --> 00:02:29.780 البيانات هي التعليمات البرمجية. 00:02:30.180 --> 00:02:34.680 كلما قدمت بيانات أفضل، كلما تعلم الحاسوب بشكل أفضل.