WEBVTT 00:00:07.360 --> 00:00:11.760 التعلم الآلي هو فقط بجودة بيانات التدريب التي تضعها فيه 00:00:11.800 --> 00:00:15.820 لذلك ، من المهم للغاية استخدام بيانات عالية الجودة ، والكثير منها 00:00:16.760 --> 00:00:21.960 ولكن إذا كانت البيانات مهمة ، يجدر السؤال من أين تأتي بيانات التدريب؟ 00:00:22.280 --> 00:00:26.260 في كثير من الأحيان ، تقوم أجهزة الكمبيوتر بجمع بيانات التدريب من أشخاص مثلك ومثلي 00:00:26.260 --> 00:00:27.860 دون أي جهد من جانبنا 00:00:28.440 --> 00:00:31.480 قد تتعقب خدمة دفق الفيديو ما تشاهده ، ثم يمكنها التعرف على الأنماط 00:00:31.660 --> 00:00:36.000 في تلك البيانات للتوصية بما قد ترغب في مشاهدته بعد ذلك 00:00:37.420 --> 00:00:40.180 في أوقات أخرى ، يُطلب منك المساعدة مباشرة ، على سبيل 00:00:40.205 --> 00:00:43.224 المثال عندما يطلب منك موقع ويب تحديد لافتات الشوارع والصور 00:00:43.780 --> 00:00:46.625 ، فأنت تقدم بيانات تدريبية لمساعدة الآلة على 00:00:46.650 --> 00:00:49.304 تعلم الرؤية ، وربما حتى القيادة ليوم واحد 00:00:52.320 --> 00:00:56.440 يمكن للباحثين الطبيين استخدام الصور الطبية كبيانات تدريبية لتعليم 00:00:56.520 --> 00:00:59.900 أجهزة الكمبيوتر كيفية التعرف على الأمراض وتشخيصها 00:01:00.300 --> 00:01:05.560 يحتاج التعلم الآلي إلى مئات وآلاف من الصور ، وتوجيه تدريبي من طبيب 00:01:05.640 --> 00:01:09.920 يعرف ما الذي يبحث عنه ، قبل أن يتمكن من تحديد المرض بشكل صحيح 00:01:10.520 --> 00:01:15.540 حتى مع وجود آلاف الأمثلة ، يمكن أن تكون هناك مشاكل في تنبؤات الكمبيوتر 00:01:15.880 --> 00:01:20.660 إذا تم جمع بيانات الأشعة السينية من الرجال فقط ، فقد تنجح تنبؤات الكمبيوتر للرجال فقط 00:01:21.880 --> 00:01:26.300 قد لا يتعرف على الأمراض عندما يُطلب منه تشخيص الأشعة السينية للمرأة 00:01:26.620 --> 00:01:30.820 هذه النقطة العمياء في بيانات التدريب تخلق شيئًا يسمى التحيز 00:01:31.260 --> 00:01:36.420 تفضل البيانات المتحيزة بعض الأشياء وتقلل من الأولوية أو تستبعد أخرى 00:01:36.780 --> 00:01:41.800 اعتمادًا على كيفية جمع بيانات التدريب ، ومن يقوم بالتجميع ، وكيفية تغذية البيانات 00:01:41.800 --> 00:01:45.340 هناك احتمال أن يتم تضمين التحيز البشري في البيانات 00:01:45.880 --> 00:01:50.700 من خلال التعلم من بيانات التحيز ، قد يقوم الكمبيوتر بعمل تنبؤات متحيزة 00:01:50.780 --> 00:01:54.320 سواء كان الأشخاص الذين يدربون الكمبيوتر على دراية بها أم لا 00:01:54.760 --> 00:01:58.400 عندما تنظر إلى بيانات التدريب ، : اسأل نفسك سؤالين 00:01:58.640 --> 00:02:01.600 هل هذه بيانات كافية لتدريب الكمبيوتر بدقة؟ 00:02:02.320 --> 00:02:06.860 وهل تمثل هذه البيانات جميع السيناريوهات المحتملة والمستخدمين بدون تحيز؟ 00:02:07.460 --> 00:02:11.040 هذا هو المكان الذي تلعب فيه دورًا حاسمًا في التدريب البشري 00:02:11.160 --> 00:02:14.500 الأمر متروك لك لتقديم بيانات غير متحيزة إلى جهازك 00:02:14.500 --> 00:02:18.160 هذا يعني جمع الكثير من الأمثلة ، من الكثير من المصادر 00:02:19.300 --> 00:02:22.580 تذكر ، عندما تحدد وتختار البيانات للتعلم الآلي 00:02:22.580 --> 00:02:24.756 ، فأنت تقوم بالفعل ببرمجة الخوارزمية ، باستخدام 00:02:24.781 --> 00:02:26.684 بيانات التدريب بدلاً من التعليمات البرمجية 00:02:27.100 --> 00:02:29.780 البيانات هي الرمز 00:02:30.180 --> 00:02:34.680 كلما كانت البيانات التي تقدمها أفضل ، كان تعلم الكمبيوتر أفضل