-
کیفیت یادگیری ماشینی بستگی به دادههای آموزشیای دارد که در اختیار آن میگذارید.
-
بنابراین استفاده از دادهها با کیفیت بالا و با حجم زیاد، اهمیت زیادی دارد.
-
ولی اگر دادهها مهم هستند، جا داره بپرسیم این دادههای آموزشی از کجا میآیند؟
-
کامپیوترها اغلب دادههای آموزشی را از افرادی مثل من و شما جمع آوری میکنند،
-
آن هم بدون هیچ تلاشی از سوی ما.
-
یک سرویس پخش ویدیو ممکن است چیزی که تماشا میکنید را پیگیری کند،بعد میتواند الگوهای موجود در آن دادهها را تشخیص دهد تا
-
شاید چیزی که میخواهید بعداً تماشا کنید را به شما پیشنهاد کند.
-
در مواقع دیگر، مستقیماً از خودتان درخواست کمک میکند، مثل وقتی که یک وبسایت از شما میخواهد تابلوهای خیابان و تصاویر را ببینید،
-
دارید دادههای آموزشیای را در اختیار آن میگذارید که به یک ماشین کمک میکند دیدن را یاد بگیرد و شاید حتی یک روز رانندگی کند.
-
محققان پزشکی میتوانند از تصاویر پزشکی به عنوان دادههای آموزشی استفاده کنند
-
تا به کامپیوترها نحوه شناسایی و تشخیص بیماریها را آموزش دهند.
-
یادگیری ماشینی به صدها و هزاران تصویر و راهنمایی آموزشی از سوی پزشک نیاز دارد.
-
پزشکی که میداند قبل از تشخیص درست بیماری، باید دنبال چه چیزی باشد.
-
حتی با وجود هزاران نمونه، باز هم ممکن است مشکلاتی در پیشبینی کامپیوتر وجود داشته باشد.
-
اگر دادههای اشعه ایکس فقط از مردها جمعآوری شود، پیشبینی کامپیوتر ممکن است فقط برای مردها مفید باشد
-
و وقتی از آن خواسته شود که عکس اشعه ایکس یک زن را شناسایی کند، ممکن است نتواند بیماری او را تشخیص دهد.
-
این نقطه کور در دادههای آموزشی چیزی به نام «سوگیری» ایجاد میکند.
-
دادههای جانبدارانه به نفع برخی چیزها هستند و سایر موارد را در اولویتبندی پایینتری قرار داده یا حذف میکنند.
-
بسته به اینکه دادههای آموزشی چگونه جمع آوری میشوند، چه کسی آنها را جمع آوری میکند و چطور کامپیوترها از آن تغذیه میشوند،
-
این احتمال وجود دارد که سوگیری انسانی در دادهها دیده شود.
-
با یادگیری از دادههای جانبدارانه، ممکن است کامپیوتر پیشبینیهای مغرضانهای انجام بدهد،
-
فارغ از اینکه افرادی که کامپیوتر را آموزش میدهند از آن آگاه هستند یا نه.
-
پس وقتی به دادههای آموزشی نگاه میکنید، دو سوال از خودتان بپرسید:
-
آیا این دادهها برای آموزش دقیق یک کامپیوتر کافی هستند؟
-
و آیا این دادهها همه سناریوها و کاربران ممکن را بدون سوگیری نشان میدهند؟
-
اینجاست که شما به عنوان یک مربی انسانی، نقش تعیینکنندهای ایفا میکنید.
-
این وظیفه شماست که دادههایی بدون سوگیری به دستگاهتان بدهید
-
و این به معنی جمعآوری نمونههای بسیار از منابع مختلف است.
-
یادتان باشد وقتی دادهها را برای یادگیری ماشین انتخاب میکنید،
-
در واقع الگوریتم را برنامهنویسی کرده و از دادههای آموزشی به جای کد استفاده میکنید.
-
داده، همان کد است.
-
هر چقدر دادههای بهتری ارائه کنید، کامپیوتر بهتر یاد میگیرد.