-
یادگیری ماشینی تنها به اندازه داده های آموزشی که
درون آن می گذارید خوب است.
-
بنابراین، بسیار مهم است که از داده های با کیفیت خوب
و داده های بسیار استفاده کرد.
-
اما اگر داده مهم است، جای دارد بپرسیم که
داده های آموزشی از کجا می آیند؟
-
کامپیوترها اغلب داده های آموزشی را
از افرادی مثل من و شما جمع می کنند
-
بدون اینکه از طرف ما تلاشی شود.
-
یک سرویس پخش ویدئو ممکن است آنچه را
که شما تماشا می کنید ردیابی کند، سپس می تواند
-
الگوهای موجود در داده را بشناسد تا توصیه کند
شما بعدا ممکن است چه چیزی تماشا کنید.
-
مواقع دیگر، از شما مستقیما کمک خواسته می شود،
مثل وقتی که یک وبسایت از شما می خواهد علائم خیابان
-
و تصاویر را شناسایی کنید. در این حال، داده های آموزشی ارائه می کنید
تا به ماشین کمک کنید یاد بگیرد که ببیند و شاید روزی رانندگی کند.
-
محققان پزشکی می توانند از تصاویر پزشکی
به عنوان داده های آموزشی استفاده کنند
-
تا به کامپیوترها یاد دهند چگونه
بیماری ها را شناسایی و درمان کنند.
-
یادگیری ماشینی نیازمند صدها و هزاران تصویر
و مسیر آموزشی از سوی یک پزشک است
-
که می داند دنبال چه چیزی بگردد،
قبل از اینکه بتواند به درستی بیماری را شناسایی کند.
-
حتی با وجود هزاران مثال، ممکن است
پیش بینی های کامپیوتر مشکلاتی داشته باشد.
-
اگر اشعه ایکس فقط از مردان جمع شده باشد، بنابراین
پیش بینی کامپیوتر ممکن است فقط برای مردان کار کند.
-
ممکن است وقتی از آن خواسته می شود اشعه ایکس زنان را
شناسایی کند نتواند بیماری را شناسایی کند.
-
نقطه کور در داده های آموزشی باعث چیزی می شود
که سوگیری نام دارد.
-
داده های سودار از چیزی دفاع می کنند، و چیزهای
دیگر را خارج و بی اهمیت می سازند.
-
بسته به اینکه داده های آموزشی چگونه جمع شده اند
چه کسی آنها را جمع کرده و چگونه تغذیه می شوند
-
این احتمال هست که سوگیری انسان وارد
داده ها شود.
-
کامپیوتربا یادگیری از داده های سودار، ممکن است
پیش بینی های سودار بکند
-
چه افراد آموزنده کامپیوتر از آن آگاه باشند یا نباشند.
-
وقتی که به داده های آموزشی نگاه می کنید، از خودتان دو سوال بپرسید:
-
آیا این داده ها برای آموزش دقیق یک کامپیوتر
کافی هستند؟
-
و آیا این داده ها همه حالتها و کاربران ممکن را
بدون سوگیری نمایندگی می کند؟
-
اینجاست که شما، به عنوان آموزش دهنده انسانی، نقش مهمی
ایفا می کنید.
-
این منوط به شماست که به ماشین خود
داده های غیرسودار بدهید.
-
که به معنای جمع کردن هزاران مثال از منابع بسیار است.
-
به یاد داشته باشید، وقتی که داده هایی برای یادگیری ماشینی
جمع و انتخاب می کنید،
-
شما درواقع دارید با استفاده از داده های آموزشی
به جای کدها، به الگوریتمها برنامه می دهید
-
این داده ها کد هستند.
-
هرچه داده هایی که ارائه می کنید بهتر باشد،
کامپیوتر بهتر یاد می گیرد.