WEBVTT 00:00:07.360 --> 00:00:11.760 Kualitas pembelajaran mesin adalah sebanyak data pelatihan yang Anda masukkan ke dalamnya. 00:00:11.800 --> 00:00:15.820 Jadi, sangat penting menggunakan data berkualitas tinggi, dan dalam jumlah yang sangat banyak. 00:00:16.760 --> 00:00:21.960 Namun, jika data itu penting, perlu ditanyakan dari mana data pelatihan itu berasal? 00:00:22.280 --> 00:00:26.260 Sering kali komputer mengumpulkan data pelatihan dari orang-orang seperti Anda dan saya, 00:00:26.260 --> 00:00:27.860 tanpa upaya apa pun pada sisi kita. 00:00:28.440 --> 00:00:31.480 Layanan streaming video mungkin melacak apa yang Anda tonton, lalu ia dapat mengenali pola 00:00:31.660 --> 00:00:36.000 pada data itu untuk merekomendasikan apa yang mungkin ingin Anda tonton selanjutnya. 00:00:37.420 --> 00:00:43.200 Di lain waktu, Anda secara langsung diminta untuk membantu, seperti ketika sebuah situs web meminta Anda untuk menemukan rambu jalan dan foto, 00:00:43.780 --> 00:00:49.280 Anda memberikan data pelatihan untuk membantu mesin belajar melihat, dan bahkan mungkin mengemudi pada suatu hari. 00:00:52.320 --> 00:00:56.440 Peneliti medis dapat menggunakan gambar medis sebagai data pelatihan untuk mengajar 00:00:56.520 --> 00:00:59.900 komputer cara mengenali dan mendiagnosis penyakit. 00:01:00.300 --> 00:01:05.560 Pembelajaran Mesin membutuhkan ratusan dan ribuan gambar, dan arahan pelatihan dari seorang dokter 00:01:05.640 --> 00:01:09.920 yang mengetahui apa yang mesti dicari, sebelum ia dapat mengidentifikasi penyakit secara benar. 00:01:10.520 --> 00:01:15.540 Bahkan dengan ribuan contoh, bisa jadi terdapat masalah dengan prediksi komputer. 00:01:15.880 --> 00:01:20.660 Jika sinar-X hanya dikumpulkan dari pria, maka prediksi komputer mungkin hanya berguna untuk pria. 00:01:21.880 --> 00:01:26.300 Ia mungkin tidak mengenali penyakit ketika diminta mendiagnosis sinar-X pada seorang wanita. 00:01:26.620 --> 00:01:30.820 Titik buta ini pada data pelatihan menimbulkan sesuatu yang disebut bias. 00:01:31.260 --> 00:01:36.420 Data yang bias mengutamakan hal-hal tertentu, dan tidak mementingkan atau meniadakan yang lainnya. 00:01:36.780 --> 00:01:41.800 Tergantung pada cara pengumpulan data pelatihan, siapa yang mengumpulkannya, dan bagaimana data diumpan, 00:01:41.800 --> 00:01:45.340 ada kemungkinan bahwa bias manusia masuk ke dalam data. 00:01:45.880 --> 00:01:50.700 Dengan belajar dari data bias, komputer dapat membuat prediksi yang bias, 00:01:50.780 --> 00:01:54.320 terlepas apakah orang yang melatih komputer menyadarinya atau tidak. 00:01:54.760 --> 00:01:58.400 Ketika Anda meneliti data pelatihan, ajukan dua pertanyaan ke diri Anda: 00:01:58.640 --> 00:02:01.600 Apakah data ini cukup untuk melatih komputer secara akurat? 00:02:02.320 --> 00:02:06.860 Dan, apakah data ini mewakili semua skenario dan pengguna yang mungkin tanpa bias? 00:02:07.460 --> 00:02:11.040 Di sinilah Anda, sebagai pelatihan manusia, memainkan peran yang krusial. 00:02:11.160 --> 00:02:14.500 Semuanya terserah Anda apakah akan memberikan mesin Anda data yang tidak bias. 00:02:14.500 --> 00:02:18.160 Itu berarti mengumpulkan contoh yang sangat banyak, dari banyak sumber. 00:02:19.300 --> 00:02:22.580 Ingat, ketika Anda memilih dan memilah data untuk pembelajaran mesin, 00:02:22.580 --> 00:02:26.660 Anda sebenarnya sedang memprogram algoritme dengan menggunakan data pelatihan alih-alih kode. 00:02:27.100 --> 00:02:29.780 Data itu adalah Kodenya. 00:02:30.180 --> 00:02:34.680 Semakin baik data yang Anda berikan, semakin baik pula pembelajaran komputer.