0:00:07.360,0:00:11.760 Kualitas pembelajaran mesin adalah sebanyak data pelatihan yang Anda masukkan ke dalamnya. 0:00:11.800,0:00:15.820 Jadi, sangat penting menggunakan data berkualitas tinggi, dan dalam jumlah yang sangat banyak. 0:00:16.760,0:00:21.960 Namun, jika data itu penting, perlu ditanyakan dari mana data pelatihan itu berasal? 0:00:22.280,0:00:26.260 Sering kali komputer mengumpulkan data pelatihan dari orang-orang seperti Anda dan saya, 0:00:26.260,0:00:27.860 tanpa upaya apa pun pada sisi kita. 0:00:28.440,0:00:31.480 Layanan streaming video mungkin melacak apa yang Anda tonton, lalu ia dapat mengenali pola 0:00:31.660,0:00:36.000 pada data itu untuk merekomendasikan apa yang mungkin ingin Anda tonton selanjutnya. 0:00:37.420,0:00:43.200 Di lain waktu, Anda secara langsung diminta untuk membantu, seperti ketika sebuah situs web meminta Anda untuk menemukan rambu jalan dan foto, 0:00:43.780,0:00:49.280 Anda memberikan data pelatihan untuk membantu[br]mesin belajar melihat, dan bahkan mungkin mengemudi pada suatu hari. 0:00:52.320,0:00:56.440 Peneliti medis dapat menggunakan[br]gambar medis sebagai data pelatihan untuk mengajar 0:00:56.520,0:00:59.900 komputer cara mengenali dan mendiagnosis penyakit. 0:01:00.300,0:01:05.560 Pembelajaran Mesin membutuhkan ratusan dan ribuan gambar, dan arahan pelatihan dari seorang dokter 0:01:05.640,0:01:09.920 yang mengetahui apa yang mesti dicari, sebelum ia dapat mengidentifikasi penyakit secara benar. 0:01:10.520,0:01:15.540 Bahkan dengan ribuan contoh, bisa jadi terdapat masalah dengan prediksi komputer. 0:01:15.880,0:01:20.660 Jika sinar-X hanya dikumpulkan dari pria, maka prediksi komputer mungkin hanya berguna untuk pria. 0:01:21.880,0:01:26.300 Ia mungkin tidak mengenali penyakit ketika[br]diminta mendiagnosis sinar-X pada seorang wanita. 0:01:26.620,0:01:30.820 Titik buta ini pada data pelatihan[br]menimbulkan sesuatu yang disebut bias. 0:01:31.260,0:01:36.420 Data yang bias mengutamakan hal-hal tertentu, dan tidak mementingkan atau meniadakan yang lainnya. 0:01:36.780,0:01:41.800 Tergantung pada cara pengumpulan data pelatihan, siapa yang mengumpulkannya, dan bagaimana data diumpan, 0:01:41.800,0:01:45.340 ada kemungkinan bahwa bias[br]manusia masuk ke dalam data. 0:01:45.880,0:01:50.700 Dengan belajar dari data bias, komputer dapat membuat prediksi yang bias, 0:01:50.780,0:01:54.320 terlepas apakah orang yang melatih komputer[br]menyadarinya atau tidak. 0:01:54.760,0:01:58.400 Ketika Anda meneliti data pelatihan, ajukan dua pertanyaan ke diri Anda: 0:01:58.640,0:02:01.600 Apakah data ini cukup untuk melatih komputer secara akurat? 0:02:02.320,0:02:06.860 Dan, apakah data ini mewakili semua skenario dan pengguna yang mungkin tanpa bias? 0:02:07.460,0:02:11.040 Di sinilah Anda, sebagai pelatihan manusia, memainkan peran yang krusial. 0:02:11.160,0:02:14.500 Semuanya terserah Anda apakah akan memberikan mesin Anda data yang tidak bias. 0:02:14.500,0:02:18.160 Itu berarti mengumpulkan contoh yang sangat banyak, dari banyak sumber. 0:02:19.300,0:02:22.580 Ingat, ketika Anda memilih dan memilah data untuk pembelajaran mesin, 0:02:22.580,0:02:26.660 Anda sebenarnya sedang memprogram algoritme dengan menggunakan data pelatihan alih-alih kode. 0:02:27.100,0:02:29.780 Data itu adalah Kodenya. 0:02:30.180,0:02:34.680 Semakin baik data yang Anda berikan, semakin baik pula pembelajaran komputer.