WEBVTT 00:00:07.360 --> 00:00:10.886 เครื่องจะเรียนรู้ได้ดี เมื่อมีข้อมูลการฝึกฝนที่ดี 00:00:11.136 --> 00:00:16.016 ฉะนั้นการใช้ข้อมูลคุณภาพสูง ในปริมาณมากจึงสำคัญ 00:00:16.433 --> 00:00:21.355 ในเมื่อข้อมูลสำคัญ ก็น่าสนใจว่า ข้อมูลการฝึกนั้นมาจากไหน 00:00:21.730 --> 00:00:26.151 หลายครั้งที่คอมพิวเตอร์เก็บข้อมูลการฝึก จากคนอย่างเรา ๆ ท่าน ๆ 00:00:26.360 --> 00:00:27.945 โดยที่เราไม่ต้องพยายามอะไร 00:00:28.195 --> 00:00:31.156 บริการสตรีมมิงวีดีโอ อาจเก็บข้อมูลว่าเราชอบดูอะไร 00:00:31.365 --> 00:00:33.659 ก่อนจำรูปแบบของข้อมูลนั้น 00:00:33.867 --> 00:00:36.328 จะได้แนะนำเราได้ว่า เราน่าจะอยากชมอะไรต่อ 00:00:37.162 --> 00:00:40.165 บางทีมันก็ขอความช่วยเหลือจากเรา 00:00:40.541 --> 00:00:43.293 เช่นเมื่อเว็บไซต์ถามเราว่า ภาพไหนเป็นป้ายจราจรบ้าง 00:00:43.544 --> 00:00:47.422 นั่นแหละคือการที่คุณมอบข้อมูลการฝึก เพื่อช่วยให้เครื่องรู้จักการเห็น 00:00:47.673 --> 00:00:49.341 และอาจขับรถได้สักวันหนึ่ง 00:00:51.843 --> 00:00:55.389 นักวิจัยด้านการแพทย์อาจใช้ภาพ ด้านการแพทย์เป็นข้อมูลการฝึก 00:00:55.597 --> 00:00:58.725 เพื่อสอนให้คอมพิวเตอร์รู้จัก และวินิจฉัยโรค 00:01:00.644 --> 00:01:03.772 การเรียนรู้ของเครื่องอาศัยภาพ หลายร้อยหลายพันภาพ 00:01:04.064 --> 00:01:07.568 และการสอนจากแพทย์ที่รู้ว่า ต้องมองหาอะไร 00:01:07.776 --> 00:01:10.028 ก่อนที่มันจะสามารถระบุโรคได้อย่างถูกต้อง 00:01:10.445 --> 00:01:12.281 แต่แม้จะมีหลายพันตัวอย่าง 00:01:12.531 --> 00:01:14.992 ก็อาจเกิดปัญหาในการคาดการณ์ ของคอมพิวเตอร์ได้ 00:01:15.200 --> 00:01:18.537 หากมีการเก็บข้อมูลเอ็กซเรย์ จากผู้ชายอย่างเดียว 00:01:18.787 --> 00:01:21.331 การคาดการณ์ของคอมพิวเตอร์ก็ อาจใช้ได้กับผู้ชายเท่านั้น 00:01:21.623 --> 00:01:25.877 และอาจไม่รู้จักโรคที่เราขอ ให้วินิจฉัยจากผลเอ็กซเรย์ของผู้หญิง 00:01:26.670 --> 00:01:30.507 จุดบอดในข้อมูลการฝึกนี้ ก่อให้เกิดสิ่งที่เรียกว่าความลำเอียง 00:01:30.799 --> 00:01:32.759 ข้อมูลที่ลำเอียง จะให้ความสำคัญกับบางอย่าง 00:01:32.968 --> 00:01:35.804 ไม่ให้ความสำคัญกับบางอย่าง และตัดบางอย่างไป 00:01:36.096 --> 00:01:38.390 ขึ้นอยู่กับการเก็บข้อมูลการฝึก 00:01:38.682 --> 00:01:42.185 ใครเป็นคนเก็บ และมีการป้อนข้อมูลอย่างไร 00:01:42.394 --> 00:01:45.397 ก็มีโอกาสที่จะมีอคติของมนุษย์ในข้อมูลค่ะ 00:01:45.856 --> 00:01:50.110 เมื่อเรียนรู้จากข้อมูลที่ลำเอียง คอมพิวเตอร์อาจคาดการณ์แบบมีอคติ 00:01:50.277 --> 00:01:54.156 ไม่ว่าผู้ฝึกคอมพิวเตอร์จะรู้ตัวหรือไม่ 00:01:54.448 --> 00:01:58.035 เมื่อคุณหาข้อมูลการฝึก ให้ถามตัวเองสองข้อ 00:01:58.410 --> 00:02:00.996 ข้อมูลนี้เพียงพอต่อการฝึกคอมพิวเตอร์ อย่างแม่นยำไหม 00:02:01.288 --> 00:02:06.960 และข้อมูลนี้นำเสนอทุกสถานการณ์และผู้ใช้ ที่เป็นไปได้โดยไม่ลำเอียงหรือยัง 00:02:07.294 --> 00:02:10.797 คุณมีบทบาทสำคัญยิ่งในตรงนี้ ในฐานะผู้ฝึกที่เป็นมนุษย์ 00:02:10.994 --> 00:02:14.334 อยู่ที่คุณ ว่าจะให้ข้อมูลที่ไม่ลำเอียงหรือไม่ 00:02:14.334 --> 00:02:17.994 อันหมายถึงตัวอย่างมากมายจากหลายแหล่ง 00:02:19.134 --> 00:02:21.808 อย่าลืมว่าเมื่อคุณเลือกข้อมูล ให้การเรียนรู้ของเครื่อง 00:02:22.059 --> 00:02:24.144 คุณกำลังลงโปรแกรมให้อัลกอริธึม 00:02:24.394 --> 00:02:26.897 ด้วยการใช้ข้อมูลการฝึกแทนโค้ด 00:02:27.147 --> 00:02:29.191 ข้อมูลนี่แหละ คือโค้ด 00:02:29.733 --> 00:02:34.112 ยิ่งมอบข้อมูลดีเท่าไหร่ คอมพิวเตอร์ยิ่งเรียนรู้ได้ดีเท่านั้นค่ะ