-
เครื่องจะเรียนรู้ได้ดี
เมื่อมีข้อมูลการฝึกฝนที่ดี
-
ฉะนั้นการใช้ข้อมูลคุณภาพสูง
ในปริมาณมากจึงสำคัญ
-
ในเมื่อข้อมูลสำคัญ ก็น่าสนใจว่า
ข้อมูลการฝึกนั้นมาจากไหน
-
หลายครั้งที่คอมพิวเตอร์เก็บข้อมูลการฝึก
จากคนอย่างเรา ๆ ท่าน ๆ
-
โดยที่เราไม่ต้องพยายามอะไร
-
บริการสตรีมมิงวีดีโอ
อาจเก็บข้อมูลว่าเราชอบดูอะไร
-
ก่อนจำรูปแบบของข้อมูลนั้น
-
จะได้แนะนำเราได้ว่า
เราน่าจะอยากชมอะไรต่อ
-
บางทีมันก็ขอความช่วยเหลือจากเรา
-
เช่นเมื่อเว็บไซต์ถามเราว่า
ภาพไหนเป็นป้ายจราจรบ้าง
-
นั่นแหละคือการที่คุณมอบข้อมูลการฝึก
เพื่อช่วยให้เครื่องรู้จักการเห็น
-
และอาจขับรถได้สักวันหนึ่ง
-
นักวิจัยด้านการแพทย์อาจใช้ภาพ
ด้านการแพทย์เป็นข้อมูลการฝึก
-
เพื่อสอนให้คอมพิวเตอร์รู้จัก
และวินิจฉัยโรค
-
การเรียนรู้ของเครื่องอาศัยภาพ
หลายร้อยหลายพันภาพ
-
และการสอนจากแพทย์ที่รู้ว่า
ต้องมองหาอะไร
-
ก่อนที่มันจะสามารถระบุโรคได้อย่างถูกต้อง
-
แต่แม้จะมีหลายพันตัวอย่าง
-
ก็อาจเกิดปัญหาในการคาดการณ์
ของคอมพิวเตอร์ได้
-
หากมีการเก็บข้อมูลเอ็กซเรย์
จากผู้ชายอย่างเดียว
-
การคาดการณ์ของคอมพิวเตอร์ก็
อาจใช้ได้กับผู้ชายเท่านั้น
-
และอาจไม่รู้จักโรคที่เราขอ
ให้วินิจฉัยจากผลเอ็กซเรย์ของผู้หญิง
-
จุดบอดในข้อมูลการฝึกนี้
ก่อให้เกิดสิ่งที่เรียกว่าความลำเอียง
-
ข้อมูลที่ลำเอียง
จะให้ความสำคัญกับบางอย่าง
-
ไม่ให้ความสำคัญกับบางอย่าง
และตัดบางอย่างไป
-
ขึ้นอยู่กับการเก็บข้อมูลการฝึก
-
ใครเป็นคนเก็บ และมีการป้อนข้อมูลอย่างไร
-
ก็มีโอกาสที่จะมีอคติของมนุษย์ในข้อมูลค่ะ
-
เมื่อเรียนรู้จากข้อมูลที่ลำเอียง
คอมพิวเตอร์อาจคาดการณ์แบบมีอคติ
-
ไม่ว่าผู้ฝึกคอมพิวเตอร์จะรู้ตัวหรือไม่
-
เมื่อคุณหาข้อมูลการฝึก
ให้ถามตัวเองสองข้อ
-
ข้อมูลนี้เพียงพอต่อการฝึกคอมพิวเตอร์
อย่างแม่นยำไหม
-
และข้อมูลนี้นำเสนอทุกสถานการณ์และผู้ใช้
ที่เป็นไปได้โดยไม่ลำเอียงหรือยัง
-
คุณมีบทบาทสำคัญยิ่งในตรงนี้
ในฐานะผู้ฝึกที่เป็นมนุษย์
-
อยู่ที่คุณ
ว่าจะให้ข้อมูลที่ไม่ลำเอียงหรือไม่
-
อันหมายถึงตัวอย่างมากมายจากหลายแหล่ง
-
อย่าลืมว่าเมื่อคุณเลือกข้อมูล
ให้การเรียนรู้ของเครื่อง
-
คุณกำลังลงโปรแกรมให้อัลกอริธึม
-
ด้วยการใช้ข้อมูลการฝึกแทนโค้ด
-
ข้อมูลนี่แหละ คือโค้ด
-
ยิ่งมอบข้อมูลดีเท่าไหร่
คอมพิวเตอร์ยิ่งเรียนรู้ได้ดีเท่านั้นค่ะ