WEBVTT 00:00:07.360 --> 00:00:11.760 Mësimi i makinerisë është i mirë vetëm aq sa të dhënat që futen në të. 00:00:11.800 --> 00:00:15.820 Atëherë është shumë e rëndësishme për të përdorur të dhëna me kualitet të lartë, dhe shumë nga ato. 00:00:16.760 --> 00:00:21.960 Por nëse të dhënat janë të rëndësishme, duhet pyetur se nga vijnë këto të dhëna? 00:00:22.280 --> 00:00:26.260 Shpesh, kompjuterët mbledhin të dhëna nga njerëz si unë dhe ti, 00:00:26.260 --> 00:00:27.860 pa asnjë përpjekje nga ana jonë. 00:00:28.440 --> 00:00:31.480 Një shërbim për transmetim të videove mund të mbajë gjurmë të atyre që shikoni, pastaj mund të njohë modelet 00:00:31.660 --> 00:00:36.000 se çfarë të dhëna të rekomandoj që ju mund të shikoni në të ardhmen. 00:00:37.420 --> 00:00:43.200 Herave të tjera, jeni të pyetur direkt për të ndihmuar, si kur një webfaqe ju kërkon të zgjedhni shenja të rrugës apo foto, 00:00:43.780 --> 00:00:49.280 ju jeni duke siguruar të dhëna për të ndihmuar makinën të mësojë të shoh, dhe ndoshta një ditë të ngas. 00:00:52.320 --> 00:00:56.440 Kërkuesit mjekësor mund të përdorin imazhe mjekësore si të dhëna për të mësuar 00:00:56.520 --> 00:00:59.900 kompjuterët si të vërejnë dhe diagnostifikojnë sëmundje. 00:01:00.300 --> 00:01:05.560 Mësimi i Makinerisë ka nevojë për qindra e mijëra imazhe dhe drejtim të trajnimit nga një mjek, 00:01:05.640 --> 00:01:09.920 një person që di çfarë të kërkojë, para se të mund të identifikojë sëmundjen me saktësi. 00:01:10.520 --> 00:01:15.540 Edhe me mijëra shembuj, mund të ketë probleme me parashikimet e kompjuterit. 00:01:15.880 --> 00:01:20.660 Nëse të dhënat e rentgenit janë të mbledhura vetëm nga meshkujt, atëherë parashikimet e kompjuterit mund të funksionojnë vetëm për meshkujt. 00:01:21.880 --> 00:01:26.300 Ajo mund të mos njohë sëmundjet kur i kërkohet të diagnostikojë rentgenin e një gruaje. 00:01:26.620 --> 00:01:30.820 Kjo zbrazje në të dhënat e trajnimit krijon diçka quhet paragjykim. 00:01:31.260 --> 00:01:36.420 Të dhënat e paragjykuara favorizojnë disa gjëra dhe i kthejnë në prioritete të ulëta ose përjashtojnë të tjera. 00:01:36.780 --> 00:01:41.800 Varësisht nga mënyra se si janë të mbledhura të dhënat e trajnimit, kush është personi që i mbledh të dhënat dhe se si ato janë futur, 00:01:41.800 --> 00:01:45.340 ka një mundësi që paragjykimi njerëzor të përfshihet në të dhënat. 00:01:45.880 --> 00:01:50.700 Duke mësuar nga të dhënat me paragjykim, kompjuteri mund të bëjë parashikime me paragjykim, 00:01:50.780 --> 00:01:54.320 pa marrë parasysh nëse ata që e trajnojnë kompjuterin janë të vetëdijshëm për këtë apo jo. 00:01:54.760 --> 00:01:58.400 Kur po shikoni të dhënat e trajnimit, pyesni veten dy pyetje: 00:01:58.640 --> 00:02:01.600 A janë këto të dhëna të mjaftueshme për të trajnuar me saktësi një kompjuter? 00:02:02.320 --> 00:02:06.860 Dhe, a përfaqësojnë këto të dhëna të gjitha skenarët dhe përdoruesit e mundshëm pa paragjykim? 00:02:07.460 --> 00:02:11.040 Këtu është vendi ku ju, si personi që trajnon, luani një rol kyç. 00:02:11.160 --> 00:02:14.500 Përsëri, është detyra juaj të siguroni që kompjuteri të ketë të dhëna të paanëshme. 00:02:14.500 --> 00:02:18.160 Kjo do të thotë të mbledhni një sasi të madhe shembujsh, nga burime të shumta. 00:02:19.300 --> 00:02:22.580 Më kujtohet, kur zgjidhni të dhëna për mësimin e makinave, 00:02:22.580 --> 00:02:26.660 po programoni algoritmin, duke përdorur të dhëna të trajnimit në vend të kodit. 00:02:27.100 --> 00:02:29.780 Të dhënat JANË kodi. 00:02:30.180 --> 00:02:34.680 Sa më të mira të dhënat që furnizoni, aq më mirë do të mësojë kompjuteri.