WEBVTT 00:00:02.155 --> 00:00:05.935 האינטרנט: איך עובד החיפוש 00:00:06.045 --> 00:00:10.520 היי, קוראים לי ג'ון. אני מוביל את תחומי החיפוש והלמידה החישובית ב-Google. 00:00:12.100 --> 00:00:16.363 אני חושב שזה מעורר השראה באופן מדהים, האופן שבו אנשים בכל רחבי העולם 00:00:16.363 --> 00:00:19.758 פונים למנועי חיפוש כדי לשאול שאלות טריוויאליות 00:00:19.758 --> 00:00:21.704 לצד שאלות חשובות. אז זו אחריות 00:00:21.704 --> 00:00:24.972 ענקית, לתת להם את התשובות הטובות ביותר שאנחנו מסוגלים. 00:00:26.725 --> 00:00:30.758 היי! קוראים לי אקשאייה, ואני עובדת בצוות של מנוע החיפוש בינג 00:00:30.959 --> 00:00:35.860 הרבה פעמים, כשאנחנו באים לבחון אינטליגנציה מלאכותית ולמידה חישובית, 00:00:35.885 --> 00:00:39.185 עלינו לדבר על האופן שבו המשתמשים ישתמשו בכך. 00:00:39.185 --> 00:00:42.257 כי בסופו של יום, אנחנו רוצים להשאיר חותם על החברה. 00:00:43.267 --> 00:00:45.833 בואו נשאל שאלה פשוטה: 00:00:45.833 --> 00:00:49.406 כמה זמן לוקח לטוס למאדים? 00:00:49.406 --> 00:00:51.507 מאיפה באו התוצאות הללו? 00:00:51.507 --> 00:00:54.995 ולמה התוצאה הראשונה ממוקמת לפני התוצאה השנייה? 00:00:55.655 --> 00:01:00.234 אוקיי, בואו נצלול פנימה ונראה כיצד מנוע החיפוש הופך את הבקשה שלכם - לתוצאה. 00:01:00.974 --> 00:01:06.213 הדבר הראשון שעליכם לדעת הוא שבזמן החיפוש, מנוע החיפוש לא באמת מתחבר לרשת הכלל-עולמית. 00:01:06.213 --> 00:01:08.599 כדי להריץ את החיפוש שלכם בזמן-אמת. 00:01:08.739 --> 00:01:14.738 וזה בגלל שיש מיליארדים של אתרים ברחבי הרשת, ועוד כמה מאות חדשים מצטרפים אליהם מדי דקה. 00:01:14.738 --> 00:01:18.670 אז אם מנוע החיפוש היה צריך לחפש בכל האתרים כדי למצוא את זה שאתם רציתם 00:01:18.670 --> 00:01:20.689 זה בטח היה לוקח נצח נצחים. 00:01:20.689 --> 00:01:25.767 אז כדי להפוך את החיפוש שלכם למהיר יותר, מנועי החיפוש סורקים את הרשת מבעוד מועד 00:01:25.767 --> 00:01:28.984 כדי להשיג את המידע שאולי יעזור עם החיפוש שלכם מאוחר יותר. 00:01:28.984 --> 00:01:32.721 באופן הזה, כשאתם מחפשים מידע על טיסה למאדים, למנוע החיפוש יש כבר 00:01:32.721 --> 00:01:35.568 את כל מה שהוא צריך כדי לתת לכם תשובה בזמן אמת. 00:01:36.388 --> 00:01:38.044 ככה זה עובד: 00:01:38.044 --> 00:01:41.980 האינטרנט הוא בעצם רשת של דפים המחוברים ביניהם באמצעות היפר-קישורים. 00:01:41.980 --> 00:01:45.895 מנועי החיפוש מריצים באופן רציף תוכנה, הנקראת עכביש (Spider) 00:01:45.895 --> 00:01:49.854 שתפקידו לעבור בין הדפים ולאסוף מידע עליהם. 00:01:49.854 --> 00:01:55.519 כל פעם שהוא מוצא היפר-קישור, הוא עוקב אחריו עד שהוא מבקר בכל עמוד שהוא מוצא 00:01:55.519 --> 00:01:59.382 בכל רחבי האינטרנט. בכל עמוד בו מבקר העכביש, 00:01:59.382 --> 00:02:02.515 הוא אוסף כל מידע לו הוא עלול להזדקק בחיפוש 00:02:02.515 --> 00:02:06.026 ומוסיף אותו למסד נתונים מיוחד בשם אינדקס חיפוש (Search Index). 00:02:07.446 --> 00:02:10.817 עכשיו, בואו נחזור לחיפוש שביצענו מקודם ונראה אם אנחנו יכולים להבין 00:02:10.817 --> 00:02:13.417 איך מנוע החיפוש מצא את התוצאות. 00:02:13.417 --> 00:02:17.286 כשאתם שואלים "כמה זמן לוקח להגיע למאדים?" 00:02:17.286 --> 00:02:20.505 מנוע החיפוש מחפש אחר כל מילה בנפרד בתוך אינדקס החיפוש 00:02:20.505 --> 00:02:25.092 ומיד מקבל רשימה של כל האתרים באינטרנט שמכילים את המילים הללו. 00:02:25.092 --> 00:02:29.797 אבל רק חיפוש אחר המינוחים הללו יכול להחזיר מיליוני דפים, כך שמנוע החיפוש 00:02:29.797 --> 00:02:33.576 חייב להיות מסוגל להכריע אילו תוצאות להראות לכם קודם 00:02:33.576 --> 00:02:38.984 כאן זה נהיה מסובך: מנוע החיפוש צריך לפעמים לנחש מה אתם רוצים למצוא. 00:02:38.984 --> 00:02:43.560 כל מנוע חיפוש משתמש באלגוריתם משלו כדי לדרג את העמודים שלו בהתבסס על 00:02:43.560 --> 00:02:45.343 מה שהוא חושב שאתם רוצים למצוא. 00:02:45.343 --> 00:02:50.997 אלגוריתם הדירוג של מנועי החיפוש יבדוק אם מינוח החיפוש שלכם מופיע בכותרת הדף. 00:02:50.997 --> 00:02:58.902 הוא עלול לבדוק גם אם כל המילים מופיעות זו לצד זו, או כל מספר אחר של חישובים 00:02:58.902 --> 00:03:03.089 שיעזרו לקבוע טוב יותר אילו אתרים ברצונכם לראות - ואילו לא. 00:03:03.089 --> 00:03:07.944 גוגל המציאה את האלגוריתם המפורסם ביותר לבחירת התוצאות הרלוונטיות ביותר לכל חיפוש, 00:03:07.944 --> 00:03:12.166 בכך שלקחה בחשבון כמה דפי אינטרנט אחרים מקשרים לכל עמוד נתון. 00:03:12.166 --> 00:03:15.783 הרעיון הוא שאתרים רבים חושבים שדף האינטרנט הוא מעניין, 00:03:15.783 --> 00:03:18.399 אז ככל הנראה זה הדף שאותו אתם מחפשים. 00:03:18.399 --> 00:03:22.579 האלגוריתם הזה נקרא דירוג פייג' (Page Rank) אבל לא בגלל שהוא מדרג דפים, 00:03:22.579 --> 00:03:28.007 אלא כי הוא נקרא על שם הממציא שלו, לארי פייג', שהוא גם אחד ממקימי גוגל. 00:03:28.007 --> 00:03:30.871 בגלל שהאתר לרוב מרוויח כסף כשאתם מבקרים בו, 00:03:30.871 --> 00:03:34.589 ספאמרים תמיד מנסים למצוא דרכים לעבוד על אלגוריתם החיפוש 00:03:34.589 --> 00:03:38.521 כך שהעמודים שלהם יופיעו גבוה יותר ברשימת התוצאות. 00:03:38.521 --> 00:03:42.163 מנועי חיפוש מעדכנים את האלגוריתמים שלהם 00:03:42.163 --> 00:03:44.767 כדי למנוע מאתרים מפוקפקים ומזויפים מלהגיע לראש התוצאות. 00:03:44.767 --> 00:03:50.164 לבסוף, זה תלוי גם בכם: היזהרו מאתרים מפוקפקים כאלה 00:03:50.164 --> 00:03:54.014 על ידי כך שתביטו בכתובתו של האתר ותוודאו שהוא אכן מקור אמין. 00:03:54.014 --> 00:03:56.548 תוכנות החיפוש משתכללות תמיד ומנסות לשפר את האלגוריתמים 00:03:56.548 --> 00:04:01.231 כך שיחזירו תוצאות טובות יותר ומהירות יותר מאשר המתחרים. 00:04:01.231 --> 00:04:04.943 מנועי החיפוש משתמשים כיום במידע שלא בהכרח סיפקתם להם 00:04:04.943 --> 00:04:07.463 כדי לעזור לכם בצמצום ודיוק החיפושים שלכם. 00:04:07.463 --> 00:04:10.897 אז לדוגמה, אם ברצונכם לחפש אחר "פארקים לכלבים" - 00:04:10.897 --> 00:04:14.155 מנועי חיפוש רבים ייתנו לכם את התוצאות לכל הפארקים שבסביבה 00:04:14.155 --> 00:04:18.233 אפילו שלא סיפקתם להם את מיקומכם. 00:04:18.233 --> 00:04:22.481 מנועי חיפוש מודרניים מבינים יותר מאשר המילים המופיעות בדפים, 00:04:22.481 --> 00:04:27.348 אלא ממש מה הן אומרות, וכל זאת כדי למצוא את אלה שהכי תואמות את החיפוש שלכם. 00:04:27.348 --> 00:04:31.756 לדוגמה, אם תחפשו אחר מגיש מהיר (Fast Pitcher), הוא יבין שאתם מחפשים ספורטאי. 00:04:31.756 --> 00:04:34.590 אבל אם תחפשו אחר קנקן גדול (Large Pitcher), 00:04:34.680 --> 00:04:37.840 הוא ימצא עבורכם תוצאות הקשורות למטבח שלכם. 00:04:38.824 --> 00:04:41.435 כדי להבין את המילים טוב יותר, אנו משתמשים בלמידה חישובית, 00:04:41.895 --> 00:04:43.659 שהיא סוג של אינטליגנציה מלאכותית. 00:04:43.737 --> 00:04:48.233 היא מאפשרת לאלגוריתמים של חיפוש לחפש לא רק אותיות או מילים בדף, 00:04:48.433 --> 00:04:52.062 אלא להבין גם את המשמעות מאחוריהן. 00:04:53.372 --> 00:05:00.234 האינטרנט גדל בקצב מסחרר, אבל אם צוותי החיפוש יקלו על עבודתנו, 00:05:00.234 --> 00:05:04.766 המידע שאתם מחפשים יישאר תמיד במרחק כמה לחיצות מקשים בלבד.