האינטרנט:
איך עובד החיפוש
היי, קוראים לי ג'ון. אני מוביל את תחומי
החיפוש והלמידה החישובית ב-Google.
אני חושב שזה מעורר השראה באופן מדהים,
האופן שבו אנשים בכל רחבי העולם
פונים למנועי חיפוש כדי
לשאול שאלות טריוויאליות
לצד שאלות חשובות.
אז זו אחריות
ענקית, לתת להם את התשובות
הטובות ביותר שאנחנו מסוגלים.
היי! קוראים לי אקשאייה,
ואני עובדת בצוות של מנוע החיפוש בינג
הרבה פעמים, כשאנחנו באים לבחון
אינטליגנציה מלאכותית ולמידה חישובית,
עלינו לדבר על האופן שבו
המשתמשים ישתמשו בכך.
כי בסופו של יום,
אנחנו רוצים להשאיר חותם על החברה.
בואו נשאל שאלה פשוטה:
כמה זמן לוקח לטוס למאדים?
מאיפה באו התוצאות הללו?
ולמה התוצאה הראשונה ממוקמת
לפני התוצאה השנייה?
אוקיי, בואו נצלול פנימה ונראה כיצד מנוע
החיפוש הופך את הבקשה שלכם - לתוצאה.
הדבר הראשון שעליכם לדעת הוא שבזמן החיפוש,
מנוע החיפוש לא באמת מתחבר לרשת הכלל-עולמית.
כדי להריץ את החיפוש שלכם בזמן-אמת.
וזה בגלל שיש מיליארדים של אתרים ברחבי הרשת,
ועוד כמה מאות חדשים מצטרפים אליהם מדי דקה.
אז אם מנוע החיפוש היה צריך לחפש בכל האתרים
כדי למצוא את זה שאתם רציתם
זה בטח היה לוקח נצח נצחים.
אז כדי להפוך את החיפוש שלכם למהיר יותר,
מנועי החיפוש סורקים את הרשת מבעוד מועד
כדי להשיג את המידע שאולי יעזור
עם החיפוש שלכם מאוחר יותר.
באופן הזה, כשאתם מחפשים מידע על טיסה
למאדים, למנוע החיפוש יש כבר
את כל מה שהוא צריך כדי לתת לכם
תשובה בזמן אמת.
ככה זה עובד:
האינטרנט הוא בעצם רשת של דפים
המחוברים ביניהם באמצעות היפר-קישורים.
מנועי החיפוש מריצים באופן רציף תוכנה,
הנקראת עכביש (Spider)
שתפקידו לעבור בין הדפים
ולאסוף מידע עליהם.
כל פעם שהוא מוצא היפר-קישור, הוא עוקב
אחריו עד שהוא מבקר בכל עמוד שהוא מוצא
בכל רחבי האינטרנט.
בכל עמוד בו מבקר העכביש,
הוא אוסף כל מידע לו הוא
עלול להזדקק בחיפוש
ומוסיף אותו למסד נתונים מיוחד
בשם אינדקס חיפוש (Search Index).
עכשיו, בואו נחזור לחיפוש שביצענו מקודם
ונראה אם אנחנו יכולים להבין
איך מנוע החיפוש מצא את התוצאות.
כשאתם שואלים "כמה זמן לוקח להגיע למאדים?"
מנוע החיפוש מחפש אחר כל מילה בנפרד
בתוך אינדקס החיפוש
ומיד מקבל רשימה של כל האתרים באינטרנט
שמכילים את המילים הללו.
אבל רק חיפוש אחר המינוחים הללו
יכול להחזיר מיליוני דפים, כך שמנוע החיפוש
חייב להיות מסוגל להכריע אילו תוצאות
להראות לכם קודם
כאן זה נהיה מסובך: מנוע החיפוש
צריך לפעמים לנחש מה אתם רוצים למצוא.
כל מנוע חיפוש משתמש באלגוריתם משלו
כדי לדרג את העמודים שלו בהתבסס על
מה שהוא חושב שאתם רוצים למצוא.
אלגוריתם הדירוג של מנועי החיפוש יבדוק
אם מינוח החיפוש שלכם מופיע בכותרת הדף.
הוא עלול לבדוק גם אם כל המילים מופיעות
זו לצד זו, או כל מספר אחר של חישובים
שיעזרו לקבוע טוב יותר אילו אתרים
ברצונכם לראות - ואילו לא.
גוגל המציאה את האלגוריתם המפורסם ביותר
לבחירת התוצאות הרלוונטיות ביותר לכל חיפוש,
בכך שלקחה בחשבון כמה דפי אינטרנט
אחרים מקשרים לכל עמוד נתון.
הרעיון הוא שאתרים רבים חושבים
שדף האינטרנט הוא מעניין,
אז ככל הנראה זה הדף
שאותו אתם מחפשים.
האלגוריתם הזה נקרא דירוג פייג'
(Page Rank) אבל לא בגלל שהוא מדרג דפים,
אלא כי הוא נקרא על שם הממציא שלו,
לארי פייג', שהוא גם אחד ממקימי גוגל.
בגלל שהאתר לרוב מרוויח
כסף כשאתם מבקרים בו,
ספאמרים תמיד מנסים למצוא דרכים
לעבוד על אלגוריתם החיפוש
כך שהעמודים שלהם יופיעו
גבוה יותר ברשימת התוצאות.
מנועי חיפוש מעדכנים את האלגוריתמים שלהם
כדי למנוע מאתרים מפוקפקים
ומזויפים מלהגיע לראש התוצאות.
לבסוף, זה תלוי גם בכם: היזהרו מאתרים
מפוקפקים כאלה
על ידי כך שתביטו בכתובתו של האתר
ותוודאו שהוא אכן מקור אמין.
תוכנות החיפוש משתכללות תמיד
ומנסות לשפר את האלגוריתמים
כך שיחזירו תוצאות טובות יותר
ומהירות יותר מאשר המתחרים.
מנועי החיפוש משתמשים כיום במידע
שלא בהכרח סיפקתם להם
כדי לעזור לכם בצמצום ודיוק
החיפושים שלכם.
אז לדוגמה, אם ברצונכם לחפש
אחר "פארקים לכלבים" -
מנועי חיפוש רבים ייתנו לכם את התוצאות
לכל הפארקים שבסביבה
אפילו שלא סיפקתם להם את מיקומכם.
מנועי חיפוש מודרניים מבינים יותר
מאשר המילים המופיעות בדפים,
אלא ממש מה הן אומרות, וכל זאת כדי למצוא
את אלה שהכי תואמות את החיפוש שלכם.
לדוגמה, אם תחפשו אחר מגיש מהיר (Fast
Pitcher), הוא יבין שאתם מחפשים ספורטאי.
אבל אם תחפשו אחר
קנקן גדול (Large Pitcher),
הוא ימצא עבורכם תוצאות
הקשורות למטבח שלכם.
כדי להבין את המילים טוב יותר, אנו
משתמשים בלמידה חישובית,
שהיא סוג של
אינטליגנציה מלאכותית.
היא מאפשרת לאלגוריתמים של חיפוש
לחפש לא רק אותיות או מילים בדף,
אלא להבין גם את המשמעות מאחוריהן.
האינטרנט גדל בקצב מסחרר,
אבל אם צוותי החיפוש יקלו על עבודתנו,
המידע שאתם מחפשים יישאר תמיד
במרחק כמה לחיצות מקשים בלבד.