האינטרנט:
איך עובד החיפוש
היי, קוראים לי ג'ון. אני מוביל את תחומי
החיפוש והלמידה החישובית ב-Google.
אני חושב שזה מעורר השראה באופן מדהים,
האופן שבו אנשים בכל רחבי העולם
פונים למנועי חיפוש כדי
לשאול שאלות טריוויאליות
לצד שאלות חשובות.
אז זו אחריות
ענקית, לתת להם את התשובות
הטובות ביותר שאנחנו מסוגלים.
היי! קוראים לי אקשאייה,
ואני עובדת בצוות של מנוע החיפוש בינג
פעמים רבות, כאשר אנו באים לבחון
אינטליגנציה מלאכותית ולמידה חישובית,
עלינו לחשוב על האופן שבו
המשתמשים ישתמשו בהם.
כי בסופו של יום,
אנחנו רוצים להשאיר חותם על החברה.
בואו נשאל שאלה פשוטה:
כמה זמן לוקח לטוס למאדים?
מאיפה באו התוצאות הללו?
ולמה התוצאה הראשונה ממוקמת
לפני התוצאה השנייה?
אוקיי, בואו נצלול פנימה ונראה כיצד מנוע
החיפוש הופך את הבקשה שלכם לתוצאה.
הדבר הראשון שעליכם לדעת הוא שבזמן החיפוש,
מנוע החיפוש לא באמת מתחבר לרשת הכלל-עולמית
כדי להריץ את החיפוש שלכם בזמן אמת.
וזה בגלל שיש מיליארדים של אתרים ברחבי הרשת,
ומאות חדשים מצטרפים אליהם מדי דקה.
אז אם מנוע החיפוש היה צריך לחפש בכל האתרים
כדי למצוא את זה שאתם רציתם
זה בטח היה לוקח נצח נצחים.
אז כדי להפוך את החיפוש שלכם למהיר יותר,
מנועי החיפוש סורקים את הרשת מבעוד מועד
כדי לשמור את המידע שאולי יעזור
לחיפוש שלכם מאוחר יותר.
באופן הזה, כשאתם מחפשים מידע על טיסה
למאדים, למנוע החיפוש יש כבר
את כל מה שהוא צריך כדי לתת לכם
תשובה בזמן אמת.
ככה זה עובד:
האינטרנט הוא בעצם רשת של דפים
המחוברים ביניהם באמצעות היפר-קישורים.
מנועי החיפוש מריצים באופן רציף תוכנה
הנקראת עכביש (Spider).
העכביש עובר על הדפים
ואוסף מידע עליהם.
כל פעם שהוא מוצא היפר-קישור, הוא עוקב
אחריו עד שהוא מבקר בכל עמוד שהוא מוצא
בכל רחבי האינטרנט.
בכל עמוד שהעכביש מבקר בו,
הוא אוסף כל מידע לו הוא
עלול להזדקק בחיפוש
ומוסיף אותו למסד נתונים מיוחד
בשם אינדקס חיפוש (Search Index).
עכשיו, בואו נחזור לחיפוש שביצענו מקודם
ונראה אם אנחנו יכולים להבין
איך מנוע החיפוש מצא את התוצאות.
כשאתם שואלים "כמה זמן לוקח להגיע למאדים?"
מנוע החיפוש מחפש אחר כל מילה בנפרד
בתוך אינדקס החיפוש
ומיד מקבל רשימה של כל האתרים באינטרנט
שמכילים את המילים הללו.
אבל רק חיפוש אחר המינוחים הללו
יכול להחזיר מיליוני דפים, כך שמנוע החיפוש
חייב להיות מסוגל להכריע אילו תוצאות
להראות לכם קודם
כאן זה נהיה מסובך: מנוע החיפוש
צריך לפעמים לנחש מה אתם רוצים למצוא.
כל מנוע חיפוש משתמש באלגוריתם משלו
כדי לדרג את העמודים שלו בהתבסס על
מה שהוא חושב שאתם רוצים למצוא.
אלגוריתם הדירוג של מנועי החיפוש יבדוק
אם מינוח החיפוש שלכם מופיע בכותרת הדף.
הוא עשוי לבדוק גם אם כל המילים מופיעות
זו לצד זו, או כל מספר אחר של חישובים
שיעזרו לקבוע טוב יותר אילו אתרים
ברצונכם לראות - ואילו לא.
גוגל המציאה את האלגוריתם המפורסם ביותר
לבחירת התוצאות הרלוונטיות ביותר לכל חיפוש,
בכך שהיא משקללת כמה דפי אינטרנט
אחרים מקשרים לכל עמוד נתון.
הרעיון הוא שאם אתרים רבים חושבים
שדף האינטרנט הוא מעניין,
אז ככל הנראה זה הדף
שאותו אתם מחפשים.
האלגוריתם הזה נקרא דירוג פייג'
(Page Rank) אבל לא בגלל שהוא מדרג דפי אינטרנט,
אלא כי הוא נקרא על שם הממציא שלו,
לארי פייג', שהוא גם אחד ממקימי גוגל.
בגלל שהאתר לרוב מרוויח
כסף כשאתם מבקרים בו,
ספאמרים תמיד מנסים למצוא דרכים
לעבוד על אלגוריתם החיפוש
כך שהעמודים שלהם יופיעו
גבוה יותר ברשימת התוצאות.
מנועי חיפוש מעדכנים את האלגוריתמים שלהם
כדי למנוע מאתרים מפוקפקים
ומזויפים מלהגיע לראש התוצאות.
בסופו של דבר, זה תלוי גם בכם: היזהרו מאתרים מפוקפקים כאלה.
הביטו בכתובתו של האתר
ווודאו שהוא אכן מקור אמין.
תוכנות החיפוש משתכללות כל הזמן
ומנסות לשפר את האלגוריתמים
כך שיחזירו תוצאות טובות יותר
ומהירות יותר מאשר המתחרים.
מנועי החיפוש משתמשים כיום במידע
שלא בהכרח סיפקתם להם
כדי לעזור לכם בצמצום ודיוק
החיפושים שלכם.
אז לדוגמה, אם ברצונכם לחפש
אחר "פארקים לכלבים",
מנועי חיפוש רבים ייתנו לכם את התוצאות
לכל הפארקים שבסביבה
גם אם לא סיפקתם להם את מיקומכם.
מנועי חיפוש מודרניים גם מבינים יותר
מהמילים המופיעות בדפים.
הם מבינים ממש מה הן אומרות, וכל זאת כדי למצוא את אלה שהכי תואמות את החיפוש שלכם.
לדוגמה, אם תחפשו אחר מגיש מהיר (Fast
Pitcher), הוא יבין שאתם מחפשים ספורטאי.
אבל אם תחפשו אחר
קנקן גדול (Large Pitcher),
הוא ימצא עבורכם תוצאות
הקשורות למטבח שלכם.
כדי להבין את המילים טוב יותר, אנו
משתמשים בלמידה חישובית,
שהיא סוג של
אינטליגנציה מלאכותית.
היא מאפשרת לאלגוריתמים של חיפוש
לחפש לא רק אותיות או מילים בדף,
אלא להבין גם את המשמעות מאחוריהן.
האינטרנט גדל בקצב מסחרר,
אבל אם צוותי החיפוש יקלו על עבודתנו,
המידע שאתם מחפשים יישאר תמיד
במרחק כמה לחיצות מקשים בלבד.