Return to Video

Stemming to Consolidate Vocabulary - Intro to Machine Learning

  • 0:00 - 0:03
    ،توجد خدعة سهلة أخرى سأعلمها لك الآن
  • 0:03 - 0:07
    ولها علاقة بفكرة أنه ليست جميع الكلمات الفريدة مختلفة بالفعل، أو
  • 0:07 - 0:09
    .غير مختلفة للغاية بأي حال
  • 0:09 - 0:12
    .دعني أوضح لك مثالاً على ما أقصده
  • 0:12 - 0:15
    ،فلنفرض أنه في المتن الخاص بي توجد لدي مجموعة مختلفة من إصدارات استجابة الكلمة
  • 0:15 - 0:19
    حيث يتغير المعنى دومًا بشكلٍ طفيف استنادًا إلى السياق أو
  • 0:19 - 0:22
    استنادًا إلى جزء من الحديث الذي تمثله الكلمة، لكنها تتحدث عن
  • 0:22 - 0:27
    .نفس الفكرة في الأساس أو فكرة خاصة بشخص ما أو شيء ما يستجيب
  • 0:27 - 0:31
    ،وتكمن الفكرة في أنه إذا قمت بسذاجة بوضع تلك الكلمات في مجموعة كلمات
  • 0:31 - 0:33
    ،فستظهر جميعها كأشكال مختلفة
  • 0:33 - 0:36
    .حتى على الرغم أنها جميعًا تحقق نفس الفكرة تقريبًا
  • 0:36 - 0:39
    وسيسري ذلك على العديد من الكلمات في الكثير من اللغات، وهو أنها
  • 0:39 - 0:44
    .تتضمن الكثير من التبديلات المختلفة التي تعني أشياء مختلفة قليلاً فقط
  • 0:44 - 0:46
    ولحسن الحظ هناك ضرب من
  • 0:46 - 0:50
    ،تجميع تلك الكلمات معًا وتمثيلها ككلمة واحدة
  • 0:50 - 0:53
    .والطريقة التي يحدث بها ذلك هي استخدام خوارزمية تسمى stemmer
  • 0:53 - 0:56
    ،لذا إذا كان يتعين علي تضمين هذه الكلمات ووضعها في خوارزمية stemmer
  • 0:56 - 1:00
    فستقوم عندئذٍ بتطبيق دالة عليها من شأنها إزالتها جميعًا
  • 1:00 - 1:05
    .حتى يكون لها نفس نوع الجذر، الذي قد يكون شيئًا ما مثل respon
  • 1:05 - 1:10
    لذا فالفكرة لا تكمن بالضرورة في إنشاء كلمة فردية من هذه المجموعة، نظرًا
  • 1:10 - 1:15
    لأن respon ليست كلمة بالطبع، لكنها نوع من جذر كلمة أو مصدر
  • 1:15 - 1:21
    .كلمة يمكن عندئذٍ استخدامها في أيٍ من المصنفات أو الانحدارات
  • 1:21 - 1:24
    ،لقد تناولنا الآن مساحة الإدخال خماسية الأبعاد هذه
  • 1:24 - 1:27
    .وحولناها إلى مساحة أحادية البُعد دون فقد أية معلومات فعلية
  • 1:27 - 1:32
    .يمكن أن يتطلب تطبيق دالات أصل الكلمات بنفسك براعة بالفعل
  • 1:32 - 1:36
    يوجد لغويون محترفون ولغويون حسابيون قاموا بإنشاء
  • 1:36 - 1:41
    .دالات أصل الكلمات هذه، التي تكشف عن مصدر كلمة محددة على النحو الأفضل
  • 1:41 - 1:45
    ومن ثم، ما نقوم به غالبًا في التعلم الآلي هو أخذ واحدة من تلك الخوارزميات
  • 1:45 - 1:49
    القياسية من شيء مثل NLTK، أو
  • 1:49 - 1:53
    ،حزمة معالجة نص مماثلة أخرى، ونستخدمها وحسب
  • 1:53 - 1:56
    .ليس بالضرورة الخوض في تفاصيل كيفية عملها
  • 1:56 - 1:58
    ،ثم بمجرد تطبيق أصل الكلمات
  • 1:58 - 2:02
    .سيكون لدينا بالفعل مجموعة مصطلحات أوضح يمكننا العمل باستخدامها
Tytuł:
Stemming to Consolidate Vocabulary - Intro to Machine Learning
Opis:

more » « less
Video Language:
English
Team:
Udacity
Projekt:
ud120 - Intro to Machine Learning
Duration:
02:03

Arabic subtitles

Revisions