The goal of the first three units in this course is to build a Web crawler
that will collect data from the Web for our search engine.
And to learn about big ideas in Computing by doing that.
In Unit 1, we'll get started by extracting the first link on a web page.
A Web crawler finds web pages for our search engine
by starting from a "seed" page and following links on that page to find other pages.
Each of those links lead to some new web page, which itself could have links that lead to other pages.
As we follow those links, we'll find more and more web pages
building a collection of data that we'll use for our search engine.
A web page is really just a chunk of text that comes from the Internet into your Web browser.
We'll talk more about how that works in Unit 4.
But for now, the important thing to understand is that
a link is really just a special kind of text in that web page.
When you click on a link in your browser it will direct you to a new page.
And you can keep following those links as a human.
What we'll do in this Unit is write a program to extract that first link from the web page.
In later units, we'll figure out how to extract all the links and build their collection for our search engine
هدف الوحدات الثلاثة الأولى في هذا المقرر هو بناء زاحف شبكي
يجمع البيانات من الشبكة لمحرك البحث الخاص بنا
ولتتعلم عن الأفكار الكبيرة في الحوسبة بفعل ذلك
في الوحدة 1، سنبدأ باستخراج أول رابط من صفحة شبكية
الزاحف الشبكي يجد صفحات الشبكة لمحرك البحث
عن طريق البدأ بصفحة "بذرة" و يبدأ بمتابعة الروابط في تلك الصفحة ليجد صفحات أخرى
كل من هذه الروابط تؤدي إلى بعض الصفحات الشبكية الجديدة، والتي هي الأخرى قد تحتوي روابط تؤدي لأخر
ومن خلال تتبعنا لهذه الروابط، سنجد العديد والعديد من صفحات الإنترنت
بحيث تبني مجموعة من البيانات والتي بدورها سنستخدمها في محرك البحث الخاص بنا
صفحة الإنترنت هي فقط في الحقيقة مجرد مجموعة من النصوص التي تأتي من الإنترنت إلى مستكشف "متصفح" الإنترنت الخاص بك
وسنتحدث أكثر عن كيفية يعمل ذلك في الوحدة الرابعة
لكن لحد الآن، الشيء المهم هو فهم أن
الرابط هو مجرد نوع خاص من النص في صفحة الإنترنت تلك
عندما تضغط عليها في متصفحك ستوجهك لصفحة جديدة
وبإمكانك الإحتفاظ بتلك الروابط كإنسان
ما سنفعله في هذه الوحدة هو كتابة برنامج يستخرج أول رابط من صفحة إنترنت
و في الوحدات الأخرى، سنكتشف كيفية إستخراج كل الروابط و بناء مجموعات خاصة بحرك بحثنا
Cílem prvních tří kapitol je sestavení webového "šmějdila",
který bude zbírat data z webu pro náš vyhledávač.
A při tom se naučíme základy počítačů.
V kapitole 1 začneme od získání prvního odkazu ze stránky.
"Šmejdil" hledá webové stránky pro náš vyhledávač tak,
že začne od "zdrojové" stránky a postupně zkoumá její odkazy na jiné stránky.
Každý z těchto odkazů vede na novou stránku, která take může mít odkazy vedoucí na jiné stránky.
Postupným skenování odkazů, získaváme více a více stránek
- a tím tvoříme sbírku dat, které budeme ásledně používat.
Webová stranka je ve skutečnosti pouze text, který je stážen z internetu do prohlížeče.
Více si o tom povíme v kapitole 4.
Ale prozatím je důležití pochopit,
že odkaz je jen speciální druh textu na webových stránkách.
Když klikneš na odkaz v prohlížeči, zavede tě na novou stránku.
A můžeš je prohlížet jako člověk.
Co uděláme v této kapitole je, že napíšeme program pro získání prvního odkazu ze stránky.
V pozdějších kapitolách si ukážeme jak shromáždit všechny odkazy pro náš vyhledávač.
Das Ziel der ersten 3 Einheiten dieses Kurses ist es
einen Web-Crawler zu programmieren,
die Daten aus dem Internet für
die Suchmaschine sammelt
und nebenbei die Grundlagen der Informatik zu lernen.
In Einheit 1 werden wir den ersten
Link einer Webseite entnehmen.
Ein Web-Crawler findet Internetseiten
für unsere Suchmaschine
beginnend von einer Startseite, indem er den Links
auf dieser Seite folgt zu anderen Webseiten.
Jeder dieser Links führt zu neuen Seiten,
die selbst Links zu anderen Seiten haben können.
Wenn wir diesen Links folgen,
werden wir mehr und mehr Webseiten finden.
und so eine Datensammlung aufbauen,
die wir für die Suchmaschine benutzen.
Eine Internetseite ist Text, der aus dem Internet
in den Web-Browser geladen wird.
Wie das geht, sehen wir in Einheit 4.
Aber zunächst ist es wichtig zu verstehen, das
ein Link nur eine spezieller Text in der Webseite ist
Wenn du einen Link im Browser anklickst,
wird er dich direkt auf die neue Seite führen.
Und du kannst diesen Links als Mensch folgen.
Was wir in dieser Einheit tun, ist, ein Programm zu schreiben,
das den ersten Link einer Webseite entnimmt.
Später werden wir herausfinden,
wie man alle Links sammelt für unsere Suchmaschine.
La meta de las primeras tres unidades en este curso es construir una "araña web"
que recopilará datos de la Red para nuestro motor de búsqueda.
Y haciéndolo aprenderemos más acerca de los grandes conceptos de la Informatica.
En la Unidad 1, comenzaremos por extraer el primer hipervínculo de una página web.
Una araña web encuentra páginas web para nuestro motor de búsqueda
empezando por una página "semilla" y siguiendo los hiperenlaces en esa página para encontrar otras páginas.
Cada uno de esos enlaces llevan a alguna otra nueva página, la cual, a su vez, puede contener enlaces que llevan a otras páginas.
Mientras sigamos esos enlaces, encontraremos más y más páginas web
construyendo una colección de datos que usaremos para nuestro motor de búsqueda.
Una página web es simplemente sólo un trozo de texto que viene de Internet hasta tu navegador web.
Hablaremos más acerca de cómo funciona en la Unidad 4.
Pero por ahora, lo importante es entender que
un enlace es simplemente un tipo especial de texto en esa página web
Cuando haces click en un enlace en tu navegador, te dirigirá hacia una nueva página.
Y tú puedes continuar siguiendo esos enlaces como un humano.
Lo que debemos hacer en esta Unidad es escribir un programa para extraer ese primer enlace de la página web.
En unidades posteriores, averiguaremos como extraer todos los enlaces y crear una colección de los mismos para nuestro motor de búsqueda
هدف سه درس اول این دوره ایجاد یک کرولر وب است
که اطلاعات را از وب برای موتور جستجوی ما جمعآوری کند.
و یاد گرفتن دربارهی ایدههای بزرگ در محاسبات رایانهای به کمک انجام دادن آن.
در درس اول، ما اولین لینک موجود در صفحهی وب را استخراج خواهیم کرد.
کراولر وب صفحههای وب را برای موتور جستجو ما پیدا خواهد کرد
با شروع از صفحهی Seed و دنبال کردن لینکهای موجود در آن صفحه برای پیدا کردن دیگر صفحهها.
هر کدام از آن لینکها به صفحهی جدیدی ختم میشوند که آن صفحه میتواند دارای لینکهایی باشد برای رفتن به صفحههای دیگر.
با دنبال کردن آن لینکها، ما صفحههای وب بیشتر و بیشتری را پیدا خواهیم کرد
که مجموعهای از اطلاعاتی را ایجاد میکنند که از آنها برای موتور جستجوی خود استفاده خواهیم کرد.
یک صفحه وب در حقیقت تنها مجموعهای از متن است که از اینترنت به مرورگر شما میآید.
در درس چهارم در مورد کارکرد این موضوع بیشتر صحبت خواهیم کرد.
اما برای الان، نکتهی مهم برای درک کردن آن است که
یک لینک تنها یک نوع خاص از متن در صفحهی وب است.
زمانی که شما بر روی یک لینک در مرورگر خود کلیک میکنید، شما به صفحهی جدیدی راهنمایی میشوید.
و شما میتوانید این لینکها را به صورت دستی دنبال کنید.
آنچه در این درس انجام خواهیم داد، نوشتن برنامهای خواهد بود که اولین لینک را از یک صفحهی وب استخراج کند.
در درسهای دیگر، ما یاد خواهیم گرفت که چگونه تمام لینکها را استخراج و مجموعهای از آنها را برای موتور جستجویمان ایجاد کنیم.
L' objectif des 3 premiers segments de ce cours est de réaliser un fureteur (web Crawler)
qui va collecter des données (de l'information) sur la toîle (web) qui serviront à notre moteur de recherche
En faisant celà nous apprendrons l'idée générale qui sous - tend la programmation.
dans le Segment 1, nous allons commencer en prélevant le 1er lien ( link) d'une page web
Un fureteur (web crawler ) trouve les pages Web pour notre moteur de recherche
en començant par une page ( seed ) et en suivant des liens inscrits dans cette page on ouvre d'autre pages .
Chaque lien nous ouvre de nouvelles pages , lesquelles ont des liens qui nous conduisent à d'autre pages.
en suivant ces liens nous allons trouver de plus en plus de pages web
accumulant ainsi des données ( banque de data) que nous employerons pour notre moteur de recherche.
Une page web est en fait un texte ou une partie de texte, provenant de l'internet , qui se trouve à un moment donné dans votre moteur de recherche
Dans le segment #4 , nous en traiterons plus en détail.
Pour l'instant , ce dont on doit se rappeler : c'est que,
un lien n' est en fait qu'un texte faisant partie d'une page web.
Quand vous clicquez sur un lien dans votre moteur de recherche , il vous dirige vers uine nouvelle page.
.Vous pouvez donc suivre ces liens comme un humain.
Dans ce segment , nous allons écrire un programme, qui va nous permettre d'extraire le premier lien d'une page web.
dans d'autre segments nous allons extraire tous les liens en faire la collecte et les intégrer dans notre moteur de recherche.
המטרה של שלוש היחידות הראשונות בקורס זה היא לבנות זחלני מרשתת.
הם יאספו מידע מהמרשתת למנוע החיפוש שלנו.
וללמוד על רעיונות גדולים במחשוב דרך לעשות את זה.
ביחידה אחת, נתחיל בלייצא את הקישור הראשון בדף מרשתת.
זחלן מרשתת מוצא דפי אינטרנט עבור מנוע החיפוש שלנו
על ידי התחלה מדף "זרע" ומעקב אחרי הקישורים בדף זה כדי למצוא דפים אחרים.
כל אחד מהקישורים הללו מוביל לדף מרשתת אחר, שבעצמו יכול להכיל קישורים שמובילים לדפים אחרים.
כשאנו עוקבים אחר הלינקים הללו, אנו נמצא עוד ועוד דפי מרשתת.
הבונים מאגר מידע שנשתמש בו עבור מנוע החיפוש שלנו.
דף מרשתת הוא באמת רק אוסף של טקסט שבא מן המרשתת לתוך הדפדפן שלך.
נדבר יותר על איך זה עובד ביחידה 4.
אך לעת עתה, הדבר החשוב להבין הוא
שלינק הוא באמת רק סוג מיוחד של טקסט בדף המרשתת הזה.
כשאתה לוחץ על קישור בדפדפן הוא יוביל אותך לדף אחר
ואתה יכול להמשיך לעקוב אחרי הקישורים הללו (...)
מה שנדבר עליו יותר ביחידה זו זה לכתוב תוכנה שמוציאה את הלינק הראשון בדף מרשתת.
ביחידות מאוחרות יותר, אנו נברר כיצד להוציא את כל הלינקים ונבנה את האוסף שלהם עבור מנוע החיפוש שלנו.
A kurzus első három leckéjének célja egy web bejáró felépítése.
Ezek gyűjtik össze az adatokat a webről a keresőmotorunk számára.
És megtanuljuk, hogy a számítástechnikában hogyan valósíthatjuk meg a nagy ötleteket.
Az 1. leckét egy weboldal első hivatkozásának kicsomagolásával kezdjük.
A web bejáró megtalálja a weboldalakat a keresőmotorunk számára
a "kezdőoldallal" kezdve, és az azon az oldalon található hivatkozásokat követve a többi oldalt is.
Ezen hivatkozások mindegyike új weboldalakra mutat, amelyek maguk is tartalmazhatnak hivatkozásokat további oldalakra.
Ahogy ezeket a hivatkozásokat követjük, úgy egyre több és több weboldalt találunk,
ezáltal olyan adathalmazt felépítve, amit felhasználhatunk a keresőmotorunkhoz.
Egy weboldal valójában csak egy nagy adag szöveg, ami az internetről a böngésződbe töltődik be.
Ennek működéséről bővebben a 4. leckében fogunk beszélni.
De most a legfontosabb dolog, hogy megértsük,
a hivatkozás valójában csak egy speciális fajtájú szöveg egy weboldalon.
Amikor rákattintasz egy hivatkozásra a böngésződben, az közvetlenül egy új oldalra visz téged.
És ott további hivatkozásokkal találkozhatsz (...)
Ebben a leckében egy olyan programot írunk, ami a weboldalból kinyeri az első hivatkozást.
A későbbi leckékben meg fogjuk tanulni, hogyan tudjuk az összes hivatkozást kinyerni és felépíteni egy gyűjteményt belőlük a keresőmotorunk számára.
Tujuan dari tiga unit pertama dalam kuliah ini adalah untuk membuat sebuah Web crawler
yang akan mengumpulkan data dari Web untuk mesin pencari kita.
Dan belajar tentang ide - ide besar dalam komputasi dengan melakukan hal itu.
Pada unit pertama, kita akan memulai dengan mengekstrak tautan pertama pada sebuah halaman web .
Web crawler mencari halaman - halaman web untuk mesin pencari kita.
dengan memulai dari sebuah halaman "seed" dan mengikuti tautan dalam halaman itu untuk mencari halaman lain
Setiap tautan tersebut mengarah pada beberapa halaman web baru, yang dengan sendirinya bisa memiliki tautan yang mengarah ke halaman lain.
Dengan mengikuti tautan - tautan itu, kita akan menemukan banyak dan semakin banyak halaman web
membangun kumpulan data yang akan kita gunakan untuk mesin pencari kita.
Sebuah halaman web sebenarnya hanya sepotong teks yang berasal dari Internet ke browser web-mu.
Kita akan berbicara lebih banyak tentang bagaimana ini bekerja pada unit 4.
Tetapi untuk saat ini, hal penting untuk dimengerti adalah
sebuah tautan hanyalah bentuk khusus dari teks pada halaman web.
Ketika kamu mengklik tautan di browser-mu akan mengarahkanmu ke halaman baru.
Dan kamu dapat terus mengikuti tautan tersebut sebagai manusia.
Apa yang akan kita lakukan di unit ini adalah menulis sebuah program untuk mengekstrak tautan pertama itu dari halaman web.
Dalam unit selanjutnya, kita akan mencari cara untuk mengekstrak semua tautan dan membangun koleksi koleksinya untuk mesin pencari kita.
Lo scopo delle prime tre lezioni in questo corso è di costruire un Web crawler
che raccoglierà dati dal Web per il nostro motore di ricerca
e, nel fare questo, imparare importanti concetti informatici
Nella Lezione 1, inizieremo estraendo il primo collegamento in una pagina web
Un Web crawler trova pagine web per il nostro motore di ricerca
partendo da una pagina "seed" (seme) e seguendo i collegamenti da quella pagina per trovare altre pagine.
Ognuno di questi collegamenti conduce ad altre nuove pagine web, le quali, a loro volta, potrebbero avere collegamenti che portano ad altre pagine
Mentre seguiamo questi collegamenti, troveremo sempre più pagine web
costruendo una collezione di dati che useremo per il nostro motore di ricerca
Una pagina web è in realtà un blocco di testo che proviene da Internet verso il vostro browser Web
Diremo di più su come la cosa funziona nella lezione 4
Per ora, la cosa importante da capire è che
un collegamento è semplicemente un tipo di testo speciale in quella pagina web
Quando fate click su di un collegamento nel vostro browser, venite diretti verso una nuova pagina.
E potete continuare a seguire questi collegamenti
Quello che faremo in questa Lezione è scrivere un programma che estrae il primo collegamento dalla pagina web
Nelle successive lezioini, scopriremo come estrarre tutti i collegamenti e come costruire la loro collezione per il nostro motore di ricerca
このコースの最初の3レッスンにおける目標は
我々の検索エンジンで
Webからデータを集める
Webクローラを作成することです
またそうすることで
コンピューティングにおけるアイデアを学ぶためです
レッスン1は
Webページに最初のリンクを抽出することから始めます
我々の検索エンジンでは
シードページから開始して別のページを見つけるために
そのページのリンクを進むことで
WebクローラがWebページを見つけます
1つ1つのリンクが新しいWebページに続いていて
そのページが別のページに続くリンクを持っています
このようなリンクをたどることで
検索エンジンに使用するデータコレクションを作り上げ
さらにたくさんのWebページを見つけることができます
実際Webページはインターネットから
Webブラウザへやってくる単なるテキストの塊です
レッスン4でその機能の仕組みを
さらに解説していきます
ここではリンクはWebページにおいて特別な種類の
テキストであるということを理解することが重要です
ブラウザでリンクをクリックすると
新たなページへ移動します
そして人力で
このようなリンクをたどり続けることができます
このレッスンで行うことはWebページからの
最初のリンクを抽出するプログラムを書くことです
そのあと検索エンジンにおけるコレクションの築き方や
すべてのリンクの抽出方法を考えていきます
이 코스에서 첫3챕터의 목표는 검색엔진을 만드는거예요.
웹으로 부터 데이터를 모아서 말이죠
그리고 검색엔진을 만드는 과정에서 Computing에 대한
중요한 개념들을 배울거예요
Unit 1에서 우리는 웹페이지에서 링크를
추출하는 걸로 부터 시작해볼거예요
웹크롤러는 검색엔진을 위에서 웹페이지를 찾아요.
"seed"페이지로부터 시작해서 또 다른 페이지를 찾기위해
그 안에 링크를 따라 갈거예요
각각의 링크는 새로운 페이지로 이끌거예요.
우리가 링크들을 따라갈 수록 우린 더 많은 웹페이지들을 발견할거예요
그 데이터를 가지고 우린 검색엔진을 만드는데 사용할거예요.
웹페이지는 인터넷으로부터 웹브러우저로 가는 텍스트 덩어리들이예요
우린 Unit 4에서 어떻게 작동하는지 더 자세히 알아볼거예요
지금 중요하게 이해해야하는건
링크는 웹페이지에서 특별한 종류의 텍스트라는거예요
당신이 브라우저에서 링크를 클릭하면 당신의
브라우저엔 새로운 창이 열릴거예요
그리고 당신의 그런 링크를 쭉 따라갈 수 있어요
우리가 이번 유닛에서 할건 웹페이지로부터 첫번째 링크를
추출하기 위한 프로그램을 작성하는거예요
마지막 유닛에선 우린 모든 링크를 추출하는 방법을 알아볼거고 우리의 검색엔진을 위해 모은 링크들을 사용할거예요.
Šī kursa pirmo 3 daļu mērķis ir uzbūvēt tīmekļa rāpuli.
Tīmekļa rāpulis vāks datus no tīmekļa priekš mūsu meklēšanas dziņa.
To darot tu mācīsies par lielajām Skaitļošanas idejām.
1. daļā mēs sāksim izvelkot pirmo saiti kādā tīmekļa lapā.
Tīmekļa rāpulis atrod tīmekļa lapas mūsu meklēšanas dzinim
sākot no "sēklas" lapas un sekojot saitēm šajā lapā, lai atrastu citas lapas.
Katra no šīm saitēm ved uz kādu jaunu tīmekļa lapu, kurā savukārt var būt saites, kas ved uz citām lapām.
Sekojot šīm saitēm, mēs atradīsim vairāk un vairāk tīmekļa lapas
būvējot datu kolekciju, ko mēs lietosim mūsu meklēšanas dzinim.
Tīmekļa lapa īstenībā ir tikai gabaliņš teksta, ko mūsu tīmekļa pārlūks saņem no Interneta.
Par to mēs vairāk runāsim 4. daļā.
Bet pašlaik, svarīgā lieta, kas jāsaprot, ir tas,
ka saite ir tikai īpaša veida teksts tīmekļa lapā.
Kad tu klikšķi uz kādas saites, tava pārlūprogramma nosūtīs tevi uz jaunu lapu.
Un tu vari turpināt sekot šīm saitēm (...)
Šajā daļā mēs rakstīsim programmu, kas izvilks pirmo saiti no tīmekļa lapas.
Tālākās daļās mēs izdomāsim kā izvilkt visas saites un uzbūvēt saišu kolekciju mūsu meklēšanas dzinim.
Celem pierwszych trzech rozdziałów jest zbudowania "szperacza sieciowego"
Będzie zbierało dane z sieci dla naszej wyszukiwarki.
I nauczy o koncepcjach w przetwarzaniu komputerowym.
W rozdziale 1, zaczniemy od wydobycia pierwszego linku na stronie internetowej.
"Szperacz sieciowy" znajdzie strony dla naszej wyszukiwarki
zaczynając od "źródłowej" strony i śledząc linki na tej stronie w celu znalezienia innych stron.
Każda z tych stron prowadzi do nowej strony, która może zawierać linki prowadzące do innych.
Gdy będziemy podążali za tymi linkami, znajdziemy coraz więcej stron internetowych
budujących zbiór danych, które wykorzystamy w naszej wyszukiwarce.
Strona internetowa jest tak naprawdę kawałkiem tekstu który przychodzi z internetu do Twojej przeglądarki.
Powiemy więcej na temat tego jak to działa w rozdziale 4.
A teraz, ważną rzeczą do zrozumienia jest to
że link jest tak naprawdę specjalnym tekstem na stronie
Gdy klikasz w link w przeglądarce, przekieruje Cie do nowe strony.
A Ty możesz podążać za tymi linkami.
W tym rozdziale napiszemy program do wydobycia pierwszego linku ze strony internetowej
W późniejszych rozdziałach wymyślimy jak wydobyć wszystkie linki i jak zbudować ich zbiór dla naszej wyszukiwarki
O objetivo das primeiras três unidades desse curso é construir um (Web crawler) rastreador Web.
Eles colecionarão dados da Web para sua ferramenta de pesquisa.
E aprender sobre as grandes idéias da computação fazendo isso.
Na Unidade 1, nós iniciaremos extraindo o primeiro link em uma página web.
Um rastreador Web (Web crawler) procura páginas web para sua ferramenta de pesquisa
iniciando de uma página "semeada" e seguindo links naquela página para encontrar outras páginas.
Cada um desses links leva a alguma nova página web, a qual pode ter links que levam a outras páginas.
Como nós seguimos esses links, nós encontraremos mais e mais páginas Web
construindo uma coleção de dados que usaremos para nossa ferramenta de pesquisa.
Uma página web é realmente só um pedado de texto que vem da Internete para o seu navegador Web.
Nós falaremos mais sobre como isso funciona na Unidade 4.
Mas, por agora, a coisa importante a compreender é que
um link é somente um pedaço especial do texto na página Web.
Quando você clica em um link no seu navegador, ele o direcioina para uma nova página.
E você pode permanecer seguindo esses links (...)
O que nós faremos nessa Unidade é escrever um programa para extrair aquele primeiro link da página Web.
Nas próximas unidades, nós vamos descobrir como extrair todos os link e construir a coleção para nossa ferramenta de busca.
Scopul primelor trei lecții din cursul acesta este de a construi un crawler web
care să colecteze date din rețea pentru motorul nostru de căutare.
Și să învățăm despre marile idei din informatică făcând acest lucru.
În prima lecție, vom începe prin a extrage primul link dintr-o pagină web.
Un crawler web găsește pagini web pentru motorul nostru de căutare
începând de la o pagină "sămânță"(seed) și urmărind link-urile din aceea pagină pentru a găsi alte pagini.
Fiecare dintre acele link-uri conduce la pagini web noi, care pot să aibă link-uri care duc la alte pagini.
Pe măsură ce urmărim aceste link-uri, vom găsi tot mai multe pagini
și vom construi o colecție de date pe care o vom folosi pentru motorul nostru de căutare.
O pagină web nu este defapt numai o bucată de text care vine din Internet în browser-ul nostru web.
Vom vorbi mai mult despre cum funcționează asta în Lecția 4.
Dar acum, lucrul important este să înțelegem că
un link nu este defapt doar un text mai special din această pagină web.
Când apeși pe un link în browser te va duce la o nouă pagină.
Iar ca și om, poți să tot urmărești link-urile acesta.
Ce vom face în această lecție va fi să scriem un program care să extragă primul link din pagina web.
În lecțiile următoare, ne vom da seama cum să extragem toate link-urile și să construim o colecție pentru motorul nostru de căutare.
Цель первых трех разделов этого курса – создать поискового робота,
который будет собирать из веба данные для нашей поисковой системы.
И узнать в процессе о замечательных идеях из области компьютерных наук.
Мы начнем раздел 1 с поиска первой ссылки на веб-странице.
Поисковый робот ищет веб-страницы для нашей поисковой системы,
начиная со стартовой страницы и следуя по ссылкам на ней, чтобы обнаружить другие страницы.
Каждая из этих ссылок ведет на новую веб-страницу, на которой, в свою очередь, могут быть ссылки, ведущие на другие страницы.
Следуя по этим ссылкам, мы будем узнавать о веб-страницах все больше и больше,
накапливая коллекцию данных, которая впоследствии пригодится для нашего поисковика.
Веб-страница – по сути, всего лишь кусок текста, который попадает из Интернета в ваш браузер.
Подробнее о том, как это происходит, мы поговорим в разделе 4.
Но сейчас для нас главное понять, что
ссылка – это просто особая разновидность текста на веб-странице.
Когда вы кликаете по ссылке в окне своего браузера, она направляет вас на новую страницу.
Вы можете и дальше перемещаться по этим ссылкам даже будучи человеком, а не роботом.
В этом разделе мы напишем программу для поиска самой первой ссылки на веб-странице.
В последующих разделах мы сможем найти все ссылки на странице и собрать из них коллекцию для нашей поисковой системы.
Bu kursun ilk üç ünitesinin amacı arama
motorumuz için Web'den bilgi
toplayacak bir web tarayıcısı yapmaktır.
ve tabi
bunu yaparken programlamanın bazı esasları
nı öğrenmek
Ünite 1'de bir web sayfasının ilk linkini
seçip almayla başlayacağız.
Bir web tarayıcısı bir kaynak sayfadaki
linkleri tarayıp oradan
diğer sayfaları bulur. Böylece arama moto-
rumuz için web sayfalarını indexler.
Bulduğu her link bizi içinde daha başka
linkler bulunan yeni sayfalara götürür.
Böylelikle daima yeni sayfalar bulup arama
motorumuz için kullanacağımız data
setini oluşturmuş olacağız.
Bir web sayfası aslında İnternet üzerinden
web tarayıcınıza gelen bir metin bütünüdür
Bunu Ünite 4'te daha detaylı göreceğiz.
Şimdilik anlamanız gereken,
bir linkin web sayfalarında
bulunan özel bir tür metin olduğudur.
Tarayıcınızda bir linke tıkladığınızda
sizi yeni bir sayfaya götürür.
ve siz bu linkleri takip edersiniz.
Bu ünitede yapacağımız şey bir web sayfası
nın ilk linkini alacak bir program yazmak.
Sonraki ünitelerde sayfadaki tüm linkleri
ayıklayıp data setimizi oluşturacağız.
Мета перших трьох блоків цього курсу - створити пошукового робота,
який буде збирати з мережі дані для нашої пошукової системи,
та дізнатись в процесі про чудові ідеї зі сфери комп'ютерних наук.
Ми почнемо перший розділ з першого посилання на веб-сторінці.
Пошуковий робот шукає веб-сторінки для нашої пошукової системи,
починаючи зі стартової сторінки, щоб знайти інші сторінки.
Кожне з цих посилань веде до нової веб-сторінки, на якій, в свою чергу, можуть бути посилання, які ведуть до інших сторінок.
Проходячи за цима посиланнями, ми будемо дізнаватись про веб-сторінки все більше і більше,
накопичуючи колекцію даних, яка пізніше знадобиться для нашої пошукової системи.
Веб-сторінка - це всьго лише частина тексту, який потрапляє з Інтернету до вашого браузера.
Детальніше про те, як це відбувається, ми поговоримо у розділі 4.
Проте зараз для нас головне зрозуміти, що
посилання - це лише особливий різновид тексту на веб-сторінці.
Коли ви клікаєте за посиланням в окні свого браузера, воно направляє вас на нову сторінку.
Ви можете і далі переміщуватись за цима посиланнями навіть будучи людиною, а не роботом.
В цьому блоці ми напишемо програму для пошуку найпершого посилання на веб-сторінці.
У наступних блоках ми з`ясуємо, як можна знайти всі посилання на сторінці та зібрати їх у колекцію для нашої пошукової системи.
Một đích của 3 phần học đầu tiên trong khóa này là xây dựng một trình thu thập thông tin web.
Chúng sẽ thu thập dữ liệu từ web để sử dụng trong trình tìm kiếm của chúng ta.
Và để học những ý tưởng trong ngành điện toán bằng cách thực hành chúng.
Trong học phần 1, chúng ta sẽ bắt tay vào trích xuất đường link đầu tiên trong một trang web.
Một trình thu thập thông tin web tìm kiếm các trang web phục vụ cho trình tìm kiếm của chúng ta.
bằng cách bắt đầu từ một trang "hạt giống" và lần theo các đường dẫn trên trang ấy để tìm ra những trang khác.
Mỗi một đường dẫn trong những đường dẫn ấy dẫn đến những trang web mới, mà tự những trang này sẽ dẫn đến những trang web khác nữa.
Khi chúng ta lần theo những đường dẫn này, chúng ta sẽ tìm ra nhiều trang web khác nữa
xây dựng nên một tập dữ liệu mà chúng ta sẽ sử dụng cho trình tìm kiếm của mình.
Một trang web thực sự là một nùi văn bản đi từ Internet đến trình duyệt web của bạn.
Chúng ta sẽ thảo luận nhiều hơn về cách nó vận hành như thế nào trong học phần 4.
Bây giờ, việc quan trọng cần nắm là
một đường dẫn thực ra chỉ là một loại văn bản đặc biệt trong một trang web.
Khi bạn nhấp chuột vào một đường dẫn trong trình duyệt của bạn, nó sẽ đưa bạn đến một trang mới.
Và bạn có thể tiếp tục lần theo những đường dẫn đó (...)
Cái chúng ta sắp thực hiện trong học phần này là viết một chương trình để trích xuất đường dẫn đầu tiên từ trang web.
Trong những học phần sau, chúng ta sẽ hình dung ra cách trích xuất tất cả các đường dẫn và xây dựng một tập hợp để sử dụng trong trình tìm kiếm của chúng ta.
在课程的前3个单元 我们的目标是创建一个网络爬虫
网络爬虫能从网络上收集信息 为我们的搜索引擎所用
你可以借此获得关于计算的大概念
在第一单元 我们从解析网页的第一个链接开始
网络爬虫为我们的搜索引擎寻找网页
从一个“种子”页面开始 跟踪该页面上的链接来发现其他页面
这些链接引向一些新的网页 这些新的网页上又有链接 引向其他网页
当我跟踪这些链接 我们可以发现越来越多的网页
我们为我们的搜索引擎创建这些数据的集合
一个网页其实就是一段来自网络的文本 在你的浏览器中显示
我们将在第四单元中讲述这是个怎样的过程
但现在 最需要你了解的事情是
一个链接其实只是网页中一个特殊的文本类型
当你在浏览器中点击了一个链接 它会将你引向一个新的页面
然后 你可以继续跟随这些链接
这个单元我们要做的是写一段程序去解析获取网页上的第一个链接
在后面的单元中 我们会向你展示如何去解析获取所有链接 并集合这些数据为我们的搜索引擎所用
這門課的前三單元,目標是建立一個網頁蜘蛛 (web crawler)
他們將為我們的搜尋引擎,從網路上收集資料
藉由建立網頁蜘蛛,也會學到計算的重要觀念
在第一單元,我們從擷取網頁上第一個連結 (link) 開始
網頁蜘蛛會為我們的搜尋引擎尋找網頁
從種子頁面 (seed page) 開始,然後跟隨著頁面上的連結 (link),找到其他的網頁
每一個連結 (link) 通往某些新網頁,這些新網頁本身也可能有 links 通往其他網頁
當我們跟隨這些 links,我們會發現更多、更多的網頁
這些網頁形成了資料庫,我們將在搜尋引擎中做運用
網頁 (web page) 實際上只是一大塊文字,從網際網路 (internet) 來到你的網頁瀏覽器
我們將在第四單元討論更多關於網頁的運作方式
但是現在,重要的是要瞭解
link 實際上只是網頁中一種特殊的文字
當你點擊瀏覽器中的 link,它會引導你到新網頁
你可以繼續跟隨這些 links
在這個單元中,我們要做的事,就是寫一個程式,從網頁中擷取第一個 link
在後面的單元,我們要知道如何擷取所有的 links,並且為我們的搜尋引擎蒐集資料