< Return to Video

Search Quality Meeting: Spelling for Long Queries (Annotated)

  • 0:03 - 0:04
    Singhal: Kiitos kaikille
    tämän tapaamisen järjestämisestä.
  • 0:04 - 0:06
    Pahoittelen, että joudutte
  • 0:06 - 0:10
    kestämään tämän kaiken.
  • 0:10 - 0:16
    Kokous käsittelee
    kaikkein tärkeimpiä osa-alueitamme.
  • 0:16 - 0:18
    Mitä hyväksymme, miten
    hakua kehitetään.
  • 0:18 - 0:20
    Tämä on kokeilu.
  • 0:20 - 0:23
    Katsotaan, mitä videosta tulee.
  • 0:23 - 0:25
    Jos en näytä hyvältä,
    videota ei julkaista.
  • 0:25 - 0:29
    [naurua]
  • 0:29 - 0:30
    OK?
  • 0:30 - 0:31
    Jos Gomes ei näytä hyvältä,
  • 0:31 - 0:33
    video julkaistaan etusivulla.
  • 0:33 - 0:35
    [naurua]
  • 0:38 - 0:41
    Huffman: Puhutaan pitkien
    kyselyiden oikeinkirjoituksesta.
  • 0:41 - 0:43
    Singhal: Lars.
  • 0:43 - 0:46
    Lars: Pyrimme pitämään
    viiveen alhaisena, joten
  • 0:46 - 0:49
    oikeinkirjoituksen tarkistus
    on aina korjannut
  • 0:49 - 0:51
    vain 10 pitkien kyselyiden termiä.
  • 0:51 - 0:56
    Valitsimme tarkistettavaksi
    ensimmäiset 10 termiä,
  • 0:56 - 0:57
    ilman sen kummempaa syytä.
  • 0:57 - 1:00
    Zürichin toimiston työntekijät
  • 1:00 - 1:02
    ehdottivat kuitenkin, että
  • 1:02 - 1:03
    tätä tapaa tulisi parantaa.
  • 1:03 - 1:07
    Valitsemme siis jatkossa kaksi sanaa,
  • 1:07 - 1:09
    jotka kirjoitetaan mielestämme
    useimmin väärin,
  • 1:09 - 1:12
    ja muodostamme viiden sanan ryhmiä
    näiden molempien sanojen ympärille.
  • 1:12 - 1:15
    Korjaamme siis edelleen vain
    10 sanan oikeinkirjoituksen,
  • 1:15 - 1:18
    mutta tämä on järkevämpi
  • 1:18 - 1:21
    korjattavien sanojen valintatapa.
  • 1:21 - 1:23
    Gomes: Konteksti on siis
  • 1:23 - 1:24
    koko kymmenen sanan sijaan
    viiden sadan ryhmä.
  • 1:24 - 1:26
    Osuma löytyy näin varmemmin.
  • 1:26 - 1:28
    Mies: Oikeastaan konteksti on
    vain kolme sanaa,
  • 1:28 - 1:30
    koska käytämme trigrammeja.
  • 1:30 - 1:32
    Ne korjaavat viisi sanaa kerrallaan
  • 1:32 - 1:35
    kyselyn ensimmäisten 10 sanan sijaan.
  • 1:35 - 1:37
    Mies: Jos siis katsotaan tilastoja...
  • 1:37 - 1:38
    Ero on selkeä,
  • 1:38 - 1:40
    menemme oikeaan suuntaan.
  • 1:40 - 1:43
    Mies: Molemmat osat lähetetään
    tarkistettavaksi erikseen.
  • 1:43 - 1:44
    Vai lähetetäänkö ne yhdessä?
  • 1:44 - 1:45
    Lars: Ne lähetetään yhdessä.
  • 1:45 - 1:47
    Merkitsemme korjattavat
  • 1:47 - 1:49
    ja ei-korjattavat termit.
  • 1:49 - 1:50
    Cutts: Miten suuressa osassa kyselyitä
  • 1:50 - 1:52
    on yli 10 termiä?
  • 1:52 - 1:54
    Lars: Ei kovin suuressa. Siis...
  • 1:54 - 1:55
    [naurua]
  • 1:55 - 1:57
    On kuitenkin ärsyttävää,
  • 1:57 - 2:00
    jos kirjoitusvirhe esiintyy pitkän
    kyselyn loppupäässä,
  • 2:00 - 2:02
    eikä sitä huomata,
  • 2:02 - 2:03
    vaikka sana on selkeästi
    kirjoitettu väärin.
  • 2:03 - 2:05
    Paul: Sama tapahtuu myös
    lainauksia liitettäessä,
  • 2:05 - 2:06
    jos viimeinen sana kirjoitetaan väärin.
  • 2:06 - 2:08
    Singhal: Miten tässä
    voi koskaan mennä mitään vikaan?
  • 2:08 - 2:11
    Mies: Esimerkiksi kyselyn loppupuolella
  • 2:11 - 2:14
    oleva sana voidaan korjata,
  • 2:14 - 2:15
    mutta joissakin esimerkeissä
  • 2:15 - 2:17
    kyselyn alkuosassa on
  • 2:17 - 2:19
    kirjoitusvirhe, jota ei ole korjattu.
  • 2:19 - 2:21
    Singhal: Kahden sanan valinnan kautta
  • 2:21 - 2:22
    siis valitaan...
  • 2:22 - 2:25
    Jos kyselyssä on yli kaksi
    kirjoitusvirhettä...
  • 2:25 - 2:27
    Mies: Tai jos siinä esiintyy harvinainen
  • 2:27 - 2:30
    sana, jonka uskotaan olevan
    mahdollinen kirjoitusvirhe.
  • 2:30 - 2:31
    Koska ei tiedetä, onko
    se kirjoitettu oikein.
  • 2:31 - 2:32
    Gomes: Miksi sitten
  • 2:32 - 2:34
    koko kyselyä ei korjata?
  • 2:34 - 2:35
    Korjataanko sama kirjoitusvirhe
  • 2:35 - 2:37
    toisessa kohtaa kontekstin vuoksi?
  • 2:37 - 2:38
    Mies: Ei, alussa oleva kirjoitusvirhe
  • 2:38 - 2:40
    ei ole sama kuin lopussa oleva.
  • 2:40 - 2:42
    Haluaisimme korjata koko kyselyn,
  • 2:42 - 2:44
    mutta siitä syntyisi ongelmia,
  • 2:44 - 2:47
    kuten viivettä, joten emme
    ole saaneet lupaa toteuttaa ominaisuutta.
  • 2:47 - 2:49
    Viive on tässä suurin ongelma, eikö?
  • 2:49 - 2:50
    Tuntuu siltä, että...
  • 2:50 - 2:54
    Sekunnissa voidaan tehdä tuhansia kyselyitä,
  • 2:54 - 2:55
    joten miksi
  • 2:55 - 2:57
    kyselyä ei voi pilkkoa osiin
  • 2:57 - 2:59
    ja lähettää osat erikseen, jotta
  • 2:59 - 3:01
    voisimme korjata koko kyselyn
    oikeinkirjoituksen?
  • 3:01 - 3:03
    Lars: Se olisi mahdollista, mutta
  • 3:03 - 3:05
    sillä ei juurikaan ole
    vaikutusta liikenteen määrään.
  • 3:05 - 3:06
  • 3:06 - 3:09
    Singhal: Miksi tätä ei voisi tehdä oikein?
  • 3:09 - 3:11
    Luoda päällekkäisiä viiden sanan joukkoja
  • 3:11 - 3:14
    ja lähettää yhtä aikaa kymmenen sanan
    kyselyiden sarjoja,
  • 3:14 - 3:16
    niin monta kuin kyselystä
    voi muodostaa?
  • 3:16 - 3:18
  • 3:18 - 3:22
    Mies: Koska muutos on vain
    noin 0,1 %.
  • 3:22 - 3:24
  • 3:24 - 3:27
    Singhal: Ja useimmiten
  • 3:27 - 3:30
    jopa 15 sanan mittaiset kyselyt
  • 3:30 - 3:33
    katetaan vain kahdella.
  • 3:33 - 3:35
    Paul: Mielestäni tämä pitäisi julkaista.
  • 3:35 - 3:37
    Idea on fiksu,
  • 3:37 - 3:39
    mutta kyseessä on sama ajatus,
  • 3:39 - 3:42
    eli kyselyn pilkkominen.
  • 3:42 - 3:44
    Tämä tulisi hoitaa infrastruktuurissa.
  • 3:44 - 3:46
    Mies: Haluaisin vielä puhua
  • 3:46 - 3:48
    kyselyjen alussa esiintyvistä ongelmia.
  • 3:48 - 3:50
    Esimerkiksi näissä tilanteissa,
  • 3:50 - 3:53
    jos katsotaan toista saraketta:
  • 3:53 - 3:57
    "Int he book 'Julius Caesar,'" jne.
  • 3:57 - 4:00
    Löydämme Caesarin nimen
  • 4:00 - 4:01
    kirjoitusasuun liittyviä virheitä,
  • 4:01 - 4:05
    mutta emme huomaa, että "int he"
    pitäisi olla "in the".
  • 4:05 - 4:09
    Tässä toinen kysely
  • 4:09 - 4:12
    Teneriffalla asuvan
    lapsen tukemisesta.
  • 4:12 - 4:14
    Haluamme selvittää, onko
  • 4:14 - 4:16
    "Tenerife" kirjoitettu väärin,
  • 4:16 - 4:20
    mutta emme havaitse, että
    lauseessa lukee "cam" eikä "can".
  • 4:20 - 4:21
  • 4:21 - 4:23
    Gomes: Toimiiko tämä sama asia
  • 4:23 - 4:25
    Suggestissa?
  • 4:25 - 4:27
    Jos teemme oikeinkirjoitusehdotuksia?
  • 4:27 - 4:29
    Mies: Ominaisuuden
    julkaisemisen jälkeen
  • 4:29 - 4:32
    tämän pitäisi toimia myös
    Suggestissa, eikö?
  • 4:32 - 4:33
    Gomes: Suggest pystyy siis...
  • 4:33 - 4:35
    Mies: Kaikki tapahtuu
    oikeinkirjoituspalvelimella,
  • 4:35 - 4:37
    joten tässä ei tehdä useita kutsuja.
  • 4:37 - 4:39
  • 4:39 - 4:42
    Singhal: Lähetettiinkö tukiesimerkissä
  • 4:42 - 4:44
    mukana konteksti sanan vasemmalta
    ja oikealta puolelta?
  • 4:44 - 4:45
    Mies: Kyllä.
  • 4:45 - 4:47
    Miksi kontekstia ei siis korjattu?
  • 4:47 - 4:49
    Lars: Tämä on tavallaan
  • 4:49 - 4:51
    nykyisen implementaation ongelma.
  • 4:51 - 4:53
    Jos kaksi sanajoukkoa
  • 4:53 - 4:56
    ovat tarpeeksi lähellä toisiaan,
  • 4:56 - 4:57
    ne sulautetaan yhteen.
  • 4:57 - 5:00
    Tässä tapauksessa korjataan
    siis luullakseni
  • 5:00 - 5:03
    sanat "I" – "credit".
  • 5:03 - 5:05
    Paul: Yksi sana jää siis välistä.
  • 5:05 - 5:07
    Lars: Niin...
  • 5:07 - 5:09
    Paul: Tässä siis valittiin vain
    väärä väli.
  • 5:09 - 5:11
    Sama voi tapahtua
    kaikissa esimerkeissä.
  • 5:11 - 5:13
    Mies: Alkuperäisessä ensimmäisen
  • 5:13 - 5:16
    10 sanan valintatavassa
    ohitettiin myös useita sanoja.
  • 5:16 - 5:17
    Näin on.
  • 5:17 - 5:21
    Paul: Keskiarvojen mukaan tässä
    on tapahtunut parannus.
  • 5:21 - 5:23
    Cutts: Mutta jos kyseessä on
    vain 0,01 % kyselyistä,
  • 5:23 - 5:25
    miksi emme korjaa...
  • 5:25 - 5:28
    Mies: Ei 0,01 vaan 0,1 %.
  • 5:28 - 5:31
    Cutts: Paljonko resursseja...
  • 5:31 - 5:33
    Paul: Ongelma on mielestäni
  • 5:33 - 5:35
    vain infrastruktuuritoteutuksessa.
  • 5:35 - 5:36
    Koska oikeinkirjoituspalvelimia
  • 5:36 - 5:37
    pitäisi asettaa kutsumaan
    muita oikeinkirjoituspalvelimia.
  • 5:37 - 5:40
    Cutts: OK.
  • 5:40 - 5:42
    Mies: Vaikuttaa hyvältä.
  • 5:42 - 5:43
    Gomes: Suurimmalta osin
  • 5:43 - 5:45
    oikeinkirjoituksen tarkistukset
    näkyvät Suggestissa,
  • 5:45 - 5:48
    koska siinä määritetään
    alkuperäinen väli...
  • 5:48 - 5:49
    Paul: Näistä suurin osa on
    liitettyjä kyselyitä.
  • 5:49 - 5:51
    Singhal: Nämä on leikattu ja liitetty,
  • 5:51 - 5:54
    kukaan ei kirjoita näitä.
  • 5:54 - 5:56
    Mies: Näemme paljon ihmisten...
  • 5:56 - 5:59
    "Cam I sponsor."
  • 5:59 - 6:03
    Cutts: Caesar-esimerkissä
    joku oppilas tekee kotiläksyjään.
  • 6:03 - 6:05
    Paul: "Stein, S. et al
    amino acid analysis"
  • 6:05 - 6:07
    on liitetty kysely.
  • 6:07 - 6:08
    Cutts: Niin.
  • 6:08 - 6:10
    Mies: Kaikki eivät ole liitettyjä.
  • 6:10 - 6:12
  • 6:12 - 6:13
    Cutts: Esimerkiksi "how long
    do you have to wait
  • 6:13 - 6:14
    to wash your hair
    after a perm?"
  • 6:14 - 6:16
    Mies: "Int he book" on luultavasti
    kirjoitettu, ei liitetty.
  • 6:16 - 6:17
    Singhal: Liitetyt tekstit
  • 6:17 - 6:19
    käyttäytyvät usein oudosti.
  • 6:19 - 6:20
    Mies: Ja jos katsotaan arvoja,
  • 6:20 - 6:22
    suurin osa näistä on
    kirjoitettuja kyselyitä.
  • 6:22 - 6:24
    Paul: Ok.
  • 6:24 - 6:26
    Tässä mennään selvästi
    oikeaan suuntaan.
  • 6:26 - 6:28
    Mies: Muutos on todella hyvä.
  • 6:28 - 6:30
    Paul: Pyydetään tiimiä
  • 6:30 - 6:31
    lopettamaan kymmenen sanan
    rajoituksien käyttö.
  • 6:31 - 6:33
    Singhal: Haluan kuitenkin,
  • 6:33 - 6:34
    että tilannetta seurataan.
  • 6:34 - 6:36
    Paul: Niin.
  • 6:36 - 6:38
    Singhal: Miten siis voimme
    seurata tuloksia?
  • 6:38 - 6:40
    Mies: Suosituksessa käytetään useita...
  • 6:40 - 6:41
    Singhal: Toteuttakaa vain kaikki.
  • 6:41 - 6:42
    Ryhmittelemällä.
  • 6:42 - 6:43
    Mies: Meillä pitäisi mielestäni
    vain olla menetelmä
  • 6:43 - 6:47
    100 sanan kyselyjen käsittelyyn.
  • 6:47 - 6:48
    Singhal: Niin.
  • 6:48 - 6:51
    Mies: Vaikeimmankaan kyselyn ei
    pitäisi aiheuttaa meille ongelmia.
  • 6:51 - 6:52
    Paul: Niin, mutta se toteutetaan
    varmaankin käyttöliittymässä,
  • 6:52 - 6:53
    eikä...
  • 6:53 - 6:55
  • 6:55 - 6:56
    Paul: Ei meitä kiinnosta.
  • 6:56 - 6:57
    Singhal: Yrität puolustella toteutusta,
  • 6:57 - 6:59
    joka ei ole täydellinen.
  • 6:59 - 7:00
    Ei sitä kannata puolustella.
  • 7:00 - 7:02
    OK?
  • 7:02 - 7:03
    Paul: Mielestäni suositus
    kannattaa antaa,
  • 7:03 - 7:05
    ja tämä uudistus on hyvä.
  • 7:05 - 7:06
    Annetaan eurooppalaisille
  • 7:06 - 7:07
    tunnustusta siitä, että he
    toivat ongelman taas käsiteltäväksi.
  • 7:07 - 7:09
    Singhal: Aivan, mutta
  • 7:09 - 7:10
    haluan varmistaa, että
    tätä seurataan
  • 7:10 - 7:12
    ja että tälle asetetaan tiukka
    aikaraja.
  • 7:12 - 7:14
    Haluan, että toteutus
  • 7:14 - 7:17
    ei kestä esimerkiksi kolmea
    kuukautta pidempään.
  • 7:17 - 7:19
    Gomes: Oikeinkirjoituspalvelintanne
  • 7:19 - 7:22
    käytetään myös muiden tekstien
    tarkistamiseen, eikö?
  • 7:22 - 7:24
    Mies: Tällä hetkellä sitä käytetään myös
  • 7:24 - 7:27
    tekstin alleviivaamiseen. Eikö niin?
  • 7:27 - 7:29
    Lars: Käytämme kyllä samoja palvelimia...
  • 7:29 - 7:31
  • 7:31 - 7:32
    Mies: Mutta niiden eri osia?
  • 7:32 - 7:34
    Lars: Yksi alleviivaussovellus
  • 7:34 - 7:35
    käyttää myös palvelinta.
  • 7:35 - 7:37
    Mies: Se siis käsittelee pidempiä
    tekstikatkelmia?
  • 7:37 - 7:40
    Mies: Ne pilkotaan
    pienemmiksi osiksi.
  • 7:40 - 7:42
    Singhal: Hyvä esimerkki
    on sähköpostin kirjoittaminen.
  • 7:42 - 7:44
    Mies: Juuri niin.
  • 7:44 - 7:45
    Mies: Jossa alleviivataan kaikki
    väärin kirjoitetut sanat.
  • 7:45 - 7:49
    Gomes: Niin.
  • 7:49 - 7:52
    Singhal: Selvä, voimme julkaista
    ominaisuuden, mutta...
  • 7:52 - 7:54
    Mies: Pilkkomisessa saattaa
  • 7:54 - 7:56
    yhä esiintyä ongelmia.
  • 7:56 - 7:59
    Esimerkiksi kontekstit voivat
    olla hankalia.
  • 7:59 - 8:02
    Ne siis ovat aina...
  • 8:02 - 8:04
    Gomes: Käyttäkää sitä samoin
    kuin kirjoitettavaa tekstiä.
  • 8:04 - 8:07
    Ok.
Title:
Search Quality Meeting: Spelling for Long Queries (Annotated)
Description:

more » « less
Duration:
08:10

Finnish subtitles

Revisions