1 00:00:01,560 --> 00:00:06,758 Hôm nay chúng ta sẽ nói về chính tả sửa. Rất nhiều ứng dụng làm cho sử dụng 2 00:00:06,758 --> 00:00:11,628 sửa sai chính tả. Ví dụ, từ chế biến, gần như bất cứ từ hiện đại 3 00:00:11,628 --> 00:00:16,630 xử lý sẽ mất một từ sai chính tả như thành phần với một A và cung cấp cho bạn 4 00:00:16,630 --> 00:00:22,077 gợi ý như thành phần với một E và tự động thay thế cho bạn. Hiện đại 5 00:00:22,077 --> 00:00:28,259 cụ tìm kiếm sẽ không chỉ có một cờ lỗi. Vì vậy, ngôn ngữ viết mà không au, 6 00:00:28,259 --> 00:00:34,936 ở đây. Nhưng, cho bạn, kết quả, như nếu bạn đã đánh vần các từ đúng. Và, 7 00:00:34,936 --> 00:00:40,953 điện thoại hiện đại thêm sẽ tự động tìm các từ sai chính tả. Ở đây, 8 00:00:40,953 --> 00:00:47,135 Tôi gõ layr, và nó thay thế nó tự động, hoặc cho thấy một sự thay thế, 9 00:00:47,135 --> 00:00:52,260 với cuối. Chúng ta có thể phân biệt được một số nhiệm vụ riêng biệt và sửa lỗi chính tả. 10 00:00:52,260 --> 00:00:56,921 Một là phát hiện các lỗi chính nó. Và sau đó trình sửa chữa các lỗi một lần 11 00:00:56,921 --> 00:01:01,301 bạn đã tìm thấy nó. Và chúng ta có thể suy nghĩ về các loại khác nhau của các điều chỉnh. Chúng ta có lẽ 12 00:01:01,301 --> 00:01:06,018 tự động sửa lỗi nếu chúng ta đang tích cực mà các lỗi mà chúng ta biết được 13 00:01:06,018 --> 00:01:10,510 câu trả lời đúng cho các lỗi. Vì vậy, HTE là một lỗi chính tả rất phổ biến cho các, và như vậy 14 00:01:10,679 --> 00:01:14,891 nhiều vi xử lý từ tự động đúng H-TE. Chúng tôi có thể đề nghị một đơn 15 00:01:14,891 --> 00:01:19,495 chỉnh nếu chúng tôi, chỉ có một rất có khả năng sửa chữa, hoặc chúng tôi có thể đề nghị một 16 00:01:19,495 --> 00:01:24,274 toàn bộ danh sách các chỉnh sửa và cho phép người dùng chọn từ trong số đó. Chúng ta phân biệt hai 17 00:01:24,274 --> 00:01:30,657 lớp khác nhau của lỗi chính tả. Non lỗi từ những sai sót trong đó, những gì 18 00:01:30,657 --> 00:01:37,213 sử dụng các loại không phải là một từ tiếng Anh nào. Vì vậy, graffe một lỗi chính tả hãy nói cho 19 00:01:37,213 --> 00:01:43,510 hươu cao cổ không phải là một từ tiếng Anh nào. By Ngược lại, lỗi từ thực tế. Những sai sót trong 20 00:01:43,510 --> 00:01:49,587 mà sau đó các kết quả. [Âm thanh] lỗi chính tả thực sự là một từ tiếng Anh 21 00:01:49,587 --> 00:01:54,867 và làm cho họ hơi khó phát hiện. Và chúng ta có thể chia tay từ thực tế 22 00:01:54,867 --> 00:02:00,217 lỗi vào những người thực sự được sản xuất bởi quá trình in ấn. Những đã có nghĩa là 23 00:02:00,217 --> 00:02:06,132 gõ ba. Và gõ [không nghe được] hãy 24 00:02:06,343 --> 00:02:11,992 có nghĩa là để gõ một từ như [không nghe] và thay vì gõ một chữ đồng âm của một, của 25 00:02:11,992 --> 00:02:16,369 từ, hoặc \ u201ct-oo \ u201d thay vì [nghe được] Và trong cả hai trường hợp những gì, những gì 26 00:02:16,369 --> 00:02:22,088 sản xuất là một từ thực tế của Anh, nhưng bằng cách mô hình hóa sự khác biệt giữa các 27 00:02:22,088 --> 00:02:27,453 loại lỗi, chúng ta có thể đi lên với những cách tốt hơn về cách sửa chữa chúng cả. Làm sao 28 00:02:27,453 --> 00:02:33,523 chung là lỗi chính tả? Phụ thuộc rất nhiều vào công việc. Vì vậy, trong các truy vấn web, lỗi chính tả 29 00:02:33,523 --> 00:02:38,951 lỗi rất phổ biến. Vì vậy, thực tế một trong bốn từ trong một web 30 00:02:38,951 --> 00:02:44,218 truy vấn có khả năng bị viết sai chính tả. Nhưng trong tác vụ xử lý web trên điện thoại nó nhiều 31 00:02:44,218 --> 00:02:48,669 khó khăn hơn để có được một số lượng chính xác. Vì vậy, có được một số nghiên cứu và hầu hết 32 00:02:48,669 --> 00:02:53,404 của những nghiên cứu này được thực hiện bằng cách gõ lại. Bạn cung cấp cho người sử dụng một đoạn văn để gõ và sau đó 33 00:02:53,404 --> 00:02:57,912 bạn đo lường như thế nào họ, họ gõ nó. Và, tất nhiên, đó không phải là hoàn toàn giống nhau 34 00:02:57,912 --> 00:03:02,591 sử dụng của văn bản một cách tự nhiên thông điệp hoặc đánh máy. Tuy nhiên nếu bạn yêu cầu người dùng 35 00:03:02,591 --> 00:03:06,984 nhập lại và bạn không để cho họ sử dụng các phím backspace, họ làm cho khoảng mười ba 36 00:03:06,984 --> 00:03:10,806 phần trăm của các từ, mười ba phần trăm của các từ này là do lỗi. Vì vậy, chỉ ra rằng 37 00:03:10,806 --> 00:03:16,028 nếu, mà rất nhiều từ. Họ sửa mình với backspace. Nếu bạn cho phép 38 00:03:16,028 --> 00:03:21,220 họ đúng, bây giờ chúng tôi đang cố gắng để thử nghiệm trên, trên apda điện thoại phong cách 39 00:03:21,220 --> 00:03:25,858 trang web, tổ chức, chúng tôi sẽ điều chỉnh khoảng 40 00:03:25,858 --> 00:03:30,842 Họ vẫn sẽ để lại khoảng hai phần trăm của các từ chưa được sửa chữa, về tổ chức. 41 00:03:30,842 --> 00:03:35,964 Và, con số tương tự về những người làm việc gõ lại trên một bàn phím thông thường. Vì vậy, các 42 00:03:35,964 --> 00:03:41,261 số khoảng hai phần trăm, nơi mọi người gõ. Và có lẽ một số cao hơn nhiều 43 00:03:41,261 --> 00:03:46,280 cho các truy vấn web và có thể cao hơn nhiều số cho người nhắn tin. Là những loại 44 00:03:46,280 --> 00:03:51,210 lỗi chính tả, lỗi chính tả [nghe được] mà chúng ta thấy. Làm thế nào để chúng tôi phát hiện lỗi chính tả từ phi 45 00:03:51,210 --> 00:03:56,022 lỗi. Cách truyền thống là chỉ sử dụng một từ điển lớn. Bất kỳ từ không trong 46 00:03:56,022 --> 00:04:00,596 từ điển là một lỗi. Và, lớn hơn từ điển, nó quay ra thì càng tốt 47 00:04:00,596 --> 00:04:04,705 công trình này. Để sửa chữa những không từ lỗi chính tả, chúng ta tạo ra một tập hợp các 48 00:04:04,705 --> 00:04:08,624 ứng viên đó là những lời nói thực đó là tương tự như lỗi. Và sau đó chúng tôi chọn 49 00:04:08,624 --> 00:04:12,852 nào là tốt nhất. Và chúng ta sẽ nói về các mô hình xác suất nhiễu kênh 50 00:04:12,852 --> 00:04:17,029 làm thế nào để làm điều đó. Và nó cũng liên quan đến một phương pháp gọi là ngắn nhất 51 00:04:17,029 --> 00:04:20,948 trọng [nghe được] đường huyền thoại. Vì vậy, chúng tôi tìm thấy những từ không có trong các 52 00:04:20,948 --> 00:04:25,125 điển. Đối với mỗi người, chúng ta tạo ra một tập hợp các ứng cử viên. Những người sẽ được 53 00:04:25,125 --> 00:04:29,148 từ thực tế tương tự, chúng ta sẽ nói về những gì các phương tiện tương tự, để lỗi 54 00:04:29,148 --> 00:04:33,448 và sau đó chúng ta sẽ chọn một trong những tốt nhất. Đối với thực tế lỗi chính tả từ, thuật toán là 55 00:04:33,448 --> 00:04:37,650 khá tương tự. Một lần nữa, cho mỗi từ, chúng tôi tạo ra một bộ ứng cử viên. Nhưng bây giờ chúng tôi làm 56 00:04:37,650 --> 00:04:41,742 này cho mỗi từ trong một câu, không chỉ là những từ mà không phải là trong một số 57 00:04:41,742 --> 00:04:45,944 điển. Vì vậy, từ thực tế lỗi chính tả chỉnh, chúng tôi không sử dụng một từ điển 58 00:04:45,944 --> 00:04:50,245 vì tất nhiên các lỗi trong một từ điển. Vì vậy, đó sẽ không giúp đỡ. Vì vậy, để 59 00:04:50,245 --> 00:04:54,381 mỗi từ, chúng tôi tạo ra một bộ ứng cử viên. Vì vậy, chúng ta có thể tìm thấy những từ ứng cử viên 60 00:04:54,381 --> 00:04:58,463 phát âm tương tự, chúng ta có thể tìm thấy từ ứng cử viên có cách viết tương tự, 61 00:04:58,463 --> 00:05:02,760 và phụ thuộc vào các thuật toán, chính xác. Và đó là rất quan trọng mà chúng tôi đang gonna 62 00:05:02,760 --> 00:05:07,164 bao gồm từ vựng, trong các ứng cử viên bộ, bởi vì mỗi từ có thể là một 63 00:05:07,164 --> 00:05:11,515 lỗi chính tả của một số từ sản khác, hoặc nó có thể là từ chính xác. Trong thực tế, hầu hết các 64 00:05:11,515 --> 00:05:15,597 lời là có lẽ đúng. Vì vậy, đối với mỗi bộ ứng cử viên của từng lỗi có thể, 65 00:05:15,597 --> 00:05:19,732 chúng ta sẽ bao gồm những từ riêng của mình. Và hầu hết thời gian, trên thực tế, chúng tôi đang gonna 66 00:05:19,732 --> 00:05:25,644 chọn đó. Và một lần nữa, làm thế nào chúng ta chọn những từ ngữ chúng ta có thể sử dụng các kênh nhiễu 67 00:05:25,644 --> 00:05:32,240 model. Chúng tôi có thể sử dụng một bộ phân loại, chúng ta sẽ nói về chuyện đó vì vậy chúng tôi sẽ thảo luận về 68 00:05:32,240 --> 00:05:38,428 phương pháp khác nhau để phát hiện các sai sót và sửa chữa sai sót trong kế tiếp