WEBVTT 00:00:01.560 --> 00:00:06.758 Hôm nay chúng ta sẽ nói về chính tả sửa. Rất nhiều ứng dụng làm cho sử dụng 00:00:06.758 --> 00:00:11.628 sửa sai chính tả. Ví dụ, từ chế biến, gần như bất cứ từ hiện đại 00:00:11.628 --> 00:00:16.630 xử lý sẽ mất một từ sai chính tả như thành phần với một A và cung cấp cho bạn 00:00:16.630 --> 00:00:22.077 gợi ý như thành phần với một E và tự động thay thế cho bạn. Hiện đại 00:00:22.077 --> 00:00:28.259 cụ tìm kiếm sẽ không chỉ có một cờ lỗi. Vì vậy, ngôn ngữ viết mà không au, 00:00:28.259 --> 00:00:34.936 ở đây. Nhưng, cho bạn, kết quả, như nếu bạn đã đánh vần các từ đúng. Và, 00:00:34.936 --> 00:00:40.953 điện thoại hiện đại thêm sẽ tự động tìm các từ sai chính tả. Ở đây, 00:00:40.953 --> 00:00:47.135 Tôi gõ layr, và nó thay thế nó tự động, hoặc cho thấy một sự thay thế, 00:00:47.135 --> 00:00:52.260 với cuối. Chúng ta có thể phân biệt được một số nhiệm vụ riêng biệt và sửa lỗi chính tả. 00:00:52.260 --> 00:00:56.921 Một là phát hiện các lỗi chính nó. Và sau đó trình sửa chữa các lỗi một lần 00:00:56.921 --> 00:01:01.301 bạn đã tìm thấy nó. Và chúng ta có thể suy nghĩ về các loại khác nhau của các điều chỉnh. Chúng ta có lẽ 00:01:01.301 --> 00:01:06.018 tự động sửa lỗi nếu chúng ta đang tích cực mà các lỗi mà chúng ta biết được 00:01:06.018 --> 00:01:10.510 câu trả lời đúng cho các lỗi. Vì vậy, HTE là một lỗi chính tả rất phổ biến cho các, và như vậy 00:01:10.679 --> 00:01:14.891 nhiều vi xử lý từ tự động đúng H-TE. Chúng tôi có thể đề nghị một đơn 00:01:14.891 --> 00:01:19.495 chỉnh nếu chúng tôi, chỉ có một rất có khả năng sửa chữa, hoặc chúng tôi có thể đề nghị một 00:01:19.495 --> 00:01:24.274 toàn bộ danh sách các chỉnh sửa và cho phép người dùng chọn từ trong số đó. Chúng ta phân biệt hai 00:01:24.274 --> 00:01:30.657 lớp khác nhau của lỗi chính tả. Non lỗi từ những sai sót trong đó, những gì 00:01:30.657 --> 00:01:37.213 sử dụng các loại không phải là một từ tiếng Anh nào. Vì vậy, graffe một lỗi chính tả hãy nói cho 00:01:37.213 --> 00:01:43.510 hươu cao cổ không phải là một từ tiếng Anh nào. By Ngược lại, lỗi từ thực tế. Những sai sót trong 00:01:43.510 --> 00:01:49.587 mà sau đó các kết quả. [Âm thanh] lỗi chính tả thực sự là một từ tiếng Anh 00:01:49.587 --> 00:01:54.867 và làm cho họ hơi khó phát hiện. Và chúng ta có thể chia tay từ thực tế 00:01:54.867 --> 00:02:00.217 lỗi vào những người thực sự được sản xuất bởi quá trình in ấn. Những đã có nghĩa là 00:02:00.217 --> 00:02:06.132 gõ ba. Và gõ [không nghe được] hãy 00:02:06.343 --> 00:02:11.992 có nghĩa là để gõ một từ như [không nghe] và thay vì gõ một chữ đồng âm của một, của 00:02:11.992 --> 00:02:16.369 từ, hoặc \ u201ct-oo \ u201d thay vì [nghe được] Và trong cả hai trường hợp những gì, những gì 00:02:16.369 --> 00:02:22.088 sản xuất là một từ thực tế của Anh, nhưng bằng cách mô hình hóa sự khác biệt giữa các 00:02:22.088 --> 00:02:27.453 loại lỗi, chúng ta có thể đi lên với những cách tốt hơn về cách sửa chữa chúng cả. Làm sao 00:02:27.453 --> 00:02:33.523 chung là lỗi chính tả? Phụ thuộc rất nhiều vào công việc. Vì vậy, trong các truy vấn web, lỗi chính tả 00:02:33.523 --> 00:02:38.951 lỗi rất phổ biến. Vì vậy, thực tế một trong bốn từ trong một web 00:02:38.951 --> 00:02:44.218 truy vấn có khả năng bị viết sai chính tả. Nhưng trong tác vụ xử lý web trên điện thoại nó nhiều 00:02:44.218 --> 00:02:48.669 khó khăn hơn để có được một số lượng chính xác. Vì vậy, có được một số nghiên cứu và hầu hết 00:02:48.669 --> 00:02:53.404 của những nghiên cứu này được thực hiện bằng cách gõ lại. Bạn cung cấp cho người sử dụng một đoạn văn để gõ và sau đó 00:02:53.404 --> 00:02:57.912 bạn đo lường như thế nào họ, họ gõ nó. Và, tất nhiên, đó không phải là hoàn toàn giống nhau 00:02:57.912 --> 00:03:02.591 sử dụng của văn bản một cách tự nhiên thông điệp hoặc đánh máy. Tuy nhiên nếu bạn yêu cầu người dùng 00:03:02.591 --> 00:03:06.984 nhập lại và bạn không để cho họ sử dụng các phím backspace, họ làm cho khoảng mười ba 00:03:06.984 --> 00:03:10.806 phần trăm của các từ, mười ba phần trăm của các từ này là do lỗi. Vì vậy, chỉ ra rằng 00:03:10.806 --> 00:03:16.028 nếu, mà rất nhiều từ. Họ sửa mình với backspace. Nếu bạn cho phép 00:03:16.028 --> 00:03:21.220 họ đúng, bây giờ chúng tôi đang cố gắng để thử nghiệm trên, trên apda điện thoại phong cách 00:03:21.220 --> 00:03:25.858 trang web, tổ chức, chúng tôi sẽ điều chỉnh khoảng 00:03:25.858 --> 00:03:30.842 Họ vẫn sẽ để lại khoảng hai phần trăm của các từ chưa được sửa chữa, về tổ chức. 00:03:30.842 --> 00:03:35.964 Và, con số tương tự về những người làm việc gõ lại trên một bàn phím thông thường. Vì vậy, các 00:03:35.964 --> 00:03:41.261 số khoảng hai phần trăm, nơi mọi người gõ. Và có lẽ một số cao hơn nhiều 00:03:41.261 --> 00:03:46.280 cho các truy vấn web và có thể cao hơn nhiều số cho người nhắn tin. Là những loại 00:03:46.280 --> 00:03:51.210 lỗi chính tả, lỗi chính tả [nghe được] mà chúng ta thấy. Làm thế nào để chúng tôi phát hiện lỗi chính tả từ phi 00:03:51.210 --> 00:03:56.022 lỗi. Cách truyền thống là chỉ sử dụng một từ điển lớn. Bất kỳ từ không trong 00:03:56.022 --> 00:04:00.596 từ điển là một lỗi. Và, lớn hơn từ điển, nó quay ra thì càng tốt 00:04:00.596 --> 00:04:04.705 công trình này. Để sửa chữa những không từ lỗi chính tả, chúng ta tạo ra một tập hợp các 00:04:04.705 --> 00:04:08.624 ứng viên đó là những lời nói thực đó là tương tự như lỗi. Và sau đó chúng tôi chọn 00:04:08.624 --> 00:04:12.852 nào là tốt nhất. Và chúng ta sẽ nói về các mô hình xác suất nhiễu kênh 00:04:12.852 --> 00:04:17.029 làm thế nào để làm điều đó. Và nó cũng liên quan đến một phương pháp gọi là ngắn nhất 00:04:17.029 --> 00:04:20.948 trọng [nghe được] đường huyền thoại. Vì vậy, chúng tôi tìm thấy những từ không có trong các 00:04:20.948 --> 00:04:25.125 điển. Đối với mỗi người, chúng ta tạo ra một tập hợp các ứng cử viên. Những người sẽ được 00:04:25.125 --> 00:04:29.148 từ thực tế tương tự, chúng ta sẽ nói về những gì các phương tiện tương tự, để lỗi 00:04:29.148 --> 00:04:33.448 và sau đó chúng ta sẽ chọn một trong những tốt nhất. Đối với thực tế lỗi chính tả từ, thuật toán là 00:04:33.448 --> 00:04:37.650 khá tương tự. Một lần nữa, cho mỗi từ, chúng tôi tạo ra một bộ ứng cử viên. Nhưng bây giờ chúng tôi làm 00:04:37.650 --> 00:04:41.742 này cho mỗi từ trong một câu, không chỉ là những từ mà không phải là trong một số 00:04:41.742 --> 00:04:45.944 điển. Vì vậy, từ thực tế lỗi chính tả chỉnh, chúng tôi không sử dụng một từ điển 00:04:45.944 --> 00:04:50.245 vì tất nhiên các lỗi trong một từ điển. Vì vậy, đó sẽ không giúp đỡ. Vì vậy, để 00:04:50.245 --> 00:04:54.381 mỗi từ, chúng tôi tạo ra một bộ ứng cử viên. Vì vậy, chúng ta có thể tìm thấy những từ ứng cử viên 00:04:54.381 --> 00:04:58.463 phát âm tương tự, chúng ta có thể tìm thấy từ ứng cử viên có cách viết tương tự, 00:04:58.463 --> 00:05:02.760 và phụ thuộc vào các thuật toán, chính xác. Và đó là rất quan trọng mà chúng tôi đang gonna 00:05:02.760 --> 00:05:07.164 bao gồm từ vựng, trong các ứng cử viên bộ, bởi vì mỗi từ có thể là một 00:05:07.164 --> 00:05:11.515 lỗi chính tả của một số từ sản khác, hoặc nó có thể là từ chính xác. Trong thực tế, hầu hết các 00:05:11.515 --> 00:05:15.597 lời là có lẽ đúng. Vì vậy, đối với mỗi bộ ứng cử viên của từng lỗi có thể, 00:05:15.597 --> 00:05:19.732 chúng ta sẽ bao gồm những từ riêng của mình. Và hầu hết thời gian, trên thực tế, chúng tôi đang gonna 00:05:19.732 --> 00:05:25.644 chọn đó. Và một lần nữa, làm thế nào chúng ta chọn những từ ngữ chúng ta có thể sử dụng các kênh nhiễu 00:05:25.644 --> 00:05:32.240 model. Chúng tôi có thể sử dụng một bộ phân loại, chúng ta sẽ nói về chuyện đó vì vậy chúng tôi sẽ thảo luận về 00:05:32.240 --> 00:05:38.428 phương pháp khác nhau để phát hiện các sai sót và sửa chữa sai sót trong kế tiếp