Hôm nay chúng ta sẽ nói về chính tả sửa. Rất nhiều ứng dụng làm cho sử dụng sửa sai chính tả. Ví dụ, từ chế biến, gần như bất cứ từ hiện đại xử lý sẽ mất một từ sai chính tả như thành phần với một A và cung cấp cho bạn gợi ý như thành phần với một E và tự động thay thế cho bạn. Hiện đại cụ tìm kiếm sẽ không chỉ có một cờ lỗi. Vì vậy, ngôn ngữ viết mà không au, ở đây. Nhưng, cho bạn, kết quả, như nếu bạn đã đánh vần các từ đúng. Và, điện thoại hiện đại thêm sẽ tự động tìm các từ sai chính tả. Ở đây, Tôi gõ layr, và nó thay thế nó tự động, hoặc cho thấy một sự thay thế, với cuối. Chúng ta có thể phân biệt được một số nhiệm vụ riêng biệt và sửa lỗi chính tả. Một là phát hiện các lỗi chính nó. Và sau đó trình sửa chữa các lỗi một lần bạn đã tìm thấy nó. Và chúng ta có thể suy nghĩ về các loại khác nhau của các điều chỉnh. Chúng ta có lẽ tự động sửa lỗi nếu chúng ta đang tích cực mà các lỗi mà chúng ta biết được câu trả lời đúng cho các lỗi. Vì vậy, HTE là một lỗi chính tả rất phổ biến cho các, và như vậy nhiều vi xử lý từ tự động đúng H-TE. Chúng tôi có thể đề nghị một đơn chỉnh nếu chúng tôi, chỉ có một rất có khả năng sửa chữa, hoặc chúng tôi có thể đề nghị một toàn bộ danh sách các chỉnh sửa và cho phép người dùng chọn từ trong số đó. Chúng ta phân biệt hai lớp khác nhau của lỗi chính tả. Non lỗi từ những sai sót trong đó, những gì sử dụng các loại không phải là một từ tiếng Anh nào. Vì vậy, graffe một lỗi chính tả hãy nói cho hươu cao cổ không phải là một từ tiếng Anh nào. By Ngược lại, lỗi từ thực tế. Những sai sót trong mà sau đó các kết quả. [Âm thanh] lỗi chính tả thực sự là một từ tiếng Anh và làm cho họ hơi khó phát hiện. Và chúng ta có thể chia tay từ thực tế lỗi vào những người thực sự được sản xuất bởi quá trình in ấn. Những đã có nghĩa là gõ ba. Và gõ [không nghe được] hãy có nghĩa là để gõ một từ như [không nghe] và thay vì gõ một chữ đồng âm của một, của từ, hoặc \ u201ct-oo \ u201d thay vì [nghe được] Và trong cả hai trường hợp những gì, những gì sản xuất là một từ thực tế của Anh, nhưng bằng cách mô hình hóa sự khác biệt giữa các loại lỗi, chúng ta có thể đi lên với những cách tốt hơn về cách sửa chữa chúng cả. Làm sao chung là lỗi chính tả? Phụ thuộc rất nhiều vào công việc. Vì vậy, trong các truy vấn web, lỗi chính tả lỗi rất phổ biến. Vì vậy, thực tế một trong bốn từ trong một web truy vấn có khả năng bị viết sai chính tả. Nhưng trong tác vụ xử lý web trên điện thoại nó nhiều khó khăn hơn để có được một số lượng chính xác. Vì vậy, có được một số nghiên cứu và hầu hết của những nghiên cứu này được thực hiện bằng cách gõ lại. Bạn cung cấp cho người sử dụng một đoạn văn để gõ và sau đó bạn đo lường như thế nào họ, họ gõ nó. Và, tất nhiên, đó không phải là hoàn toàn giống nhau sử dụng của văn bản một cách tự nhiên thông điệp hoặc đánh máy. Tuy nhiên nếu bạn yêu cầu người dùng nhập lại và bạn không để cho họ sử dụng các phím backspace, họ làm cho khoảng mười ba phần trăm của các từ, mười ba phần trăm của các từ này là do lỗi. Vì vậy, chỉ ra rằng nếu, mà rất nhiều từ. Họ sửa mình với backspace. Nếu bạn cho phép họ đúng, bây giờ chúng tôi đang cố gắng để thử nghiệm trên, trên apda điện thoại phong cách trang web, tổ chức, chúng tôi sẽ điều chỉnh khoảng Họ vẫn sẽ để lại khoảng hai phần trăm của các từ chưa được sửa chữa, về tổ chức. Và, con số tương tự về những người làm việc gõ lại trên một bàn phím thông thường. Vì vậy, các số khoảng hai phần trăm, nơi mọi người gõ. Và có lẽ một số cao hơn nhiều cho các truy vấn web và có thể cao hơn nhiều số cho người nhắn tin. Là những loại lỗi chính tả, lỗi chính tả [nghe được] mà chúng ta thấy. Làm thế nào để chúng tôi phát hiện lỗi chính tả từ phi lỗi. Cách truyền thống là chỉ sử dụng một từ điển lớn. Bất kỳ từ không trong từ điển là một lỗi. Và, lớn hơn từ điển, nó quay ra thì càng tốt công trình này. Để sửa chữa những không từ lỗi chính tả, chúng ta tạo ra một tập hợp các ứng viên đó là những lời nói thực đó là tương tự như lỗi. Và sau đó chúng tôi chọn nào là tốt nhất. Và chúng ta sẽ nói về các mô hình xác suất nhiễu kênh làm thế nào để làm điều đó. Và nó cũng liên quan đến một phương pháp gọi là ngắn nhất trọng [nghe được] đường huyền thoại. Vì vậy, chúng tôi tìm thấy những từ không có trong các điển. Đối với mỗi người, chúng ta tạo ra một tập hợp các ứng cử viên. Những người sẽ được từ thực tế tương tự, chúng ta sẽ nói về những gì các phương tiện tương tự, để lỗi và sau đó chúng ta sẽ chọn một trong những tốt nhất. Đối với thực tế lỗi chính tả từ, thuật toán là khá tương tự. Một lần nữa, cho mỗi từ, chúng tôi tạo ra một bộ ứng cử viên. Nhưng bây giờ chúng tôi làm này cho mỗi từ trong một câu, không chỉ là những từ mà không phải là trong một số điển. Vì vậy, từ thực tế lỗi chính tả chỉnh, chúng tôi không sử dụng một từ điển vì tất nhiên các lỗi trong một từ điển. Vì vậy, đó sẽ không giúp đỡ. Vì vậy, để mỗi từ, chúng tôi tạo ra một bộ ứng cử viên. Vì vậy, chúng ta có thể tìm thấy những từ ứng cử viên phát âm tương tự, chúng ta có thể tìm thấy từ ứng cử viên có cách viết tương tự, và phụ thuộc vào các thuật toán, chính xác. Và đó là rất quan trọng mà chúng tôi đang gonna bao gồm từ vựng, trong các ứng cử viên bộ, bởi vì mỗi từ có thể là một lỗi chính tả của một số từ sản khác, hoặc nó có thể là từ chính xác. Trong thực tế, hầu hết các lời là có lẽ đúng. Vì vậy, đối với mỗi bộ ứng cử viên của từng lỗi có thể, chúng ta sẽ bao gồm những từ riêng của mình. Và hầu hết thời gian, trên thực tế, chúng tôi đang gonna chọn đó. Và một lần nữa, làm thế nào chúng ta chọn những từ ngữ chúng ta có thể sử dụng các kênh nhiễu model. Chúng tôi có thể sử dụng một bộ phân loại, chúng ta sẽ nói về chuyện đó vì vậy chúng tôi sẽ thảo luận về phương pháp khác nhau để phát hiện các sai sót và sửa chữa sai sót trong kế tiếp