Hôm nay chúng ta sẽ nói về chính tả 
sửa. Rất nhiều ứng dụng làm cho sử dụng

sửa sai chính tả. Ví dụ, từ 
chế biến, gần như bất cứ từ hiện đại

xử lý sẽ mất một từ sai chính tả như 
thành phần với một A và cung cấp cho bạn

gợi ý như thành phần với một E và 
tự động thay thế cho bạn. Hiện đại

cụ tìm kiếm sẽ không chỉ có một cờ 
lỗi. Vì vậy, ngôn ngữ viết mà không au,

ở đây. Nhưng, cho bạn, kết quả, như nếu 
bạn đã đánh vần các từ đúng. Và,

điện thoại hiện đại thêm sẽ 
tự động tìm các từ sai chính tả. Ở đây,

Tôi gõ layr, và nó thay thế nó 
tự động, hoặc cho thấy một sự thay thế,

với cuối. Chúng ta có thể phân biệt được một số 
nhiệm vụ riêng biệt và sửa lỗi chính tả.

Một là phát hiện các lỗi chính nó. 
Và sau đó trình sửa chữa các lỗi một lần

bạn đã tìm thấy nó. Và chúng ta có thể suy nghĩ về 
các loại khác nhau của các điều chỉnh. Chúng ta có lẽ

tự động sửa lỗi nếu chúng ta đang 
tích cực mà các lỗi mà chúng ta biết được

câu trả lời đúng cho các lỗi. Vì vậy, HTE là một 
lỗi chính tả rất phổ biến cho các, và như vậy

nhiều vi xử lý từ tự động đúng 
H-TE. Chúng tôi có thể đề nghị một đơn

chỉnh nếu chúng tôi, chỉ có một rất 
có khả năng sửa chữa, hoặc chúng tôi có thể đề nghị một

toàn bộ danh sách các chỉnh sửa và cho phép người dùng 
chọn từ trong số đó. Chúng ta phân biệt hai

lớp khác nhau của lỗi chính tả. Non 
lỗi từ những sai sót trong đó, những gì

sử dụng các loại không phải là một từ tiếng Anh nào. 
Vì vậy, graffe một lỗi chính tả hãy nói cho

hươu cao cổ không phải là một từ tiếng Anh nào. By 
Ngược lại, lỗi từ thực tế. Những sai sót trong

mà sau đó các kết quả. [Âm thanh] 
lỗi chính tả thực sự là một từ tiếng Anh

và làm cho họ hơi khó 
phát hiện. Và chúng ta có thể chia tay từ thực tế

lỗi vào những người thực sự được sản xuất bởi 
quá trình in ấn. Những đã có nghĩa là

gõ ba. Và gõ [không nghe được] hãy

có nghĩa là để gõ một từ như [không nghe] và 
thay vì gõ một chữ đồng âm của một, của

từ, hoặc \ u201ct-oo \ u201d thay vì 
[nghe được] Và trong cả hai trường hợp những gì, những gì

sản xuất là một từ thực tế của Anh, nhưng bằng cách 
mô hình hóa sự khác biệt giữa các

loại lỗi, chúng ta có thể đi lên với 
những cách tốt hơn về cách sửa chữa chúng cả. Làm sao

chung là lỗi chính tả? Phụ thuộc rất nhiều 
vào công việc. Vì vậy, trong các truy vấn web, lỗi chính tả

lỗi rất phổ biến. Vì vậy, 
thực tế một trong bốn từ trong một web

truy vấn có khả năng bị viết sai chính tả. Nhưng trong 
tác vụ xử lý web trên điện thoại nó nhiều

khó khăn hơn để có được một số lượng chính xác. Vì vậy, 
có được một số nghiên cứu và hầu hết

của những nghiên cứu này được thực hiện bằng cách gõ lại. Bạn 
cung cấp cho người sử dụng một đoạn văn để gõ và sau đó

bạn đo lường như thế nào họ, họ gõ nó. 
Và, tất nhiên, đó không phải là hoàn toàn giống nhau

sử dụng của văn bản một cách tự nhiên thông điệp hoặc 
đánh máy. Tuy nhiên nếu bạn yêu cầu người dùng

nhập lại và bạn không để cho họ sử dụng các 
phím backspace, họ làm cho khoảng mười ba

phần trăm của các từ, mười ba phần trăm của 
các từ này là do lỗi. Vì vậy, chỉ ra rằng

nếu, mà rất nhiều từ. Họ sửa 
mình với backspace. Nếu bạn cho phép

họ đúng, bây giờ chúng tôi đang cố gắng để 
thử nghiệm trên, trên apda điện thoại phong cách

trang web, tổ chức, chúng tôi sẽ điều chỉnh khoảng

Họ vẫn sẽ để lại khoảng hai phần trăm của 
các từ chưa được sửa chữa, về tổ chức.

Và, con số tương tự về những người làm 
việc gõ lại trên một bàn phím thông thường. Vì vậy, các

số khoảng hai phần trăm, nơi mọi người 
gõ. Và có lẽ một số cao hơn nhiều

cho các truy vấn web và có thể cao hơn nhiều 
số cho người nhắn tin. Là những loại

lỗi chính tả, lỗi chính tả [nghe được] mà 
chúng ta thấy. Làm thế nào để chúng tôi phát hiện lỗi chính tả từ phi

lỗi. Cách truyền thống là chỉ sử dụng 
một từ điển lớn. Bất kỳ từ không trong

từ điển là một lỗi. Và, lớn hơn 
từ điển, nó quay ra thì càng tốt

công trình này. Để sửa chữa những không từ 
lỗi chính tả, chúng ta tạo ra một tập hợp các

ứng viên đó là những lời nói thực đó là 
tương tự như lỗi. Và sau đó chúng tôi chọn

nào là tốt nhất. Và chúng ta sẽ nói 
về các mô hình xác suất nhiễu kênh

làm thế nào để làm điều đó. Và nó cũng liên quan 
đến một phương pháp gọi là ngắn nhất

trọng [nghe được] đường huyền thoại. Vì vậy, chúng tôi 
tìm thấy những từ không có trong các

điển. Đối với mỗi người, chúng ta tạo ra một 
tập hợp các ứng cử viên. Những người sẽ được

từ thực tế tương tự, chúng ta sẽ nói 
về những gì các phương tiện tương tự, để lỗi

và sau đó chúng ta sẽ chọn một trong những tốt nhất. Đối với thực tế lỗi chính tả từ, thuật toán là

khá tương tự. Một lần nữa, cho mỗi từ, chúng tôi 
tạo ra một bộ ứng cử viên. Nhưng bây giờ chúng tôi làm

này cho mỗi từ trong một câu, không 
chỉ là những từ mà không phải là trong một số

điển. Vì vậy, từ thực tế lỗi chính tả 
chỉnh, chúng tôi không sử dụng một từ điển

vì tất nhiên các lỗi trong một 
từ điển. Vì vậy, đó sẽ không giúp đỡ. Vì vậy, để

mỗi từ, chúng tôi tạo ra một bộ ứng cử viên. 
Vì vậy, chúng ta có thể tìm thấy những từ ứng cử viên

phát âm tương tự, chúng ta có thể tìm thấy 
từ ứng cử viên có cách viết tương tự,

và phụ thuộc vào các thuật toán, chính xác. 
Và đó là rất quan trọng mà chúng tôi đang gonna

bao gồm từ vựng, trong các ứng cử viên 
bộ, bởi vì mỗi từ có thể là một

lỗi chính tả của một số từ sản khác, hoặc nó 
có thể là từ chính xác. Trong thực tế, hầu hết các

lời là có lẽ đúng. Vì vậy, đối với mỗi 
bộ ứng cử viên của từng lỗi có thể,

chúng ta sẽ bao gồm những từ riêng của mình. Và 
hầu hết thời gian, trên thực tế, chúng tôi đang gonna

chọn đó. Và một lần nữa, làm thế nào chúng ta chọn những 
từ ngữ chúng ta có thể sử dụng các kênh nhiễu

model. Chúng tôi có thể sử dụng một bộ phân loại, chúng ta sẽ 
nói về chuyện đó vì vậy chúng tôi sẽ thảo luận về

phương pháp khác nhau để phát hiện các 
sai sót và sửa chữa sai sót trong kế tiếp