Hôm nay chúng ta sẽ nói về chính tả
sửa. Rất nhiều ứng dụng làm cho sử dụng
sửa sai chính tả. Ví dụ, từ
chế biến, gần như bất cứ từ hiện đại
xử lý sẽ mất một từ sai chính tả như
thành phần với một A và cung cấp cho bạn
gợi ý như thành phần với một E và
tự động thay thế cho bạn. Hiện đại
cụ tìm kiếm sẽ không chỉ có một cờ
lỗi. Vì vậy, ngôn ngữ viết mà không au,
ở đây. Nhưng, cho bạn, kết quả, như nếu
bạn đã đánh vần các từ đúng. Và,
điện thoại hiện đại thêm sẽ
tự động tìm các từ sai chính tả. Ở đây,
Tôi gõ layr, và nó thay thế nó
tự động, hoặc cho thấy một sự thay thế,
với cuối. Chúng ta có thể phân biệt được một số
nhiệm vụ riêng biệt và sửa lỗi chính tả.
Một là phát hiện các lỗi chính nó.
Và sau đó trình sửa chữa các lỗi một lần
bạn đã tìm thấy nó. Và chúng ta có thể suy nghĩ về
các loại khác nhau của các điều chỉnh. Chúng ta có lẽ
tự động sửa lỗi nếu chúng ta đang
tích cực mà các lỗi mà chúng ta biết được
câu trả lời đúng cho các lỗi. Vì vậy, HTE là một
lỗi chính tả rất phổ biến cho các, và như vậy
nhiều vi xử lý từ tự động đúng
H-TE. Chúng tôi có thể đề nghị một đơn
chỉnh nếu chúng tôi, chỉ có một rất
có khả năng sửa chữa, hoặc chúng tôi có thể đề nghị một
toàn bộ danh sách các chỉnh sửa và cho phép người dùng
chọn từ trong số đó. Chúng ta phân biệt hai
lớp khác nhau của lỗi chính tả. Non
lỗi từ những sai sót trong đó, những gì
sử dụng các loại không phải là một từ tiếng Anh nào.
Vì vậy, graffe một lỗi chính tả hãy nói cho
hươu cao cổ không phải là một từ tiếng Anh nào. By
Ngược lại, lỗi từ thực tế. Những sai sót trong
mà sau đó các kết quả. [Âm thanh]
lỗi chính tả thực sự là một từ tiếng Anh
và làm cho họ hơi khó
phát hiện. Và chúng ta có thể chia tay từ thực tế
lỗi vào những người thực sự được sản xuất bởi
quá trình in ấn. Những đã có nghĩa là
gõ ba. Và gõ [không nghe được] hãy
có nghĩa là để gõ một từ như [không nghe] và
thay vì gõ một chữ đồng âm của một, của
từ, hoặc \ u201ct-oo \ u201d thay vì
[nghe được] Và trong cả hai trường hợp những gì, những gì
sản xuất là một từ thực tế của Anh, nhưng bằng cách
mô hình hóa sự khác biệt giữa các
loại lỗi, chúng ta có thể đi lên với
những cách tốt hơn về cách sửa chữa chúng cả. Làm sao
chung là lỗi chính tả? Phụ thuộc rất nhiều
vào công việc. Vì vậy, trong các truy vấn web, lỗi chính tả
lỗi rất phổ biến. Vì vậy,
thực tế một trong bốn từ trong một web
truy vấn có khả năng bị viết sai chính tả. Nhưng trong
tác vụ xử lý web trên điện thoại nó nhiều
khó khăn hơn để có được một số lượng chính xác. Vì vậy,
có được một số nghiên cứu và hầu hết
của những nghiên cứu này được thực hiện bằng cách gõ lại. Bạn
cung cấp cho người sử dụng một đoạn văn để gõ và sau đó
bạn đo lường như thế nào họ, họ gõ nó.
Và, tất nhiên, đó không phải là hoàn toàn giống nhau
sử dụng của văn bản một cách tự nhiên thông điệp hoặc
đánh máy. Tuy nhiên nếu bạn yêu cầu người dùng
nhập lại và bạn không để cho họ sử dụng các
phím backspace, họ làm cho khoảng mười ba
phần trăm của các từ, mười ba phần trăm của
các từ này là do lỗi. Vì vậy, chỉ ra rằng
nếu, mà rất nhiều từ. Họ sửa
mình với backspace. Nếu bạn cho phép
họ đúng, bây giờ chúng tôi đang cố gắng để
thử nghiệm trên, trên apda điện thoại phong cách
trang web, tổ chức, chúng tôi sẽ điều chỉnh khoảng
Họ vẫn sẽ để lại khoảng hai phần trăm của
các từ chưa được sửa chữa, về tổ chức.
Và, con số tương tự về những người làm
việc gõ lại trên một bàn phím thông thường. Vì vậy, các
số khoảng hai phần trăm, nơi mọi người
gõ. Và có lẽ một số cao hơn nhiều
cho các truy vấn web và có thể cao hơn nhiều
số cho người nhắn tin. Là những loại
lỗi chính tả, lỗi chính tả [nghe được] mà
chúng ta thấy. Làm thế nào để chúng tôi phát hiện lỗi chính tả từ phi
lỗi. Cách truyền thống là chỉ sử dụng
một từ điển lớn. Bất kỳ từ không trong
từ điển là một lỗi. Và, lớn hơn
từ điển, nó quay ra thì càng tốt
công trình này. Để sửa chữa những không từ
lỗi chính tả, chúng ta tạo ra một tập hợp các
ứng viên đó là những lời nói thực đó là
tương tự như lỗi. Và sau đó chúng tôi chọn
nào là tốt nhất. Và chúng ta sẽ nói
về các mô hình xác suất nhiễu kênh
làm thế nào để làm điều đó. Và nó cũng liên quan
đến một phương pháp gọi là ngắn nhất
trọng [nghe được] đường huyền thoại. Vì vậy, chúng tôi
tìm thấy những từ không có trong các
điển. Đối với mỗi người, chúng ta tạo ra một
tập hợp các ứng cử viên. Những người sẽ được
từ thực tế tương tự, chúng ta sẽ nói
về những gì các phương tiện tương tự, để lỗi
và sau đó chúng ta sẽ chọn một trong những tốt nhất. Đối với thực tế lỗi chính tả từ, thuật toán là
khá tương tự. Một lần nữa, cho mỗi từ, chúng tôi
tạo ra một bộ ứng cử viên. Nhưng bây giờ chúng tôi làm
này cho mỗi từ trong một câu, không
chỉ là những từ mà không phải là trong một số
điển. Vì vậy, từ thực tế lỗi chính tả
chỉnh, chúng tôi không sử dụng một từ điển
vì tất nhiên các lỗi trong một
từ điển. Vì vậy, đó sẽ không giúp đỡ. Vì vậy, để
mỗi từ, chúng tôi tạo ra một bộ ứng cử viên.
Vì vậy, chúng ta có thể tìm thấy những từ ứng cử viên
phát âm tương tự, chúng ta có thể tìm thấy
từ ứng cử viên có cách viết tương tự,
và phụ thuộc vào các thuật toán, chính xác.
Và đó là rất quan trọng mà chúng tôi đang gonna
bao gồm từ vựng, trong các ứng cử viên
bộ, bởi vì mỗi từ có thể là một
lỗi chính tả của một số từ sản khác, hoặc nó
có thể là từ chính xác. Trong thực tế, hầu hết các
lời là có lẽ đúng. Vì vậy, đối với mỗi
bộ ứng cử viên của từng lỗi có thể,
chúng ta sẽ bao gồm những từ riêng của mình. Và
hầu hết thời gian, trên thực tế, chúng tôi đang gonna
chọn đó. Và một lần nữa, làm thế nào chúng ta chọn những
từ ngữ chúng ta có thể sử dụng các kênh nhiễu
model. Chúng tôi có thể sử dụng một bộ phân loại, chúng ta sẽ
nói về chuyện đó vì vậy chúng tôi sẽ thảo luận về
phương pháp khác nhau để phát hiện các
sai sót và sửa chữa sai sót trong kế tiếp