-
Hôm nay chúng ta sẽ nói về chính tả
sửa. Rất nhiều ứng dụng làm cho sử dụng
-
sửa sai chính tả. Ví dụ, từ
chế biến, gần như bất cứ từ hiện đại
-
xử lý sẽ mất một từ sai chính tả như
thành phần với một A và cung cấp cho bạn
-
gợi ý như thành phần với một E và
tự động thay thế cho bạn. Hiện đại
-
cụ tìm kiếm sẽ không chỉ có một cờ
lỗi. Vì vậy, ngôn ngữ viết mà không au,
-
ở đây. Nhưng, cho bạn, kết quả, như nếu
bạn đã đánh vần các từ đúng. Và,
-
điện thoại hiện đại thêm sẽ
tự động tìm các từ sai chính tả. Ở đây,
-
Tôi gõ layr, và nó thay thế nó
tự động, hoặc cho thấy một sự thay thế,
-
với cuối. Chúng ta có thể phân biệt được một số
nhiệm vụ riêng biệt và sửa lỗi chính tả.
-
Một là phát hiện các lỗi chính nó.
Và sau đó trình sửa chữa các lỗi một lần
-
bạn đã tìm thấy nó. Và chúng ta có thể suy nghĩ về
các loại khác nhau của các điều chỉnh. Chúng ta có lẽ
-
tự động sửa lỗi nếu chúng ta đang
tích cực mà các lỗi mà chúng ta biết được
-
câu trả lời đúng cho các lỗi. Vì vậy, HTE là một
lỗi chính tả rất phổ biến cho các, và như vậy
-
nhiều vi xử lý từ tự động đúng
H-TE. Chúng tôi có thể đề nghị một đơn
-
chỉnh nếu chúng tôi, chỉ có một rất
có khả năng sửa chữa, hoặc chúng tôi có thể đề nghị một
-
toàn bộ danh sách các chỉnh sửa và cho phép người dùng
chọn từ trong số đó. Chúng ta phân biệt hai
-
lớp khác nhau của lỗi chính tả. Non
lỗi từ những sai sót trong đó, những gì
-
sử dụng các loại không phải là một từ tiếng Anh nào.
Vì vậy, graffe một lỗi chính tả hãy nói cho
-
hươu cao cổ không phải là một từ tiếng Anh nào. By
Ngược lại, lỗi từ thực tế. Những sai sót trong
-
mà sau đó các kết quả. [Âm thanh]
lỗi chính tả thực sự là một từ tiếng Anh
-
và làm cho họ hơi khó
phát hiện. Và chúng ta có thể chia tay từ thực tế
-
lỗi vào những người thực sự được sản xuất bởi
quá trình in ấn. Những đã có nghĩa là
-
gõ ba. Và gõ [không nghe được] hãy
-
có nghĩa là để gõ một từ như [không nghe] và
thay vì gõ một chữ đồng âm của một, của
-
từ, hoặc \ u201ct-oo \ u201d thay vì
[nghe được] Và trong cả hai trường hợp những gì, những gì
-
sản xuất là một từ thực tế của Anh, nhưng bằng cách
mô hình hóa sự khác biệt giữa các
-
loại lỗi, chúng ta có thể đi lên với
những cách tốt hơn về cách sửa chữa chúng cả. Làm sao
-
chung là lỗi chính tả? Phụ thuộc rất nhiều
vào công việc. Vì vậy, trong các truy vấn web, lỗi chính tả
-
lỗi rất phổ biến. Vì vậy,
thực tế một trong bốn từ trong một web
-
truy vấn có khả năng bị viết sai chính tả. Nhưng trong
tác vụ xử lý web trên điện thoại nó nhiều
-
khó khăn hơn để có được một số lượng chính xác. Vì vậy,
có được một số nghiên cứu và hầu hết
-
của những nghiên cứu này được thực hiện bằng cách gõ lại. Bạn
cung cấp cho người sử dụng một đoạn văn để gõ và sau đó
-
bạn đo lường như thế nào họ, họ gõ nó.
Và, tất nhiên, đó không phải là hoàn toàn giống nhau
-
sử dụng của văn bản một cách tự nhiên thông điệp hoặc
đánh máy. Tuy nhiên nếu bạn yêu cầu người dùng
-
nhập lại và bạn không để cho họ sử dụng các
phím backspace, họ làm cho khoảng mười ba
-
phần trăm của các từ, mười ba phần trăm của
các từ này là do lỗi. Vì vậy, chỉ ra rằng
-
nếu, mà rất nhiều từ. Họ sửa
mình với backspace. Nếu bạn cho phép
-
họ đúng, bây giờ chúng tôi đang cố gắng để
thử nghiệm trên, trên apda điện thoại phong cách
-
trang web, tổ chức, chúng tôi sẽ điều chỉnh khoảng
-
Họ vẫn sẽ để lại khoảng hai phần trăm của
các từ chưa được sửa chữa, về tổ chức.
-
Và, con số tương tự về những người làm
việc gõ lại trên một bàn phím thông thường. Vì vậy, các
-
số khoảng hai phần trăm, nơi mọi người
gõ. Và có lẽ một số cao hơn nhiều
-
cho các truy vấn web và có thể cao hơn nhiều
số cho người nhắn tin. Là những loại
-
lỗi chính tả, lỗi chính tả [nghe được] mà
chúng ta thấy. Làm thế nào để chúng tôi phát hiện lỗi chính tả từ phi
-
lỗi. Cách truyền thống là chỉ sử dụng
một từ điển lớn. Bất kỳ từ không trong
-
từ điển là một lỗi. Và, lớn hơn
từ điển, nó quay ra thì càng tốt
-
công trình này. Để sửa chữa những không từ
lỗi chính tả, chúng ta tạo ra một tập hợp các
-
ứng viên đó là những lời nói thực đó là
tương tự như lỗi. Và sau đó chúng tôi chọn
-
nào là tốt nhất. Và chúng ta sẽ nói
về các mô hình xác suất nhiễu kênh
-
làm thế nào để làm điều đó. Và nó cũng liên quan
đến một phương pháp gọi là ngắn nhất
-
trọng [nghe được] đường huyền thoại. Vì vậy, chúng tôi
tìm thấy những từ không có trong các
-
điển. Đối với mỗi người, chúng ta tạo ra một
tập hợp các ứng cử viên. Những người sẽ được
-
từ thực tế tương tự, chúng ta sẽ nói
về những gì các phương tiện tương tự, để lỗi
-
và sau đó chúng ta sẽ chọn một trong những tốt nhất. Đối với thực tế lỗi chính tả từ, thuật toán là
-
khá tương tự. Một lần nữa, cho mỗi từ, chúng tôi
tạo ra một bộ ứng cử viên. Nhưng bây giờ chúng tôi làm
-
này cho mỗi từ trong một câu, không
chỉ là những từ mà không phải là trong một số
-
điển. Vì vậy, từ thực tế lỗi chính tả
chỉnh, chúng tôi không sử dụng một từ điển
-
vì tất nhiên các lỗi trong một
từ điển. Vì vậy, đó sẽ không giúp đỡ. Vì vậy, để
-
mỗi từ, chúng tôi tạo ra một bộ ứng cử viên.
Vì vậy, chúng ta có thể tìm thấy những từ ứng cử viên
-
phát âm tương tự, chúng ta có thể tìm thấy
từ ứng cử viên có cách viết tương tự,
-
và phụ thuộc vào các thuật toán, chính xác.
Và đó là rất quan trọng mà chúng tôi đang gonna
-
bao gồm từ vựng, trong các ứng cử viên
bộ, bởi vì mỗi từ có thể là một
-
lỗi chính tả của một số từ sản khác, hoặc nó
có thể là từ chính xác. Trong thực tế, hầu hết các
-
lời là có lẽ đúng. Vì vậy, đối với mỗi
bộ ứng cử viên của từng lỗi có thể,
-
chúng ta sẽ bao gồm những từ riêng của mình. Và
hầu hết thời gian, trên thực tế, chúng tôi đang gonna
-
chọn đó. Và một lần nữa, làm thế nào chúng ta chọn những
từ ngữ chúng ta có thể sử dụng các kênh nhiễu
-
model. Chúng tôi có thể sử dụng một bộ phân loại, chúng ta sẽ
nói về chuyện đó vì vậy chúng tôi sẽ thảo luận về
-
phương pháp khác nhau để phát hiện các
sai sót và sửa chữa sai sót trong kế tiếp