1
00:00:01,560 --> 00:00:06,758
Hôm nay chúng ta sẽ nói về chính tả 
sửa. Rất nhiều ứng dụng làm cho sử dụng

2
00:00:06,758 --> 00:00:11,628
sửa sai chính tả. Ví dụ, từ 
chế biến, gần như bất cứ từ hiện đại

3
00:00:11,628 --> 00:00:16,630
xử lý sẽ mất một từ sai chính tả như 
thành phần với một A và cung cấp cho bạn

4
00:00:16,630 --> 00:00:22,077
gợi ý như thành phần với một E và 
tự động thay thế cho bạn. Hiện đại

5
00:00:22,077 --> 00:00:28,259
cụ tìm kiếm sẽ không chỉ có một cờ 
lỗi. Vì vậy, ngôn ngữ viết mà không au,

6
00:00:28,259 --> 00:00:34,936
ở đây. Nhưng, cho bạn, kết quả, như nếu 
bạn đã đánh vần các từ đúng. Và,

7
00:00:34,936 --> 00:00:40,953
điện thoại hiện đại thêm sẽ 
tự động tìm các từ sai chính tả. Ở đây,

8
00:00:40,953 --> 00:00:47,135
Tôi gõ layr, và nó thay thế nó 
tự động, hoặc cho thấy một sự thay thế,

9
00:00:47,135 --> 00:00:52,260
với cuối. Chúng ta có thể phân biệt được một số 
nhiệm vụ riêng biệt và sửa lỗi chính tả.

10
00:00:52,260 --> 00:00:56,921
Một là phát hiện các lỗi chính nó. 
Và sau đó trình sửa chữa các lỗi một lần

11
00:00:56,921 --> 00:01:01,301
bạn đã tìm thấy nó. Và chúng ta có thể suy nghĩ về 
các loại khác nhau của các điều chỉnh. Chúng ta có lẽ

12
00:01:01,301 --> 00:01:06,018
tự động sửa lỗi nếu chúng ta đang 
tích cực mà các lỗi mà chúng ta biết được

13
00:01:06,018 --> 00:01:10,510
câu trả lời đúng cho các lỗi. Vì vậy, HTE là một 
lỗi chính tả rất phổ biến cho các, và như vậy

14
00:01:10,679 --> 00:01:14,891
nhiều vi xử lý từ tự động đúng 
H-TE. Chúng tôi có thể đề nghị một đơn

15
00:01:14,891 --> 00:01:19,495
chỉnh nếu chúng tôi, chỉ có một rất 
có khả năng sửa chữa, hoặc chúng tôi có thể đề nghị một

16
00:01:19,495 --> 00:01:24,274
toàn bộ danh sách các chỉnh sửa và cho phép người dùng 
chọn từ trong số đó. Chúng ta phân biệt hai

17
00:01:24,274 --> 00:01:30,657
lớp khác nhau của lỗi chính tả. Non 
lỗi từ những sai sót trong đó, những gì

18
00:01:30,657 --> 00:01:37,213
sử dụng các loại không phải là một từ tiếng Anh nào. 
Vì vậy, graffe một lỗi chính tả hãy nói cho

19
00:01:37,213 --> 00:01:43,510
hươu cao cổ không phải là một từ tiếng Anh nào. By 
Ngược lại, lỗi từ thực tế. Những sai sót trong

20
00:01:43,510 --> 00:01:49,587
mà sau đó các kết quả. [Âm thanh] 
lỗi chính tả thực sự là một từ tiếng Anh

21
00:01:49,587 --> 00:01:54,867
và làm cho họ hơi khó 
phát hiện. Và chúng ta có thể chia tay từ thực tế

22
00:01:54,867 --> 00:02:00,217
lỗi vào những người thực sự được sản xuất bởi 
quá trình in ấn. Những đã có nghĩa là

23
00:02:00,217 --> 00:02:06,132
gõ ba. Và gõ [không nghe được] hãy

24
00:02:06,343 --> 00:02:11,992
có nghĩa là để gõ một từ như [không nghe] và 
thay vì gõ một chữ đồng âm của một, của

25
00:02:11,992 --> 00:02:16,369
từ, hoặc \ u201ct-oo \ u201d thay vì 
[nghe được] Và trong cả hai trường hợp những gì, những gì

26
00:02:16,369 --> 00:02:22,088
sản xuất là một từ thực tế của Anh, nhưng bằng cách 
mô hình hóa sự khác biệt giữa các

27
00:02:22,088 --> 00:02:27,453
loại lỗi, chúng ta có thể đi lên với 
những cách tốt hơn về cách sửa chữa chúng cả. Làm sao

28
00:02:27,453 --> 00:02:33,523
chung là lỗi chính tả? Phụ thuộc rất nhiều 
vào công việc. Vì vậy, trong các truy vấn web, lỗi chính tả

29
00:02:33,523 --> 00:02:38,951
lỗi rất phổ biến. Vì vậy, 
thực tế một trong bốn từ trong một web

30
00:02:38,951 --> 00:02:44,218
truy vấn có khả năng bị viết sai chính tả. Nhưng trong 
tác vụ xử lý web trên điện thoại nó nhiều

31
00:02:44,218 --> 00:02:48,669
khó khăn hơn để có được một số lượng chính xác. Vì vậy, 
có được một số nghiên cứu và hầu hết

32
00:02:48,669 --> 00:02:53,404
của những nghiên cứu này được thực hiện bằng cách gõ lại. Bạn 
cung cấp cho người sử dụng một đoạn văn để gõ và sau đó

33
00:02:53,404 --> 00:02:57,912
bạn đo lường như thế nào họ, họ gõ nó. 
Và, tất nhiên, đó không phải là hoàn toàn giống nhau

34
00:02:57,912 --> 00:03:02,591
sử dụng của văn bản một cách tự nhiên thông điệp hoặc 
đánh máy. Tuy nhiên nếu bạn yêu cầu người dùng

35
00:03:02,591 --> 00:03:06,984
nhập lại và bạn không để cho họ sử dụng các 
phím backspace, họ làm cho khoảng mười ba

36
00:03:06,984 --> 00:03:10,806
phần trăm của các từ, mười ba phần trăm của 
các từ này là do lỗi. Vì vậy, chỉ ra rằng

37
00:03:10,806 --> 00:03:16,028
nếu, mà rất nhiều từ. Họ sửa 
mình với backspace. Nếu bạn cho phép

38
00:03:16,028 --> 00:03:21,220
họ đúng, bây giờ chúng tôi đang cố gắng để 
thử nghiệm trên, trên apda điện thoại phong cách

39
00:03:21,220 --> 00:03:25,858
trang web, tổ chức, chúng tôi sẽ điều chỉnh khoảng

40
00:03:25,858 --> 00:03:30,842
Họ vẫn sẽ để lại khoảng hai phần trăm của 
các từ chưa được sửa chữa, về tổ chức.

41
00:03:30,842 --> 00:03:35,964
Và, con số tương tự về những người làm 
việc gõ lại trên một bàn phím thông thường. Vì vậy, các

42
00:03:35,964 --> 00:03:41,261
số khoảng hai phần trăm, nơi mọi người 
gõ. Và có lẽ một số cao hơn nhiều

43
00:03:41,261 --> 00:03:46,280
cho các truy vấn web và có thể cao hơn nhiều 
số cho người nhắn tin. Là những loại

44
00:03:46,280 --> 00:03:51,210
lỗi chính tả, lỗi chính tả [nghe được] mà 
chúng ta thấy. Làm thế nào để chúng tôi phát hiện lỗi chính tả từ phi

45
00:03:51,210 --> 00:03:56,022
lỗi. Cách truyền thống là chỉ sử dụng 
một từ điển lớn. Bất kỳ từ không trong

46
00:03:56,022 --> 00:04:00,596
từ điển là một lỗi. Và, lớn hơn 
từ điển, nó quay ra thì càng tốt

47
00:04:00,596 --> 00:04:04,705
công trình này. Để sửa chữa những không từ 
lỗi chính tả, chúng ta tạo ra một tập hợp các

48
00:04:04,705 --> 00:04:08,624
ứng viên đó là những lời nói thực đó là 
tương tự như lỗi. Và sau đó chúng tôi chọn

49
00:04:08,624 --> 00:04:12,852
nào là tốt nhất. Và chúng ta sẽ nói 
về các mô hình xác suất nhiễu kênh

50
00:04:12,852 --> 00:04:17,029
làm thế nào để làm điều đó. Và nó cũng liên quan 
đến một phương pháp gọi là ngắn nhất

51
00:04:17,029 --> 00:04:20,948
trọng [nghe được] đường huyền thoại. Vì vậy, chúng tôi 
tìm thấy những từ không có trong các

52
00:04:20,948 --> 00:04:25,125
điển. Đối với mỗi người, chúng ta tạo ra một 
tập hợp các ứng cử viên. Những người sẽ được

53
00:04:25,125 --> 00:04:29,148
từ thực tế tương tự, chúng ta sẽ nói 
về những gì các phương tiện tương tự, để lỗi

54
00:04:29,148 --> 00:04:33,448
và sau đó chúng ta sẽ chọn một trong những tốt nhất. Đối với thực tế lỗi chính tả từ, thuật toán là

55
00:04:33,448 --> 00:04:37,650
khá tương tự. Một lần nữa, cho mỗi từ, chúng tôi 
tạo ra một bộ ứng cử viên. Nhưng bây giờ chúng tôi làm

56
00:04:37,650 --> 00:04:41,742
này cho mỗi từ trong một câu, không 
chỉ là những từ mà không phải là trong một số

57
00:04:41,742 --> 00:04:45,944
điển. Vì vậy, từ thực tế lỗi chính tả 
chỉnh, chúng tôi không sử dụng một từ điển

58
00:04:45,944 --> 00:04:50,245
vì tất nhiên các lỗi trong một 
từ điển. Vì vậy, đó sẽ không giúp đỡ. Vì vậy, để

59
00:04:50,245 --> 00:04:54,381
mỗi từ, chúng tôi tạo ra một bộ ứng cử viên. 
Vì vậy, chúng ta có thể tìm thấy những từ ứng cử viên

60
00:04:54,381 --> 00:04:58,463
phát âm tương tự, chúng ta có thể tìm thấy 
từ ứng cử viên có cách viết tương tự,

61
00:04:58,463 --> 00:05:02,760
và phụ thuộc vào các thuật toán, chính xác. 
Và đó là rất quan trọng mà chúng tôi đang gonna

62
00:05:02,760 --> 00:05:07,164
bao gồm từ vựng, trong các ứng cử viên 
bộ, bởi vì mỗi từ có thể là một

63
00:05:07,164 --> 00:05:11,515
lỗi chính tả của một số từ sản khác, hoặc nó 
có thể là từ chính xác. Trong thực tế, hầu hết các

64
00:05:11,515 --> 00:05:15,597
lời là có lẽ đúng. Vì vậy, đối với mỗi 
bộ ứng cử viên của từng lỗi có thể,

65
00:05:15,597 --> 00:05:19,732
chúng ta sẽ bao gồm những từ riêng của mình. Và 
hầu hết thời gian, trên thực tế, chúng tôi đang gonna

66
00:05:19,732 --> 00:05:25,644
chọn đó. Và một lần nữa, làm thế nào chúng ta chọn những 
từ ngữ chúng ta có thể sử dụng các kênh nhiễu

67
00:05:25,644 --> 00:05:32,240
model. Chúng tôi có thể sử dụng một bộ phân loại, chúng ta sẽ 
nói về chuyện đó vì vậy chúng tôi sẽ thảo luận về

68
00:05:32,240 --> 00:05:38,428
phương pháp khác nhau để phát hiện các 
sai sót và sửa chữa sai sót trong kế tiếp