0:00:00.000,0:00:05.640 L'intelligenza artificiale renderà obsoleto [br]l'apprendimento delle lingue? Se tra dieci 0:00:05.640,0:00:11.190 anni avremo un dispositivo che ci permetterà di [br]comunicare con persone che parlano altre lingue 0:00:11.190,0:00:19.140 in maniera efficiente e senza ostacoli ci saranno [br]ancora persone che impareranno lingue? Questa è 0:00:19.140,0:00:24.480 una domanda che mi pongo spesso, che mi porta ad [br]avere crisi esistenziali perché penso: "O mio dio, 0:00:24.480,0:00:30.360 tra dieci anni il mio lavoro non avrà più [br]senso! Nessuno imparerà l'italiano!" Ora, 0:00:30.360,0:00:36.240 nessuno può sapere come andranno le cose, ma ne [br]ho discusso con mio padre nel mio ultimo episodio 0:00:36.240,0:00:41.220 del podcast e perché con mio padre, perché [br]mio padre (che è appena andato in pensione) 0:00:41.220,0:00:47.610 si è occupato per tutta la sua carriera di [br]intelligenza artificiale e nello specifico di 0:00:47.610,0:00:53.112 riconoscimento vocale. Avete presente quando [br]parlate ai vostri dispositivi, se lo fate? 0:00:53.112,0:00:57.030 (voce automatica) In inglese è [br]"subscribe to Italian podcasts". Ora 0:00:57.030,0:00:59.280 posso fare da interprete in una lingua straniera. 0:00:59.280,0:01:00.330 D: Ciao, come va? 0:01:00.330,0:01:02.877 A: Hi, how are you?[br]D: I'm fine, and you? 0:01:02.877,0:01:05.790 A: Sto bene, e tu?[br]D: Io sto bene perché non mi 0:01:05.790,0:01:08.021 sono ancora iscritto a Podcast Italiano.[br]A: I'm sick because I haven't 0:01:08.021,0:01:14.340 subscribed to an italian podcast yet.[br]D: What's an italian podcast? Do you mean 'Podcast 0:01:14.340,0:01:15.840 Italiano', by any chance? 0:01:15.840,0:01:20.040 A: Cos'è un podcast italiano? [br]Intendi per caso 'Podcast Italiano'? 0:01:20.040,0:01:23.340 D: Sì, certo, Podcast Italiano, su YouTube![br]A: Yes, of course italian podcast on youtube. 0:01:23.340,0:01:27.390 D: Of course, but do you know there's [br]a podcast version of it as well? 0:01:27.390,0:01:34.410 A: Certo, ma lo sai che esiste [br]anche una versione podcast? 0:01:34.410,0:01:40.320 Esiste già questa tecnologia, magari [br]non è perfetta ma tra dieci anni? Non 0:01:40.320,0:01:45.300 lo so... Comunque mio padre si è occupato [br]di riconoscimento vocale, ovvero la parte 0:01:45.300,0:01:52.560 di comprensione da parte della macchina del [br]linguaggio umano. Abbiamo fatto due episodi, 0:01:52.560,0:01:56.850 il primo sulla sua carriera nel mondo [br]dell'intelligenza artificiale e il 0:01:56.850,0:02:02.250 secondo nello specifico sulle applicazioni [br]linguistiche dell'intelligenza artificiale 0:02:02.250,0:02:09.570 e delle reti neurali, che oggi vanno così [br]tanto di moda. Vi lascio ora un estratto dal 0:02:09.570,0:02:14.310 secondo episodio in cui parliamo proprio [br]di queste cose. Spero vi possa piacere. 0:02:14.310,0:02:22.080 D: Volevo parlare adesso un po’ del... [br]dell'intelligenza artificiale in campo 0:02:22.080,0:02:28.170 linguistico, quindi mi sembra che ci siano [br]tre usi principalmente: la traduzione, 0:02:28.170,0:02:37.230 il riconoscimento della voce e la sintesi della [br]voce, quindi far parlare una macchina, giusto?[br] 0:02:37.230,0:02:38.910 R: Esatto.[br]D: Ecco, 0:02:38.910,0:02:44.490 volevo iniziare proprio dal riconoscimento [br]vocale di cui ti sei occupato per un sacco 0:02:44.490,0:02:53.160 di tempo e chiederti come funziona. Tu mi dicevi [br]che un tempo si mettevano proprio delle conoscenze 0:02:53.160,0:02:59.400 linguistiche nella macchina e poi questo [br]approccio è stato completamente abbandonato.[br] 0:02:59.400,0:03:07.890 R: Esatto. Fino, diciamo, a tutti gli anni '90, [br]fino al 2000 anche i sistemi di riconoscimento 0:03:07.890,0:03:16.770 automatico avevano dentro delle competenze di [br]esperti umani. C'era, ad esempio, la conoscenza 0:03:16.770,0:03:23.340 fonetica della lingua, cioè quali sono i suoni [br]di base della lingua e come si organizzano fra di 0:03:23.340,0:03:30.600 loro; la conoscenza lessicale, cioè come questi [br]suoni vanno a formare le parole; poi c'era la 0:03:30.600,0:03:39.060 conoscenza sintattica, cioè come le parole formano [br]delle frasi corrette della lingua, e queste... 0:03:39.060,0:03:45.840 queste conoscenze erano introdotte da degli [br]esperti umani, da dei fonetici, dei linguisti 0:03:45.840,0:03:51.920 che inserivano nel codice (o comunque nelle [br]conoscenze del computer) queste informazioni.[br] 0:03:51.920,0:03:54.682 D: Cioè, insomma, tutta la grammatica [br]di una lingua perché è la grammatica...[br] 0:03:54.682,0:03:58.920 R: Sì, si parlava, appunto, di grammatica, [br]anche si inserivano le grammatiche di una 0:03:58.920,0:04:03.300 lingua dentro... dentro il computer.[br]D: Quindi c'era gente con un libro 0:04:03.300,0:04:09.460 di grammatica che traduceva le [br]regole in istruzioni informatiche?[br] 0:04:09.460,0:04:14.380 R: Sì sì, esatto. Io stesso all'inizio mi ero [br]portato in ufficio la grammatica italiana.[br] 0:04:14.380,0:04:18.190 D: Di Serianni?[br]R: Quella che avevo al liceo, non so di chi fosse, 0:04:18.190,0:04:24.040 ma e questo è andato avanti per molto molto [br]tempo, poi hanno... si è iniziato a usare anche 0:04:24.040,0:04:31.030 dei metodi statistici, almeno per la parte più [br]di basso livello del suono. Però poi ultimamente, 0:04:31.030,0:04:40.690 quindi direi dal 2013 in poi tutto questo è [br]letteralmente sparito, nel senso che sono arrivati 0:04:40.690,0:04:47.860 dei modelli di reti neurali chiamati end to end [br]models, cioè modelli che vanno dall'inizio alla 0:04:47.860,0:04:55.570 fine, e questi modelli nel riconoscimento vocale [br]partono dal segnale che esce dal microfono, dalla 0:04:55.570,0:05:03.845 forma d'onda e arrivano alle parole. Quindi entra [br]una forma d'onda, esce una sequenza di parole.[br] 0:05:03.845,0:05:13.920 D: E quindi... quindi tutto ciò che sta in mezzo, [br]sintassi, fonetica, morfologia, lessico, tutto... 0:05:13.920,0:05:19.080 tutto ciò che sta in mezzo succede magicamente?[br]R: Succede magicamente nell'interazione fra questi 0:05:19.080,0:05:25.560 neuroni. Questi modelli end to end sono ancora [br]più complicati di come io ho descritto le reti 0:05:25.560,0:05:34.620 neurali. E però tutte questi... queste conoscenze [br]umane e conoscenze linguistiche sono sparite. 0:05:34.620,0:05:39.840 Oddio, magari sono presenti nella rete neurale [br]che però è un modello opaco, è una cosiddetta 0:05:39.840,0:05:46.080 black box, è una scatola nera e quindi noi [br]non sappiamo se la rete neurale le ha usate, 0:05:46.080,0:05:50.550 non le ha usate. Avrà... nel suo apprendimento [br]avrà riscoperto la fonetica, avrà riscoperto 0:05:50.550,0:05:56.580 la linguistica? Noi non lo sappiamo in realtà.[br]D: Quindi non c'è un modo di capire che cosa sta 0:05:56.580,0:06:03.180 imparando e che cosa "pensa", tra virgolette?[br]R: No, direi... direi proprio di no. Questo è 0:06:03.180,0:06:09.150 forse uno dei limiti di queste reti neurali che... [br]che forse è anche un limite delle reti neurali 0:06:09.150,0:06:19.110 biologiche, nel senso che non sono ispezionabili.[br]D: Quindi non... non sono molto trasparenti. 0:06:19.110,0:06:22.230 E quindi l'unica cosa che serve per questi modelli 0:06:22.230,0:06:27.870 è audio che sia trascritto, no?[br]R: Trascritto in parole. E occorrono 0:06:27.870,0:06:36.090 tantissime ore, si parla di migliaia di ore [br]di registrazioni trascritte e più ce n'è e 0:06:36.090,0:06:45.120 meglio funzionerà la cosa. Però ci vogliono anche [br]giorni e giorni di computazione di computer molto 0:06:45.120,0:06:51.510 potenti per addestrare la rete neurale, però alla [br]fine questa rete inizia a capire come correlare 0:06:51.510,0:06:56.190 questo strano input che esce dal microfono [br]con le parole. Nel caso del riconoscimento; 0:06:56.190,0:07:00.570 nel caso della traduzione correla le parole in [br]una lingua con le parole nell'altra, anche con 0:07:00.570,0:07:06.150 caratteri totalmente diversi, questo non importa.[br]D: Certo. E invece nel caso della sintesi, 0:07:06.150,0:07:11.520 cioè far parlare la macchina, quello come [br]funziona? La correlazione tra cos'è?[br] 0:07:11.520,0:07:17.730 R: Sì, è esattamente il viceversa. Gli esempi [br]sono delle coppie in cui l'input è una sequenza 0:07:17.730,0:07:23.535 di parole e l'output è una forma d'onda.[br]D: Però, la... la forma d'onda è creata da zero?[br] 0:07:23.535,0:07:25.050 R: Da zero.[br]D: Perché un tempo, 0:07:25.050,0:07:30.510 forse me lo dicevi tu, si usavano proprio [br]dei blocchi di parole, dei pezzetti di 0:07:30.510,0:07:34.830 parole che si ricombinavano in vari modi.[br]R: Esatto, questo che era nella sintesi, 0:07:34.830,0:07:42.540 diciamo, quella classica con conoscenze introdotte [br]dall'uomo in cui, appunto, l'uomo classificava 0:07:42.540,0:07:48.510 tanti pezzetti di registrazione che poi venivano [br]concatenati, la cosiddetta sintesi concatenativa.[br] 0:07:48.510,0:07:51.270 D: Che ancora si sente, per [br]esempio, su alcuni treni...[br] 0:07:51.270,0:07:54.315 R: Altroché, ma direi che...[br]D: Si usa ancora tanto?[br] 0:07:54.315,0:07:58.620 R: Sì sì sì, nei sistemi delle ferrovie [br]italiane la sintesi è ancora quella degli 0:07:58.620,0:08:03.420 anni 90'. Nei sistemi di Google secondo [br]me o di Amazon sono già utilizzate però.[br] 0:08:03.420,0:08:10.640 D: Quindi se abbiamo un sistema che... il primo [br]passaggio è riconosce la voce, quindi dal suono al 0:08:10.640,0:08:17.990 testo, poi la traduzione che traduce in un'altra [br]lingua, in un altro testo quindi, tradotto, 0:08:17.990,0:08:25.100 e poi abbiamo la sintesi che legge ad alta voce [br]la traduzione, di fatto abbiamo... abbiamo un 0:08:25.100,0:08:30.950 interprete, abbiamo un interprete. Quindi tu pensi [br]che magari i traduttori e interpreti, i traduttori 0:08:30.950,0:08:36.425 già adesso ma gli interpreti in futuro, saranno [br]a rischio, per esempio, nelle conferenze?[br] 0:08:36.425,0:08:41.870 R: Purtroppo per i traduttori e interpreti [br]umani io penso di sì, che succederà, 0:08:41.870,0:08:48.770 o almeno si ridurrà di molto l'ambito... le [br]possibilità di... di lavoro. Nel senso che 0:08:48.770,0:08:56.540 prima spariranno le cose più, diciamo, più di [br]routine. Credo che già la traduzione dei manuali 0:08:56.540,0:09:01.790 tecnici o manuali di prodotto sia fatta quasi [br]tutta automaticamente, pur avendo ancora degli 0:09:01.790,0:09:09.950 errori all'interno. E poi via via anche il lavoro [br]di interpretariato magari... Magari esisteranno 0:09:09.950,0:09:14.960 per un po' di tempo le due alternative, quella [br]automatica più economica e meno precisa e 0:09:14.960,0:09:21.920 quella umana più accurata e più costosa.[br]D: E credo che già adesso inizi a essere 0:09:21.920,0:09:27.560 un problema per qualcuno, per qualche [br]traduttore forse perché chiaramente se 0:09:27.560,0:09:33.710 il traduttore deve solamente correggere [br]il lavoro fatto da una macchina la paga, 0:09:33.710,0:09:39.824 la retribuzione sarà... sarà minore.[br]R: Certo, e il lavoro forse anche meno bello.[br] 0:09:39.824,0:09:45.410 D: Ma anche meno bello sì. Tornando al discorso [br]delle lingue tu pensi che sarà ancora attuale 0:09:45.410,0:09:52.040 imparare le lingue tra 10 o 15 anni? Questa è una [br]domanda che mi pongo spesso. Non so se ci sarà 0:09:52.920,0:09:59.730 un dispositivo che ci permetterà di comunicare [br]con persone che parlano lingue diverse o un 0:09:59.730,0:10:07.260 chip nel cervello ma anche qualcosa di meno [br]futuristico, diciamo. Sarà ancora attuale?[br] 0:10:07.260,0:10:15.000 R: Ma io penso che almeno per molto tempo non [br]diventerà obsoleto, nel senso che uno impara 0:10:15.000,0:10:24.660 una lingua per molti motivi, però sicuramente una [br]cosa è poter parlare e comunicare in una lingua 0:10:24.660,0:10:32.040 senza alcun dispositivo, un altro conto è avere [br]sempre un dispositivo in mano o un dispositivo 0:10:32.040,0:10:38.610 che fa da mediatore. Immagino che per motivi [br]o di lavoro, o di turismo, o anche un po' 0:10:38.610,0:10:46.080 occasionale questi dispositivi saranno sicuramente [br]utilizzati. O magari anche in certe conferenze che 0:10:46.080,0:10:52.590 sono incontri occasionali di persone di divers... [br]tante nazionalità potrebbero essere usate. Però se 0:10:52.590,0:11:00.270 uno vuole, appunto, imparare una lingua anche per [br]entrare nella cultura di una nazione, di un Paese 0:11:00.960,0:11:10.110 questo rimarrà totalmente insostituibile, a meno [br]che, come accennavi tu, di far degli impianti di 0:11:10.110,0:11:16.530 reti neurali artificiali nel cervello, allora ti [br]impiantano l'espansione di memoria della lingua, 0:11:16.530,0:11:20.820 tu la compri e te la mettono, ma questo [br]veramente secondo me è un po' troppo oltre. 0:11:20.820,0:11:26.340 E questo era l'estratto, spero che vi sia [br]piaciuto. Se volete sentire l'intero episodio o i 0:11:26.340,0:11:31.500 due episodi che abbiamo fatto trovate il [br]link qui sotto. Ah e se non lo sapevate, 0:11:31.500,0:11:38.550 sì ho un podcast per chi impara la lingua italiana [br]ed è il motivo per cui mi chiamo podcast italiano, 0:11:38.550,0:11:42.480 so che è un po' strano. Ma questi episodi in [br]particolare credo possano interessare a tutti 0:11:42.480,0:11:49.080 anche se siete italiani, perché insomma mio [br]padre è un esperto del settore. Dunque fatemi 0:11:49.080,0:11:54.240 sapere che ne pensate, voi imparereste una [br]lingua se esistesse una tecnologia come già 0:11:54.240,0:12:01.140 esiste ma molto più efficiente di questa? Magari [br]integrata in un dispositivo nel nostro cervello, 0:12:01.140,0:12:06.370 oppure in un dispositivo che ne so, un pochino [br]più efficiente di un telefono cellulare, 0:12:06.370,0:12:11.890 che comunque fa un po' da ostacolo, si mette [br]in mezzo tra me e un'altra persona? O comunque 0:12:11.890,0:12:17.260 pensate che continuerete a imparare la lingua [br]magari per amore verso una cultura o perché vi 0:12:17.260,0:12:22.180 piace imparare le lingue? E che cosa pensate [br]farà la maggior parte delle persone? Fatemi 0:12:22.180,0:12:27.010 sapere che ne pensate come avete capito non [br]aveva un video vero per questa settimana ma 0:12:27.010,0:12:33.430 torniamo la prossima settimana con la nostra [br]programmazione abituale. Alla prossima! Ciao ciao.