Precedente Principale Sommario Informazioni Redazione Browser Successivo

Rubrica Prove Software Coordinamento di Luciano Giustini

IBM VoiceType v. 3.0

Il nuovo sistema di dettatura vocale, nettamente migliorato rispetto alle precedenti versioni, è stato inserito all'interno della nuova release del sistema operativo OS/2. In questo modo è possibile comandare tutte le funzioni del computer esclusivamente con la voce.

di Luigi Gangitano

La più grande rivoluzione informatica dall' avvento delle interfacce grafiche sta per compiersi: è arrivato il momento di "parlare" col computer. Se ne ...parla ormai da parecchio e molte software house si sono impegnate nella ricerca di tecniche che permettessero l'interazione vocale. I problemi incontrati sono stati tanti: lo sviluppo di un buon metodo di riconoscimento, la creazione di un algoritmo di compressione vocale che non penalizzasse troppo il sistema, la capacità di comandare tutto il software presente sul mercato, la facilità di personalizzare il sistema, ecc. In un primo momento l'IBM era ricorsa ad una scheda aggiuntiva con un processore RISC per ovviare alle non sufficienti operazioni dei processori di classe 486 nella compressione audio. Ora, grazie alla possibilità di affidarsi ad un processore di classe Pentium, la scheda aggiuntiva non è più necessaria ed è stata eliminata per rendere il prezzo più concorrenziale (che, infatti, è passato dai circa due milioni e mezzo della versione 2 al milione e duecentomila lire della nuova versione 3). Inoltre, grazie all'esperienza maturata, il sistema di riconoscimento vocale è stato migliorato ed è ora in grado di riconoscere il 96% di ciò che viene dettato da una persona che non ha effettuato il training, e più del 99% dopo l'allenamento.

Note introduttive

Prima di cominciare a parlare delle caratteristiche di questo prodotto, devo parlare prima di come è stato effettuato il test: ho provato due versioni dello stesso programma, quella contenuta dentro la beta di OS/2 4.0 Merlin e quella invece fatta apposta per Windows 95. Le versioni sono praticamente uguali, in quella per OS/2 mancano però il VoicePad (sostituzione del WordPad di Windows 95 e quindi abbastanza fuori luogo in OS/2, dove è stato sostituito da una più anonima Finestra di dettatura) e il VoiceDirect (che permette la dettatura in qualsiasi programma e che nella versione per OS/2 è stato sostituito da un finestra che si apre quando si vuole cominciare la dettatura e dalla quale sarà possibile importare il testo nell'applicazione desiderata alla fine della dettatura).
La versione per OS/2 era in americano, mentre quella per Windows 95 era in italiano; vista la mia scarsa conoscenza della pronuncia americana, ho preferito approfondire la prova della versione per Windows 95, che trovate qui recensita.
Un'ultima nota: la versione per OS/2, a parità di hardware è risultata leggermente più veloce.

Requisiti hardware

Il sistema richiesto prevede:
- Processore Pentium 90 o superiori;
- 16 Mb di RAM più la RAM necessaria a far girare le altre applicazioni;
- Scheda Audio Sound Blaster Compatibile;
- Microfono direzionale (in dotazione o acquistabile separatamente);
- Windows 3.11 oppure
- Windows 95 oppure
- OS/2;

Metodi di controllo

Esistono due metodi di controllo: uno per i comandi e uno per la dettatura. Per inviare dei comandi al PC è importante pronunciare tutto il comando attaccato, mentre per la dettatura è necessario inserire una breve pausa tra una parola e l'altra per permettere al programma di capire quando finisce una parola e comincia un'altra.

Voice Center

Voice Center è il centro di controllo del programma attraverso il quale è possibile farsi "sentire" dal PC. Dopo averlo avviato rimane sopra le altre e notifica il funzionamento del sistema.


Fig.1 Voice Center

Ecco l'elenco dei pulsanti, da sinistra:
- Il pulsante che identifica lo stato del microfono, che può essere:

Spento, è sufficiente fare clic per attivarlo
Attivo, è pronto per ricevere comandi
Sospeso Temporanemente, pronunciando "Riprendi" viene riattivato

- Il pulsante "Cosa posso dire", che attiva l'omonima finestra che mostra tutte i possibili comandi per la finestra attiva.
- Il pulsante "Cosa posso fare", attraverso il quali viene mostrato un elenco di applicazioni avviabili
- Il pulsante "Dettatura in VoicePad", che passa rapidamente a VoicePad, sostituto di WordPad e attiva il modo dettatura
- Il pulsante "Proprietà", che permette di regolare il programma
- Il pulsante "Aiuto", che richiama la guida in linea
La barra subito sotto i pulsanti indica il volume della voce in entrata e subito sotto viene visualizzato il comando che è stato riconosciuto.

I comandi

Attraverso semplici comandi, come "Passa a..." oppure "Avvia...", è possibile gestire praticamente tutte le applicazioni. Nel caso di Windows 95, poi, è sufficiente pronunciare "Pulsante Avvio" per accedere al Pulsante Avvio e quindi a praticamente tutte le applicazioni gestibili con il mouse. Per navigare all'interno delle applucazioni esistono particolari combinazioni di parole, come "Sposta su", "Tabulazioni", "Separatore..." (per passare ad un altra linguetta della finestra di dialogo), ecc., attraverso le quali è possibile lavorare come con il mouse. Alcuni programmi, inoltre, come Word 7.0, oppure WordPro96 o Lotus Notes 4, vengono adattati in fase di installazione per l'utilizzo a voce.

La dettatura

VoiceType 3.0 permette di dettare all'interno di uno speciale wordprocessor, il VoicePad (nella versione per OS/2 è stato sostituito da una "Finestra di dettatura"), che sostituisce il WordPad di Windows 95. Per WinWord 7.0 oppure, attraverso il programma VoiceDirect, per qualsiasi applicazione, il programma provvede a portarvi all'interno il testo che interpreta dalla dettatura.
Per iniziare a dettare è sufficiente pronunciare la frase "Inizio dettatura", dopodichè tutto ciò che viene pronunciato viene trasformato in testo, fino a quando non viene pronunciata la frase "Fine dettatura". Se sono attivi i programmi di cui sopra la dettatura avviene immediatamente, altrimenti VoiceCenter provvede ad avviare il programma VoicePad dal quale è poi possibile copiare ciò che è stato dettato.
Il vocabolario installato prevede 32.000 parole già definite e 32.000 da definire, mentre sono disponibili vocabolari aggiuntivi in altre lingue o per usi particolari, come quello medico e quello giuridico. E' inoltre possibile dettare una frase lettera per lettera pronunciando: "Inizio pronuncia" e componendo la parola una lettera alla volta, anche con uno speciale alfabeto (il solito Bari, Empoli, Torino, Ancona, che usiamo tutti i giorni), oppure dettare delle cifre (che solitamente vengono scritte in lettere: uno, due, tre), pronunciando "Inizio numeri" e poi dettando i numeri uno per uno. Il tutto può sembrare macchinoso, ma è, invece, molto intuitivo, tanto che si arriva molto facilmente a dettare 80-100 parole al minuto (corrispondenti a 400-500 battute al minuto, meglio di una brava dattilografa).

L'apprendimento

A differenza di quanto accadeva con le versioni precedenti, con questa versione 3.0 si può cominciare a "parlare" con il computer senza dover effettuare le sessioni di apprendimento del timbro vocale. Questa funzione è però ancora presente per migliorare il tasso di precisione del riconoscimento. L'apprendimento è diviso in due sezioni: il parlato continuo, necessario per il riconoscimento dei comandi e quello staccato, per la dettatura. Si tratta di leggere alcuni comandi od alcune frasi che appaiono sullo schermo e che il computer memorizza e poi rielabora per definire il modello al quale adatta il suono delle parole che conosce (infatti il sistema non è basato sui singoli suoni ma sulle parole intere). Prima che il computer possa elaborare la registrazione è necessario leggere almeno 50 dei 181 comandi o delle 250 frasi, il resto può essere completato in seguito.
L'apprendimento, però, non finisce così, ma continua durante l'utilizzo normale del sistema, che è in grado di imparare dagli errori, di ampliare il lessico riconosciuto e di perfezionare il modello di riconoscimento.

Conclusioni

Dopo una fase di apprendimento il sistema si è rivelato molto comodo che facile da usare, permettendo tra l'altro la possibilità di continuare ad usare sia la tastiera che il mouse. Si rivela molto utile in tutti quei casi in cui è necessario lavorare con il computer pur avendo le mani libere per fare qualche altra cosa (per esempio, un radiologo che detta il referto guardando la radiografia), oppure per tutte quelle situazioni nelle quali è possibile rimandare la correzione del testo dettato o in altro tempo o ad altra persona pur avendo la possibilità di dettare il testo velocemente. Sebbene sia possibile cominciare a lavorare subito è comunque consigliabile effettuare l'apprendimento prima di iniziare un uso intensivo, evitando così qualsiasi problema di riconoscimento.

N.B. Questo articolo è stato dettato con il sistema di dettatura VoiceType 3.0 di IBM.

Luigi Gangitano è raggiungibile su Internet tramite la redazione

Copyright © 1996 BETA. Tutti i diritti riservati.


Precedente Principale Sommario Informazioni Redazione Browser Successivo