Gestión de ASR

Esta sección brinda información sobre cómo administrar su sistema de menús de IVRCerrado Menú telefónico automatizado que permite a las personas que llaman interactuar a través de comandos de voz, entradas de teclas o ambos, para obtener información, enrutar una llamada de voz entrante o ambos. mejorado para el reconocimiento automático de voz (ASR) de CXone.

Una comprensión existente del reconocimiento de voz automático y el motor del ASR de Nuance es crucial para crear un sistema efectivo de IVR mejorado por ASR. La documentación completa para usar este motor está disponible en Nuance.

Afinación

Permisos necesarios: Vista Informe de sintonización del reconocimiento automático del habla

Ajustar le permite mejorar su sistema de ASR con base en los datos sobre cómo se están realizando actualmente las acciones del ASR Studio. Es una parte importante del desarrollo y mantenimiento de su sistema de ASR.

El Informe de Ajuste del ASR proporciona información que puede utilizar en su proceso de ajuste. Proporciona índices de respuesta para las acciones del ASR que se activan en un script y le permite ver una lista de enunciados que no pudo reconocer el ASR. Este informe se desglosa por acción y cada configuración de rama de confianza.

si activa el ajuste, puede expandir estas secciones y escuchar los archivos de audio grabados de ese segmento. Esto le brinda información sobre las respuestas que no pudo comprender el sistema del ASR. Puede agregarlos a sus archivos de gramática y listas de frases.

Cuando esté ajustando su sistema ASR puede:

  • Ver el informe de Ajuste del ASR y evaluar los datos ahí presentados.
  • Escuchar las grabaciones del informe del Ajuste del ASR para comprender qué es lo mismo respecto de las interacciones.
  • Identificar lo que dicen sus contactos y cómo lo dicen.
  • Actualizar los archivos de gramática en función de lo que aprenda.
  • Ajustar los valores de confianza, de ser necesario.

Habilitar el Ajuste

Si su IVR captura cualquier dato PII (Información de identificación personal), quizá desee elegir cuidadosamente qué secciones grabar de su IVR durante el ajuste. Esto le ayudará a evitar problemas con la captura de datos personales. Por ejemplo, si tienes una acción Asrdigits que recopila un número de identificación confidencial, puede iniciar el ajuste después de esa acción. Esto evitaría que se registre el número de identificación.

Deshabilite el ajuste cuando haya terminado de ajustar activamente su IVR. Dejar la función de ajuste activada provoca una inmensa hinchazón y estrés en el servidor, ya que cada interacción crea un nuevo archivo de audio.

  1. En Studio, abra su script del ASR y agregue una acción Voiceparams. Debe ubicarse antes de las acciones del ASR con las que desee trabajar durante el ajuste.
  2. Si el único propósito de esta acción en su script es activar y desactivar el ajuste, cambie el Caption para indicar este propósito. Por ejemplo, Tuning On and Off Si también usa la acción para cambiar el idioma de su IVR, quizá necesite una leyenda diferente.
  3. En la acción Voiceparams, ponga la propiedad ASRTuningEnabled en True.
  4. Cuando haya terminado de ajustar, ponga la propiedad ASRTuningEnabled en False.

Parámetros de ajuste

Puede asignar parámetros de ajuste específicos del script para sus acciones de ASR Nuance. Para hacerlo, defina un objeto de datos dinámicos en una acción Snippet. Llame al objeto nuanceTuningParamsJson. Su valor debe ser una cadena JSON válida que contenga los parámetros de Nuance que se definirán a partir de sus valores predeterminados. Por ejemplo:

DYNAMIC asrParams
ASSIGN asrParams.sensitivity = "87"
ASSIGN asrParams.Speech_Complete_Timeout = "1000",
ASSIGN asrParams.Speech_Incomplete_Timeout = "1000"
ASSIGN asrParams.No_Input_Timeout = "1000"
ASSIGN global:nuanceTuningParamsJson = "{asrParams.asjson()}" 		

Si se configura cualquiera de los parámetros con valores inválidos, se reemplazará el valor inválido con el predeterminado para ese parámetro, y se devolverá una variable que se llama invalidParamsList que listará los valores que se cambiaron.

Las siguientes tablas presentan los parámetros de ajuste que se admiten en Studio:

Nuance Parámetro Descripción Studio Apoyo
Speech_Complete_Timeout Cuanto tiempo para esperar antes de concluir que la persona llamando ha terminado de hablar.

Se ofreció apoyo usando nuanceTuningParamsJson.

Predeterminado: "Speech-Complete-Timeout" : "0"

Speech_Incomplete_Timeout Duración del silencio para determinar que las personas que llaman han terminado de hablar.

Se ofreció apoyo usando nuanceTuningParamsJson.

Predeterminado: "Speech-Incomplete-Timeout": "1500"

No_Input_Timeout

Cuánto tiempo esperar por un discurso después de que finalice una indicación.

Nota: Este parámetro empieza a contar cuando se empieza a reproducir el aviso. Esto puede significar que el script alcanza el tiempo límite muy pronto. La propiedad TimeoutSeconds de la ASR acción empieza a contar cuando finaliza el aviso.

Se ofreció apoyo usando nuanceTuningParamsJson.

Predeterminado: "No-Input-Timeout": "7000"

sensitivity Sensibilidad del detector de voz al buscar voz. Predeterminado: 50 (escala de 0-100)

Los siguientes parámetros Nuance no son compatibles con CXone porque la acción Studio Asr reproduce mensajes en lugar de Nuance.

Parámetro de matiz Descripción Valor por defecto
swiep_suppress_barge_in_time Desactiva la intrusión brevemente al comienzo de un mensaje. 0 (sin retraso)
swiep_in_prompt_sensitivity_percent Controla qué tan alto deben hablar las personas que llaman para interrumpir las indicaciones (irrumpir) y detectar el habla. 50 (porcentaje)
swirec_barge_in_mode Establece modificaciones de reconocimiento especiales en el reconocedor. normal

Archivos de gramática

Los archivos de gramática le permiten enumerar muchos enunciados posibles que pudiera decir un contacto en respuesta a un mensaje. El motor del ASR  de Nuance intenta hacer coincidir la respuesta del contacto con una entrada en el archivo de gramática. Debido a que el motor del ASR debe encontrar una coincidencia para todo el enunciado, los archivos de gramática brindan a Nuance una lista enfocada de enunciados que elegir.

Un archivo de gramática es una de las formas más efectivas de aumentar la precisión de su IVR mejorado con ASR. ASR analiza las interacciones humanas reales, por lo que hay innumerables opciones que debe reconocer el sistema. Esto hace que un sistema ASR sea mucho más complejo que uno que solo responde a tonos de DTMFCerrado Tonos de señalización que se generan cuando un usuario presiona o toca una tecla en el teclado de su teléfono.. El DTMF reconoce 12 tonos, lo que significa que hay 12 opciones que debe reconocer el sistema del IVR. El habla humana contiene exponencialmente más opciones y combinaciones de sonidos, palabras y frases que debe reconocer el sistema del ASR.

Por ejemplo, un contacto podría responder a un mensaje que le pide su número de miembro con esta oración: "Mi número de miembro es 123456789". Un script mejorado con ASR reconocería la frase completa, pero fallarían otros scripts cuando el contacto comenzara con "Mi número de miembro es..." en vez de decir únicamente el número.

Precisión mejorada

Los archivos de gramática mejoran la precisión de los sistemas de ASR. Puede agregar palabras y frases a un archivo de gramática que sea probable que digan los contactos además de la información esperada. Por ejemplo, si el mensaje le pide al contacto un número de miembro, puede agregar frases al archivo de gramática como "mi número de miembro es", "Creo que es", "espera, déjame encontrar mi tarjeta", etc.

La lista enfocada en un archivo de gramática ayuda a limitar el número de permutaciones en los enunciados. Cuanto más larga sea una respuesta esperada, podría haber más respuestas posibles. Los archivos de gramática ayudan a limitar el alcance de las posibles respuestas al incluir las que son comunes y las que tienen más probabilidades de utilizarse.

No necesita pensar en todas las respuestas posibles que se pudieran agregar. Use el proceso de ajuste para aprender cómo hablan realmente los contactos. Puede agregar información a sus archivos de gramática en función de lo que aprende mientras ajusta. La creación de archivos de gramática debe ser un proceso iterativo ya que los contactos usan el sistema y usted aprende de los casos en los que el ASR no comprende las respuestas.

Variaciones de pronunciación

Al ajustar su sistema de ASR, preste atención a las variaciones en la pronunciación. Puede ser útil agregar varias entradas a sus listas de frases y archivos de gramática con varias grafías fonéticas.

Esto puede ser especialmente útil si el mensaje puede provocar respuestas que normalmente se pronuncian mal o tienen pronunciaciones alternativas. Un ejemplo sera "pior" (por peor). Podría agregar las entradas fonéticas en adición a "peor": "pior" o "peor".

Soporte de múltiples idiomas

ASR soporta múltiples idiomas. Las gramáticas son específicas del idioma. Haga referencia al nombre del idioma en el encabezado del archivo para que el motor busque específicamente enunciados en ese idioma.

En cualquier archivo de gramática, las entradas deben usar el mismo alfabeto, estructura de oraciones, etc., que el idioma al que se hace referencia. Por ejemplo, si usara la palabra "piñata" para una gramática específica del español, su entrada debe usar el símbolo de tilde (~) sobre la "n" para que la entrada sea "piñata" y no "pinata".

ASR frente al Procesamiento del Lenguaje Natural

El ASR y los archivos de gramática pueden crear un resultado similar a un Procesamiento de Lenguaje Natural (PNLCerrado Estado que permite a un agente completar los requisitos laborales después de finalizar una interacción), pero no son lo mismo. El ASR es como un puente entre el DTMF y el NLP. No está diseñado para capturar todo, pero puede capturar la mayoría de las cosas. Es por esta razón que son tan importantes los archivos de gramática. Cuanto mejor sea el archivo de gramática, más respuestas podrá reconocer correctamente el sistema de ASR.

Datos clave sobre los archivos de gramática

  • Los archivos de gramatica se deben usar para la mayoria de las acciones Studio ASR.
  • Las acciones Asralphanum, Asrcurrency, Asrdate, Asrdigits, Asrnumber, Asrtime y Asryesno incorporan archivos de gramática. Puede crear y utilizar sus propios archivos de gramática además de los integrados.
  • Las acciones Asr y Asrmenu no incorporan archivos de gramática. Usted debe crear el suyo propio para estas acciones.
  • Las acciones Asrcompile y Asrsql le permiten crear archivos gramaticales personalizados a partir de una base de datos existente.
  • Los símbolos no pueden ser usados en un enunciado de un archivo de gramática, pero pueden ser devuelto con el valor.
  • La creación de archivos de gramática debe ser un proceso iterativo. Cada vez que ajuste su sistema de ASR, descubre nuevos elementos que agregar a sus gramáticas.

Ejemplo de Archivos de gramática

Se incluyen tres archivos de gramática de ejemplo que puede descargar:

Color_Grammar_Example.grxml (en un archivo ZIP)

Digits_Grammar_Example.grxml (en un archivo ZIP)

Format_Grammar_Example.grxml (en un archivo ZIP)

Estos ejemplos ilustran la estrategia de reglas para crear la estructura de un archivo de gramática. Este enfoque utiliza tres reglas: un prefijo, la gramática principal y un sufijo. Los prefijos son enunciados que las personas dicen normalmente antes de dar la parte principal de la información, como "es,” "eh," o "creo que es." Los sufijos son pequeñas adiciones al final de una expresión, como "supongo" o "tal vez". La regla del medio es la gramática real, donde puede definir todas las entradas posibles para los datos que desea recopilar, como colores, números o modelos.

Parámetros y configuración del ASR

Esta sección proporciona información sobre algunos parámetros y configuraciones importantes del ASR.

Parámetros de confianza

Cuando el motor del ASR reconoce una frase pronunciada por una persona, devuelve un porcentaje que indica cuán seguro está en la coincidencia de un enunciado con el elemento en la lista de frases o el archivo de gramática. El porcentaje de confianza pueden ser utilizados para enrutar las llamadas a diferentes ramas en su ASR-enabled script IVR.

Los niveles de confianza que se utilizan en el CXone son:

  • Alto: Confianza alta; normalmente 75% o más. Define el valor de confianza con la propiedad HighConfidence en las acciones del ASR. El contacto puede enrutarse a través de la rama OnHighConfidence sin ninguna otra confirmación del enunciado.
  • Medio: Confianza de rango medio, entre alto y mínimo. El contacto puede enrutarse a través de la rama OnMedConfidence y se le solicita que confirme el enunciado. Esta categoría no tiene una propiedad. Esta rama puede enrutar todo lo que se encuentre entre los niveles configurados de mínimo y alto.
  • Mínimo: El nivel mínimo aceptable de confianza. Define el valor de confianza con la propiedad MinConfidence en las acciones del ASR. Este valor define el número para el rango inferior de la rama OnMedConfidence.
  • Sin confianza: La expresión fue irreconocible y no puede interpretarla el motor ASR. Cae en este rango cualquier cosa que sea menor que el valor MinConfidence. El contacto puede enrutarse a través de la rama OnNoConfidence y se le solicita que repita el enunciado.

La mayoría de las acciones del ASR tienen ramas para diferentes niveles de confianza. Esto le permite personalizar la experiencia del usuario y lidiar con la variabilidad en la precisión. Las variables de confianza son variables del sistema y, por lo tanto, no aparecen en un rastreo de un script a menos que habilite las variables del sistema para que aparezcan en el rastreo.

La confianza se ve afectada por factores como el ruido de fondo o las conversaciones, los acentos o la ortografía de las entradas del archivo de gramática.

MAX ofrece un método de personalización de sensibilidad si se le asigna a un agente una habilidad Conexión personal a través de la configuración de umbral de voz para ayudar en medir y filtrar los niveles de ruidos al fondo, la detección de voz del agente, etc.

Estado de tiempo de espera

El tiempo que la acción detectará un enunciado e intentará encontrar una coincidencia; la duración predeterminada es 10 segundos.

Configuración de tiempo de espera entre voces

Es la cantidad de tiempo que esperará el sistema después de que deje de hablar un contacto. El sistema espera para asegurarse de que no continúe hablando el contacto. Es similar al ajuste InterDigitTimeout para el DTMFCerrado Tonos de señalización que se generan cuando un usuario presiona o toca una tecla en el teclado de su teléfono..

Por ejemplo, al indicar un número de cuenta, los contactos generalmente agrupan los números con pausas intermedias: "123 <pausa> 456 <pausa> 789 <pausa>". La <pausa> en el ejemplo precedente representa la espera de intervoice. El valor predeterminado es 3 segundos. Al crear o ajustar un script, recuerde tener en cuenta el tiempo que tarda el contacto en hablar, el tiempo de espera entre voces y una pequeña cantidad de tiempo para el procesamiento. Pueden acumularse demasiadas configuraciones de tiempo de espera una encima de la otra para generar una acción fallida.

Errores

Error Descripción
Falla de inicio de ASR El servidor de media no es capaz de contactarse con el servidor ASR. Esto podría causar por varias razones, incluyendo la falla de servicio ASR o los puertos que no están abiertos.
El error de archivo de gramática: la gramática no podría compilarse. Cheque su gramática por errores de sintaxis por favor. Por lo general, generado por problemas del XML con la gramática.
La falla URL. El Reconocedor no pudo ingresar a la URL especificada. La gramática no existe, no tenia la referencia correcta, o el servidor de archivo no se pudo alcanzar.
ASRRESULTADO Determina si se detectó el ASR.
ASRCONF El valor de confianza de ASR resultante, 0-100.
CÓDIGO DE CAUSA DE COMPLETACIÓN Indica la conclusión del ASR.
MESNAJEDEERRORASR Una descripción textual del error según lo informado por Nuance.
ASRSTATUSCODE Indica el estado con uno de los siguientes valores:
    ASR_STATUS_ESPERA= 100 (TCP abierto todavía está esperando)
  • ASR_STATUS_OK = 200
  • ASR_STATUS_DTMF = 298
  • ASR_STATUS_RECOGNITION_FAILED = 299
  • ASR_STATUS_MALFORMED_CONFIDENCE_RESULT = 300
  • ASR_STATUS_CLIENT_ERROR = 400
  • ASR_STATUS_SERVER_ERROR = 500
  • ASR_STATUS_SERVER_ESTABLISHMENT_FAILED = 590
  • ASR_STATUS_SERVER_SELECT_WSAEINTR = 591
  • ASR_STATUS_SERVER_CLOSED_TCP_CONNECTION = 592
  • ASR_STATUS_SERVER_TCP_RECV_FAILED = 593
  • ASR_STATUS_NO_RELAY_LINE_AVAILABLE = 594
  • ASR_STATUS_SERVER_TCP_OPEN_TIMED_OUT = 595
  • ASR_STATUS_SERVER_RESPONSE_TIMED_OUT = 596
  • ASR_STATUS_MAX_SESSIONS_EXCEEDED = 597
  • ASR_STATUS_DUPLICATE_ENABLE_REQUEST_ERROR = 598
  • ASR_STATUS_INTERNAL_ERROR = 599
  • ASR_STATUS_STOPPED_BY_MEDIA_CHANNEL = 998