Open – source платформа по синтезу речи и распознаванию речи и образов для образовательных целей

Что представляет из себя программа?

Программное обеспечение представляет из себя набор 3-х модулей, которые лежат в основе нашего решения:

  • Распознавание образов
  • Распознавание речи
  • Синтез речи
  • В 2015 г. мы начали работу над платформой, которая могла бы лечь в основу элементарного робототехнического интерфейса. Мы поставили перед собой задачи: объединить распознавание голоса и образов с синтезом голоса.

    Скачать программу Endurance chatbot platform ver. 4.0

    Описание модулей

    Синтез речи

    Для выбора модуля по синтезу речи проблем мы использовали стандартный SAPI от Microsoft. Данный функционал с различными языковыми наборами распространяется бесплатно.

    Распознавание образов

    Что касается распознавания образов, то здесь задача более сложная, т.к. необходимо не просто распознавание картинки или лица, а распознавание образа в потоковом видео, идущем от камеры. Здесь важен выбор используемых программой ресурсов. Если для компьютера это не имеет значения, то для планшета это принципиально, так как программа должна работать эффективно и не «подвешивать» систему.
    Для данного решения мы использовали открытую библиотеку OpenCV. Для ускорения работы сначала ведется поиск любого лица определенного размера в области видимости. Поиск идет с помощью каскадов Хаара и готового обученного шаблона, входящего в состав библиотеки OpenCV.
    Затем найденное лицо вырезается, нормализуется (приводится к единому стандарту) по размеру и по освещенности и приводится к черно-белому варианту.
    После чего используется распознавание конкретного человека с помощью готового алгоритма FaceRecognizer, обученного на нескольких изображениях одного и того же лица, снятого с разных ракурсов.

    Распознавание голоса

    Мы используем Google Speech API, поддерживающий не более 50 запросов в сутки (около 15 минут распознавания). Для open – source решения данное решение отлично подходит.
    У Google хорошее качество распознавания. С расстояния нескольких метров распознавание происходит очень качественно.
    распознование_голоса

    Функционал программы

    При включении программы она первым делом находит лицо в зоне видимости камеры. Если видит лицо впервые (его нет еще в базе данных), просит написать и сохранить имя. После чего она это лицо всегда распознает.
    Потом программа переходит в режим распознавания речи: слов, предложений или команд. Распознав произнесенную человеком фразу, команду, программа ищет в базе данных ответ и произносит его. Чтобы программа знала, что ответить, необходимо заранее прописать ответы в базу данных. Пока это выглядит как обычный текстовый файл.

    (
    Tim = Добрый день, Тим. Мы приветствуем Вас на нашей конференции.

    Steve = Спасибо, что пришли, Стив, вас сейчас встретят. Хорошего дня!

    35310204 = Срок погашения Вашего кредита до 30 числа следующего месяца.

    )

    Важно, что здесь идет речь не об искусственном интеллекте, а о простом интерфейсе распознавания образов и речи и синтеза речи для образовательных целей для того, чтобы создать на базе той или иной роботизированной платформе готовое решение.

    Возможности использования программы

    Их можно использовать для создания некой полноценной роботизированной платформы, которые существуют сейчас в виде электронных киосков.
    На наш взгляд, эта программа будет выглядеть более элегантно, если использовать ее совместно с такими решениями, как DIY SelfieBot
    Теоретические примеры использование программы могут быть самыми разнообразными.

    Скачать программу Endurance chatbot platform ver. 4.0