CEX.io

воскресенье, 12 июня 2011 г.

Движки с открытым исходным кодом для синтеза голоса

MARY - платформа с открытым исходным кодом написанная на Java, для много языкового синтеза речи. Первоначально система была разработана, как совместный проект DFKILanguage Technology lab и институтом фонетики. В настоящий момент проект ведется DFKI.
В настоящее время платформа поддерживает много языков, включая русский. Есть инструменты автоматизации добавления других языков и других голосов, а также создания выбранных модулей.

OpenEars - iOS библиотека с открытым исходным кодом для двустороннего синтеза/распознавания речи на английском для iPhone и iPad устройств, которая использует CMU Pocketsphinx, CMU Flite, и MITLM библиотеки.

EPOS - независимая от языка и основанная на правилах система преобразования текста в речь (TTS) созданная, в первую очередь, как инструмент для исследования. EPOS является (или пытается быть), методом описания и обработки независимым от обрабатываемого языка и вычислительной среды.

gnuspeech - система представляющая собой расширяемый пакет артикулятивного синтеза в реальном времени на основе правил. т.е. он конвертирует текстовые строки в фонетические описания, опираясь на орфоэпический словарь, правила запись-звук, ритм и интонацию моделей; преобразует фонетическое описание в параметры для низкоуровневого артикуляционного синтезатора, и использует это для управления артикуляционной моделью голосового тракта человека, которая затем производит вывод на стандартное устройство вывода звука используемого в GNU/Linux. Представляет собой целый набор ПО, подходящего для психо-акустических и лингвистических исследований.

eSpeak(ru) - небольшой синтезатор речи на английском и других языках, для Linux и Windows. Используется формантный метод синтеза, который позволяет многим языкам иметь компактный размер. Движок может работать в связке с MBROLA, что обеспечивает возможность использовать голосовые библиотеки этого проекта как составную часть самого eSpeak. Это позволяет ещё больше расширить список поддерживаемых языков для синтезирования речи по тексту.

Festival(ru) - система синтеза речи, созданная в исследовательских целях. Проект начат в апреле 1996 года в Центре изучения речевых технологий университета Эдинбурга, Шотландия. Festival развивается в духе Open Sources. Он написан на С++, имеет собственный командный интерпретатор Scheme (SIOD), хорошо документирован. Можно подключать языковые базы MBROLA

Flite(festival-lite) - небольшой и быстрый синтезатор, созданный в университете Карнеги-Меллона с участием авторов Festival. Это - несколько измененный и облегченный Festival, предназначенный для голосов, построенных с помощью FestVox (инструмент для автоматизации создания нового голоса).

FreeTTS - синтезатор речи созданный на языке программирования Java. Синтезатор создан в Sun Microsystems командой лаборатории синтеза речи и основанный на движке Flite.

EULER - исследовательский R&D проект созданный исследовательской группой синтеза речи  Бельгийского политехнического университета Монса. С целью предоставления свободного доступа, простоты использования и легкой расширяемости общего многоязычного TTS движка для Windows95/NT, Mac-OS, и UNIX/Linux, который будет аккумулировать результаты существующих многоязычных проектов и проектов обработки речи. Любопытно, что проект пытается доказать ошибочность высказывания Леонарда Эйлера, по поводу того, что невозможно создать машину имитирующую речь и артикуляцию. Скачать можно отсюда.

открыты для использования в бинарном виде

MBROLA(ru) - это особый алгоритм синтеза речи, на основе которого создано множество
различных программных продуктов с включением технологии Text To Speech,
распространяемых без взимания какой-либо платы, однако не как Open Source,
а лишь в бинарной форме. (отсутствует поддержка русского языка)

языковые web проекты


Google TTS API - неофициальный движок синтеза речи от google. Для синтеза любой фразы, на любом языке достаточно отправить HTTP GET запрос на сервер google, в следующем фомате: [http://translate.google.com/translate_tts?tl=ru&q=text] попробуйте!.

Xalts - свободное, с открытым исходным кодом, общение с помощью картинок. К каждому визуальному образу, привязывается озвученный пример на разных языках. Проект призван помогать в изучении языков и снимать языковой барьер.


речевые кодеки

speex - кодек специально разработанный для сжатия речи.

Комментариев нет: