Решил поделиться с вами своим последним достижением, которым я очень горжусь. Я разработал бота Polina Voice Messages Recognizer, и хотел бы пригласить вас принять участие в его тестировании.
Этот бот расшифровывает голосовые сообщения в Telegram. С помощью интеграции с ChatGPT он также предоставляет краткое содержание каждого голосового сообщения всего в одном-двух предложениях. Это позволяет быстро понять основную мысль сообщения, не тратя время на прослушивание каждого длинного аудио.
Бот предлагает два варианта использования:
1) Добавьте его в ваши групповые чаты. Бот будет обрабатывать все голосовые сообщения, поступающие в группу, и автоматически предоставлять краткое резюме под каждым из них. Это позволит вам быть в курсе обсуждения, не тратя время на прослушивание длинных голосовых сообщений. Вы сможете присоединиться к разговору только тогда, когда вам это удобно и необходимо.
2) Можете отправлять аудио сообщения боту в личных чатах из любых других чатов, будь то группы, каналы или просто переписка с вашими друзьями.
Буду рад любым вашим отзывам, замечаниям и идеям по развитию проекта.
А, и еще, забыл. Бот абсолютно бесплатный :)
P.S. Краткое содержание голосового сообщения бот отдает только если сообщение больше 250 символов, иначе смысла нет пересказывать и так короткое сообщение.
На лавочке сидит пара, обсуждая свои сексуальные фантазии и пытаясь намекнуть друг другу на свои желания, используя невербальные сигналы и подразумеваемую любовь.
Добавлено спустя 03 минуты 58 секунд
Кстати, краткое содержание сообщения бот отдает только когда исходное сообщение больше 200 символов, потому что нет смысла и так краткое сообщение пересказывать.
молодец, на чем писал, какие api использовал, кроме гпт)
как практика и и тренировка отличная, кто будет использовать хз, есть же встроенный от телеги распознаватель, а сервер сколько выдержит запросов?)
На старте, для преобразования голоса в текст я выбрал Yandex SpeechKit, но после некоторых тестов выяснилось, что аналогичный сервис от OpenAI справляется лучше: нет ограничения в 30 секунд для аудиофайлов (поэтому не нужно резать длинные войсы на фрагменты, из-за чего некоторые слова терялись из распознанного текста, так как попадали на конец/начало фрагмента), неплохо расставляет пунктуацию (Яндекс отдает неразмеченный текст) и самое важное - он кратно дешевле.
То есть отвечая на Ваш вопрос, используется интеграция с одним API: OpenAI. Использую модель whisper для speech-to-text и gpt-3.5-turbo для получения краткого содержания текста.
Самого бота написал на PHP + микрофреймворк Laravel/Lumen
По нагрузке: пока что в один поток неплохо сообщения разгребаются, если будет большая нагрузка, буду идти в сторону очереди и распределения задач между воркерами.
И насчет premium - и да, и нет. Я писал в своей статье на vc
Почему нужен бот, если в премиум-подписке Telegram уже есть функция распознавания аудио? Давайте объясню на примере группы или чата. Если вы зайдете вечером и увидите, что днем там была активная дискуссия с более чем 50 сообщениями, включая около 15 голосовых сообщений продолжительностью от 2 до 5 минут, вам придется кликать на каждое из них и ждать, пока Telegram сделает расшифровку (что может занять некоторое время). Вы не сможете быстро проскролить чат и уловить основную суть, пробегая глазами переписку на скорую руку. Когда в группу добавлен бот, вы сможете прочитать краткое содержание всех сообщений и мгновенно включиться в разговор.