在通用大模型(LLM)和通用语音识别模型(如 OpenAI 的 Whisper)不仅占据头条的今天,垂直领域的“小而美”模型正在悄然重塑企业级应用。近日,Google Health AI 团队发布了 [ MedASR ] —— 一款基于 Conformer 架构、专为医疗场景打造的开源权重语音转文本(Speech-to ...
该项目实现了一个说话人聚类系统,该系统通过处理音频文件来识别和聚类说话人,基于他们的声音特征。该系统利用各种脚本和配置来执行语音活动检测(VAD)、提取说话人嵌入向量,并聚类这些嵌入向量以生成说话人身份。最后,它将结果组织成一个说话人声纹库 ...
Mamba是一种新型的深度学习架构,在保持对序列长度近似线性扩展性的同时,提供了与Transformers相当的建模能力。《深入探索Mamba模型架构与应用》旨在帮助读者探索Mamba在不同领域实现卓越性能的潜力,并深入理解和应用这一新兴的模型架构。《深入探索Mamba ...
时间序列特征提取是数据科学工作流程中的关键环节,能够将原始时间序列数据转化为具有分析价值的特征表示。本文详细介绍 18 种专业的 Python 库,这些库可用于从时间序列数据中提取关键特征,支持数据科学家进行更深入的分析与建模。 时间序列特征提取的 ...
本项目是基于PaddlePaddle的声音分类项目,旨在实现对各种环境声音、动物叫声和语种的识别。项目提供了多种声音分类模型,如EcapaTdnn、PANNS、ResNetSE、CAMPPlus和ERes2Net,以支持不同的应用场景。此外,项目还提供了常用的Urbansound8K数据集测试报告和一些方言数据 ...