Paper_Read/README.md
superlishunqin bcd77c7f6c README
2025-06-24 12:32:38 +08:00

44 lines
3.8 KiB
Markdown
Executable File
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 硕士毕业论文文献阅读库
本项目是为我的硕士毕业论文 **《融合情感的语音克隆技术研究及其在幼儿园语言教育中的应用》** 创建的专属文献阅读与管理仓库。
本仓库旨在系统性地整理、归档和总结与课题相关的核心学术论文,为研究工作提供坚实的理论支持和技术参考。主要关注以下领域:
* **语音合成 (Text-to-Speech, TTS)**
* **情感语音合成 (Expressive TTS)**
* **语音克隆 (Voice Cloning)**
* **语音识别 (Automatic Speech Recognition, ASR)**
* **相关技术在教育领域的应用**
---
## 📚 文献列表
下表记录了本仓库中已归档的论文,包含了其核心内容、阅读目的以及参考标题。
| 文件名 | 核心主题 | 阅读笔记 / 目的 | 论文标题 (参考) | 状态 | 链接 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| `2106.15561v3.pdf` | TTS技术综述 | 此综述详细介绍了基于神经网络的TTS技术用于构建对现代语音合成技术全景的理解。 | *A Survey on Neural Speech Synthesis* | 已归档 | [原文链接](https://arxiv.org/abs/2106.15561) |
| `s13636-024-00329-7.pdf` | 情感语音合成 | 此论文系统回顾了情感语音合成的方法、挑战和资源,与论文“融合情感”部分高度相关。 | *Deep learning-based expressive speech synthesis: a systematic review...* | 已归档 | [原文链接](https://asmp-eurasipjournals.springeropen.com/articles/10.1186/s13636-024-00329-7) |
| `Text_to_Speech_Synthesis_A_Systematic_Review_Deep_.pdf` | TTS架构与方向 | 此综述覆盖了深度学习TTS架构和未来研究方向为技术选型和未来展望提供参考。 | *Text to Speech Synthesis: A Systematic Review, Deep Learning Based Architecture and Future Research Direction* | 已归档 | [原文链接](https://www.researchgate.net/publication/364280141_Text_to_Speech_Synthesis_A_Systematic_Review_Deep_Learning_Based_Architecture_and_Future_Research_Direction) |
| `2006.04558v8.pdf` | 非自回归TTS模型 | 用于理解以FastSpeech为代表的非自回归模型如何解决“一对多”问题以及如何引入韵律等变化信息来提升合成质量与速度。 | *FASTSPEECH 2: FAST AND HIGH-QUALITY END-TO-END TEXT TO SPEECH* | 已归档 | [原文链接](https://paperswithcode.com/paper/fastspeech-2-fast-and-high-quality-end-to-end) |
| `2205.04421v2.pdf` | SOTA TTS模型 | 了解如何通过设计更强大的模型如NaturalSpeech和利用大规模语料库来实现与人类相媲美的合成效果这能帮助理解当前技术的天花板在哪里。| *NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality* | 已归档 | [原文链接](https://arxiv.org/abs/2205.04421) |
| `1806.04558v4.pdf` | 零样本/迁移学习TTS | 此论文讲述利用迁移学习技术构建一个能够生成任意说话人包括训练中未见过的说话人声音的文本到语音TTS系统。 | *Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis* | 已归档 | [原文链接](https://paperswithcode.com/paper/transfer-learning-from-speaker-verification) |
| `pone.0283440.pdf` | 实时语音克隆 | 此综述旨在提升语音克隆质量的实时系统。 | *Real-time zero-shot voice cloning with deep neural networks* | 已归档 | [原文链接](https://pmc.ncbi.nlm.nih.gov/articles/PMC10069766/) |
---
## 🔧 如何使用
本仓库遵循简单的文献管理流程:
1. 将下载的论文PDF文件放入项目根目录。
2. 使用 `git add <文件名.pdf>` 添加新文件。
3. 使用 `git commit -m "一句话总结论文核心内容或阅读目的"` 提交更改Commit信息将作为永久的阅读笔记。
4. 在本文献列表表格中更新条目。
5. 使用 `git push origin main` 将更改同步到远程仓库。
---
## 📝 未来阅读计划