AI开源

AnyText

多语言视觉文本生成和编辑工具，它基于扩散模型，能够在图片中生成或编辑文字

OpenVoice

一种实用性极强的即时仿声技术，只需要使用来自目标发言人的短音频，就可以模仿他们的声音，并以此生成各种语言的语音

Jan

一个帮助你在本地运行开源大模型的程序，支持Windows、Mac和Linux多平台

VoiceStreamAI

一个可以自己托管的 Whisper 解决方案，服务端是 Python，客户端是 JS，基于 WebSocket 实时通信，可以做到语音的实时传输和文本转换。

Lit-GPT

快捷微调LLM

GPT-Pilot

你的全能AI开发助手

DeepLX

一个方便开发者使用的工具，它利用DeepL的免费服务，提供了一个本地API，让开发者可以轻松地集成到他们的项目中

PASD

一个功能强大的开源图像处理工具，它能够实现真实感图像的超分辨率和个性化的风格化

ComfyUI Portrait Master

一款专业的人物肖像提示词生成工具

StirlingPDF

一个本地的PDF处理工具，其界面为Web UI，支持Docker部署。

AutoCaption

自动为视频生成高亮字幕

Rope

换脸工具

OpenSaaS

一个免费的、开源的、全栈的SaaS（软件即服务）启动套件，适用于React + NodeJS

chatbot-ui

一个开源的聊天用户界面，基于OpenAI聊天模型搭建的高级聊天机器人套件

StreamDiffusion

一种专门为实时图像生成服务设计的扩散模型管道，显著地提升了实时图像生成的性能。

Amphion

一个开源工具包，可实现语音、声音和歌唱功能

macOSpilot

Mac 上的一个多模态 AI 助手，能支持语音和截图，借助 GPT-4V 的多模态能力，可以基于当前屏幕截图和指令可以回复问题。

CopilotKit

一个为React开发者提供强大AI集成能力的工具集，通过简化AI功能的集成过程，使得创建交互式和智能的Web应用变得更加容易。

clone-voice

一个声音克隆工具，可使用任何人类音色，将一段文字合成为使用该音色说话的声音，或者将一个声音使用该音色转换为另一个声音。

AnythingLLM

一个具有高度定制化和隐私控制的聊天型人工智能，适用于各种规模的企业

chroma

为用户提供可在电脑端和手机端使用的嵌入工具。这些工具能够帮助用户创建、训练和部署机器学习模型，以解决各种实际问题

TaskWeaver

主要用于数据分析领域，可以将用户需求转换为可执行代码

pdf2htmlEX

一个非常实用的PDF转HTML工具，可以帮助用户轻松地将PDF文件转换为可在网页浏览器中查看的格式。

Real-ESRGAN

一个用于图像和视频修复的应用程序，它使用ESRGAN模型进行训练，该模型使用合成数据进行图像和视频的恢复

draw-fast

一个实时协作绘图工具，用户可以使用各种绘图工具绘制图形，并与其他人进行实时协作

DeepFace

一个强大且易于使用的面部识...

声音克隆工具

一个带web界面的声音克隆工具，使用你的音色或任意声音来录制音频

GitHub中文排行榜

帮助你发现优秀中文项目，可以无语言障碍地、更高效地吸收优秀经验成果

Video-LLaVA

一个基于深度学习的视频超分辨率（SR）和视频增强（VE）框架，由北京大学元培学院的研究团队开发。

RealtimeTTS

在文本输入的同时立即开始语音合成，无需等待整个文本输入完毕。

最新文章