[Feature]增加自定义模型上下文长度功能

描述

因显存容量问题，目前本地部署的模型大部分都会限制token长度，最大token长度通常设定为8192及以下。在当前版本中，由于无法限制上下文长度，导致在聊天记录积累到一定程度后，调用llm接口会提示超过模型最大token数量，导致调用失败。通过reset重置llm也无法解决，只能通过手动进入容器删除data_v3.db文件解决。

使用场景

在配置界面增加自定义模型上下文功能；另外，建议增加更多debug信息，以监控token内容

你愿意提交PR吗?

是的, 我愿意提交PR!

Code of Conduct

我已阅读并同意遵守该项目的行为准则。