提升实例性能(热门话题、数据库大小和极端负载)

根据我的经验,目前没有任何方法能直接解决此问题,也不存在线性解决方案。事实上,将它们分离到不同的机器上并不能立即解决该问题。

我们也经历过类似的情况:当发生重大事件时(例如游戏活动,正如 @ljpp 所说),会出现严重的卡顿,并提示“站点极其繁忙,您正在以未登录身份查看”。这会导致整个站点性能下降,而不仅仅是该话题内的用户受到影响。

因此,我尝试了两种不同的方案:一种是独立部署,另一种是使用“大型机器”。但这两种方案都出现了类似问题。我的实例通过 Prometheus 进行监控,日志可通过 Grafana 等工具查看,因此我对硬件和容器的性能拥有非常细粒度的控制能力。我可以确认,无论您采取何种措施,问题依然会发生。

如果您在其后部署一台大型机器,或许能稍微延缓问题的出现,但最终仍会出现错误和会话中断,而且该机器的磁盘、CPU 或内存使用率几乎为零。这种情况在“默认安装”和“双容器安装”中均会发生。

使用不同机器时,问题依旧存在,无论这些机器是同一类型,还是分别配置为