documentation 关于GAE如何灵活处理请求,它说“一个实例可以同时处理多个请求”,但我不知道这到底意味着什么。
在开始处理初始请求之后,会不会有另一个请求(或3)发生在30秒之后(第一个请求完成一半),由同一个实例处理,或者它会触发自动缩放并旋转更多实例来处理这些新请求?这种情况假设第一个请求的CPU利用率仍然低于扩展CPU利用率阈值。
https://cloud.google.com/appengine/docs/flexible/python/runtime#recommended_gunicorn_configuration
听起来您已经看到可以指定CPU利用率阈值:
https://cloud.google.com/appengine/docs/flexible/python/reference/app-yaml#automatic_scaling
https://github.com/GoogleCloudPlatform/getting-started-python/blob/master/6-pubsub/app.yaml