increase wait time for llm backends

Merge pull request #52 from vast-ai/remove-sleeps-and-delays
Remove sleeps and delays
2025-11-03 16:21:56 -08:00 · 2025-10-30 11:53:39 -07:00 · 2025-10-30 11:27:35 -07:00 · 2025-10-30 10:39:46 -07:00 · 2025-10-29 18:02:17 -07:00 · 2025-10-29 11:36:46 -07:00
5 changed files with 25 additions and 22 deletions
@@ -66,6 +66,9 @@ class Backend:
    unsecured: bool = dataclasses.field(
        default_factory=lambda: bool(strtobool(os.environ.get("UNSECURED", "false"))),
    )
+    report_addr: str = dataclasses.field(
+        default_factory=lambda: os.environ.get("REPORT_ADDR", "https://run.vast.ai")
+    )

    def __post_init__(self):
        self.metrics = Metrics()
@@ -104,23 +107,19 @@ class Backend:

    #######################################Private#######################################
    def _fetch_pubkey(self):
-        command = ["curl", "-X", "GET", "https://run.vast.ai/pubkey/"]
-        result = subprocess.check_output(command, universal_newlines=True)
-        log.debug("public key:")
-        log.debug(result)
-        key = None
-        for _ in range(5):
-            try:
-                key = RSA.import_key(result)
-                break
-            except ValueError as e:
-                log.debug(f"Error downloading key: {e}")
-                time.sleep(15)
-        if key is None:
-            self._total_pubkey_fetch_errors += 1
-            if self._total_pubkey_fetch_errors >= MAX_PUBKEY_FETCH_ATTEMPTS:
-                self.backend_errored("Failed to get autoscaler pubkey")
-        return key
+        report_addr = self.report_addr.rstrip("/")
+        command = ["curl", "-X", "GET", f"{report_addr}/pubkey/"]
+        try:
+            result = subprocess.check_output(command, universal_newlines=True)
+            log.debug("public key:")
+            log.debug(result)
+            key = RSA.import_key(result)
+            if key is not None:
+                return key
+        except (ValueError , subprocess.CalledProcessError) as e:
+            log.debug(f"Error downloading key: {e}")
+        self.backend_errored("Failed to get autoscaler pubkey")
+       

    async def __handle_request(
        self,
@@ -315,10 +314,10 @@ class Backend:
                with open(BENCHMARK_INDICATOR_FILE, "r") as f:
                    log.debug("already ran benchmark")
                    # trigger model load
-                    payload = self.benchmark_handler.make_benchmark_payload()
-                    _ = await self.__call_api(
-                        handler=self.benchmark_handler, payload=payload
-                    )
+                    # payload = self.benchmark_handler.make_benchmark_payload()
+                    # _ = await self.__call_api(
+                    #     handler=self.benchmark_handler, payload=payload
+                    # )
                    return float(f.readline())
            except FileNotFoundError:
                pass
@@ -393,7 +392,7 @@ class Backend:
                        )
                        # some backends need a few seconds after logging successful startup before
                        # they can begin accepting requests
-                        await sleep(5)
+                        # await sleep(5)
                        try:
                            max_throughput = await run_benchmark()
                            self.__start_healthcheck = True
@@ -98,6 +98,7 @@ def call_text2image_workflow(
        endpoint=route_response["endpoint"],
        reqnum=route_response["reqnum"],
        url=route_response["url"],
+        request_idx=route_response["request_idx"],
    )
    
    # Build the payload for the worker request
@@ -82,6 +82,7 @@ def call_custom_workflow_for_sd3(
        endpoint=message["endpoint"],
        reqnum=message["reqnum"],
        url=message["url"],
+        request_idx=message["request_idx"],
    )
    workflow = {
        "3": {
@@ -43,6 +43,7 @@ backend = Backend(
            for error_msg in MODEL_SERVER_ERROR_LOG_MSGS
        ],
    ],
+    max_wait_time=600
 )


@@ -113,6 +113,7 @@ backend = Backend(
            for error_msg in MODEL_SERVER_ERROR_LOG_MSGS
        ],
    ],
+    max_wait_time=600
 )
Author	SHA1	Message	Date
Lucas Armand	c9d701e8d3	increase wait time for llm backends	2025-11-03 16:21:56 -08:00
Colter-Downing	ec2ac0a21a	Merge pull request #52 from vast-ai/remove-sleeps-and-delays Remove sleeps and delays	2025-10-30 11:53:39 -07:00
Abiola Akinnubi	2cde573c56	Merge pull request #48 from vast-ai/comfy-request-idx Added request_idx to comfy auth_data	2025-10-30 11:27:35 -07:00
Abiola Akinnubi	b2e4a5db0c	Merge pull request #49 from vast-ai/unsecure_report_addr Added caller for REPORT_ADDR to backend.py to use the report add	2025-10-30 10:39:46 -07:00
Abiola Akinnubi	7437028cb2	Added caller for REPORT_ADDR to backend.py	2025-10-29 18:02:17 -07:00
Colter Downing	7c0f316eeb	leave the env vars alone!	2025-10-29 11:36:46 -07:00
Colter Downing	b4025a744f	remove env var writing	2025-10-29 09:58:09 -07:00
Colter Downing	d190308329	removed 5 sec sleep and warmup request on load	2025-10-29 09:57:46 -07:00
Abiola Akinnubi	944f83fc03	Removed extra spaces from operator assignment	2025-10-28 21:03:52 +00:00
Abiola Akinnubi	f56bbc0ebe	Added request_idx to comfy auth_data	2025-10-27 03:17:06 +00:00