Make prefilling return first token for loadgen integration (#143)

sixiang-google · web-flow · commit 50a6d10cf36a · 2024-07-10T13:21:46.000-07:00
* Make prefilling return first token for loadgen integration

* minor fix and lint

* enable passing of max_decode_length as a flag
diff --git a/benchmarks/prefill_offline.py b/benchmarks/prefill_offline.py
@@ -82,7 +82,7 @@ def prefill_benchmark(tokens_list, engine, params, warmup):
     # pylint: disable-next=all
     warmup_text = "warmup" if warmup else "execute"
     it = time.time()
-    prefill_result = engine.prefill(
+    prefill_result, _ = engine.prefill(
         params=params,
         padded_tokens=prefill_tokens,
         true_length=len(prefill_tokens),
diff --git a/benchmarks/run_offline.py b/benchmarks/run_offline.py
@@ -43,7 +43,7 @@ def run_prefill_time(engine, params, decode_state, seqlen):
   )
 
   for _ in range(3):
-    prefill_result = engine.prefill(
+    prefill_result, _ = engine.prefill(
         params=params, padded_tokens=tokens, true_length=true_length
     )
     decode_state = engine.insert(
@@ -53,7 +53,7 @@ def run_prefill_time(engine, params, decode_state, seqlen):
   nums = 5
   start = time.perf_counter()
   for i in range(nums):
-    prefill_result = engine.prefill(
+    prefill_result, _ = engine.prefill(
         params=params, padded_tokens=tokens, true_length=true_length
     )
     decode_state = engine.insert(
diff --git a/deps/JetStream b/deps/JetStream
@@ -1 +1 @@
-Subproject commit 26872c3c6e726f52f5bac1cb63e60a9a2a0bbe8a
+Subproject commit 69ce8a2646ac32bea9194019078248b49e69728e
diff --git a/jetstream_pt/config.py b/jetstream_pt/config.py
@@ -31,6 +31,7 @@
 flags.DEFINE_string("size", "tiny", "size of model")
 flags.DEFINE_bool("quantize_kv_cache", False, "kv_cache_quantize")
 flags.DEFINE_integer("max_cache_length", 1024, "kv_cache_quantize")
+flags.DEFINE_integer("max_decode_length", 1024, "max length of generated text")
 flags.DEFINE_string("sharding_config", "", "config file for sharding")
 flags.DEFINE_bool(
     "shard_on_batch",
@@ -173,6 +174,7 @@ def create_engine_from_config_flags():
       batch_size=FLAGS.batch_size,
       quant_config=quant_config,
       max_cache_length=FLAGS.max_cache_length,
+      max_decode_length=FLAGS.max_decode_length,
       sharding_config=sharding_file_name,
       shard_on_batch=FLAGS.shard_on_batch,
       ragged_mha=FLAGS.ragged_mha,
diff --git a/jetstream_pt/engine.py b/jetstream_pt/engine.py
@@ -97,7 +97,8 @@ def __init__(
     jax.config.update("jax_enable_x64", False)
 
     self.prefill = jax.jit(
-        self.prefill, out_shardings=self.get_prefix_destination_sharding()
+        self.prefill,
+        out_shardings=(self.get_prefix_destination_sharding(), None),
     )
     self.insert = jax.jit(
         self.insert,
@@ -243,7 +244,7 @@ def prefill(
       existing_prefix: Optional[Prefix] = None,
       padded_tokens: PrefillInputs,  # PrefillInputs[jax.Array],
       true_length: int,
-  ) -> Prefix:
+  ) -> Tuple[Prefix, engine_api.ResultTokens]:
     if isinstance(padded_tokens, jax.Array):
       batched_token = padded_tokens.reshape(1, -1)
     else:
@@ -260,7 +261,6 @@ def prefill(
     )
     if len(logits.shape) == 3:  # b, seqlen, num words
       logits = logits[0]  # seqlen, num words
-
     token = sampling_utils.sampling(
         logits[true_length - 1],
         self.rng,
@@ -269,7 +269,23 @@ def prefill(
         self.env.nucleus_topp,
         self.env.temperature,
     )
-
+    token_out = jnp.reshape(token, (1, 1))
+    data = jnp.concatenate(
+        [
+            token_out,  # First token
+            jnp.ones_like(token_out),  # validity of first token
+            jnp.zeros((1, 1), dtype=jnp.int32),  # length = 0
+        ],
+        axis=-1,
+    )
+    length = token_out.shape[1]
+    result = engine_api.ResultTokens(
+        data=data,
+        tokens_idx=(0, length),
+        valid_idx=(length, 2 * length),
+        length_idx=(2 * length, 2 * length + 1),
+        samples_per_slot=1,
+    )
     # truncate to true_length didnt work need to be out side of jit
     # caches = [
     #   (jax.lax.dynamic_slice_in_dim(
@@ -278,7 +294,7 @@ def prefill(
     #       v, seq_len - true_length, true_length, axis=2))
     #   for k, v in updated_caches
     # ]
-    return Prefix(token, updated_caches, true_length)
+    return Prefix(token, updated_caches, true_length), result
 
   def shrink_prefix(
       self,
diff --git a/run_interactive.py b/run_interactive.py
@@ -62,7 +62,7 @@ def main(argv):
     print(f"---- Encoded tokens are: {tokens}")
 
     # pylint: disable-next=all
-    prefill_result = engine.prefill(
+    prefill_result, _ = engine.prefill(
         params=params, padded_tokens=tokens, true_length=true_length
     )
     # pylint: disable-next=all
diff --git a/run_interactive_disaggregated.py b/run_interactive_disaggregated.py
@@ -161,7 +161,7 @@ def main(argv):
     print(
         f"---- Do prefill in prefill engine pod_slice_name: {prefill_engine.pod_slice_name}"
     )
-    prefill_result = prefill_engine.prefill(
+    prefill_result, _ = prefill_engine.prefill(
         params=None, padded_tokens=tokens, true_length=true_length
     )
     print(
diff --git a/run_interactive_multiple_host.py b/run_interactive_multiple_host.py
@@ -88,7 +88,7 @@ def main(argv):
     print(f"---- Encoded tokens are: {tokens}")
 
     # pylint: disable-next=all
-    prefill_result = engine.prefill(
+    prefill_result, _ = engine.prefill(
         params=None, padded_tokens=tokens, true_length=true_length
     )
     # pylint: disable-next=all
diff --git a/tests/test_llama_e2e.py b/tests/test_llama_e2e.py
@@ -127,7 +127,7 @@ def test_jetstream_llama2_seed(self):
       decode_state = engine.init_decode_state()
       slot = 0
       # pylint: disable-next=all
-      prefill_result = engine.prefill(
+      prefill_result, _ = engine.prefill(
           params=params, padded_tokens=padded_tokens, true_length=true_length
       )
 
@@ -193,7 +193,7 @@ def _llama_e2e(self, env, model_arg):
     decode_state = engine.init_decode_state()
     slot = 0
     # pylint: disable-next=all
-    prefill_result = engine.prefill(
+    prefill_result, _ = engine.prefill(
         params=params, padded_tokens=padded_tokens, true_length=true_length
     )
 
@@ -278,7 +278,7 @@ def test_llama_e2e_two_addtional_tokens(self):
     slot = 0
 
     # pylint: disable-next=all
-    prefill_result = engine.prefill(
+    prefill_result, _ = engine.prefill(
         params=params, padded_tokens=padded_tokens, true_length=true_length
     )
 
@@ -350,7 +350,7 @@ def test_llama_e2e_four_addtional_tokens(self):
     slot = 0
 
     # pylint: disable-next=all
-    prefill_result = engine.prefill(
+    prefill_result, _ = engine.prefill(
         params=params, padded_tokens=padded_tokens, true_length=true_length
     )
 
@@ -416,7 +416,7 @@ def test_llama_with_original_prefill_decode_32(self):
     # pylint: disable-next=all
     decode_state = engine.init_decode_state()
     # pylint: disable-next=all
-    prefill_result = engine.prefill(
+    prefill_result, _ = engine.prefill(
         params=params, padded_tokens=padded_tokens, true_length=true_length
     )
     out_tokens = prefill_result.token
@@ -491,7 +491,7 @@ def test_llama_with_original_prefill_decode(self):
     # pylint: disable-next=all
     decode_state = engine.init_decode_state()
     # pylint: disable-next=all
-    prefill_result = engine.prefill(
+    prefill_result, _ = engine.prefill(
         params=params, padded_tokens=padded_tokens, true_length=true_length
     )
     out_tokens = prefill_result.token

Original file line number	Diff line number	Diff line change
`@@ -43,7 +43,7 @@ def run_prefill_time(engine, params, decode_state, seqlen):`
`43`	`43`	`)`
`44`	`44`
`45`	`45`	`for _ in range(3):`
`46`		`- prefill_result = engine.prefill(`
	`46`	`+ prefill_result, _ = engine.prefill(`
`47`	`47`	`params=params, padded_tokens=tokens, true_length=true_length`
`48`	`48`	`)`
`49`	`49`	`decode_state = engine.insert(`
`@@ -53,7 +53,7 @@ def run_prefill_time(engine, params, decode_state, seqlen):`
`53`	`53`	`nums = 5`
`54`	`54`	`start = time.perf_counter()`
`55`	`55`	`for i in range(nums):`
`56`		`- prefill_result = engine.prefill(`
	`56`	`+ prefill_result, _ = engine.prefill(`
`57`	`57`	`params=params, padded_tokens=tokens, true_length=true_length`
`58`	`58`	`)`
`59`	`59`	`decode_state = engine.insert(`
Original file line number	Diff line number	Diff line change
`@@ -62,7 +62,7 @@ def main(argv):`
`62`	`62`	`print(f"---- Encoded tokens are: {tokens}")`
`63`	`63`
`64`	`64`	`# pylint: disable-next=all`
`65`		`- prefill_result = engine.prefill(`
	`65`	`+ prefill_result, _ = engine.prefill(`
`66`	`66`	`params=params, padded_tokens=tokens, true_length=true_length`
`67`	`67`	`)`
`68`	`68`	`# pylint: disable-next=all`
Original file line number	Diff line number	Diff line change
`@@ -161,7 +161,7 @@ def main(argv):`
`161`	`161`	`print(`
`162`	`162`	`f"---- Do prefill in prefill engine pod_slice_name: {prefill_engine.pod_slice_name}"`
`163`	`163`	`)`
`164`		`- prefill_result = prefill_engine.prefill(`
	`164`	`+ prefill_result, _ = prefill_engine.prefill(`
`165`	`165`	`params=None, padded_tokens=tokens, true_length=true_length`
`166`	`166`	`)`
`167`	`167`	`print(`
Original file line number	Diff line number	Diff line change
`@@ -88,7 +88,7 @@ def main(argv):`
`88`	`88`	`print(f"---- Encoded tokens are: {tokens}")`
`89`	`89`
`90`	`90`	`# pylint: disable-next=all`
`91`		`- prefill_result = engine.prefill(`
	`91`	`+ prefill_result, _ = engine.prefill(`
`92`	`92`	`params=None, padded_tokens=tokens, true_length=true_length`
`93`	`93`	`)`
`94`	`94`	`# pylint: disable-next=all`