feat: server xinference support (#927)

2023-08-20 17:46:41 +08:00
parent 8c991b5b26
commit da3f10a55e
18 changed files with 456 additions and 17 deletions
--- a/api/tests/integration_tests/models/llm/test_anthropic_model.py
+++ b/api/tests/integration_tests/models/llm/test_anthropic_model.py
@@ -50,7 +50,9 @@ def test_get_num_tokens(mock_decrypt):


@patch('core.helper.encrypter.decrypt_token', side_effect=decrypt_side_effect)
-def test_run(mock_decrypt):
+def test_run(mock_decrypt, mocker):
+    mocker.patch('core.model_providers.providers.base.BaseModelProvider.update_last_used', return_value=None)
+
    model = get_mock_model('claude-2')
    messages = [PromptMessage(content='Human: 1 + 1=? \nAssistant: ')]
    rst = model.run(
@@ -58,4 +60,3 @@ def test_run(mock_decrypt):
        stop=['\nHuman:'],
    )
    assert len(rst.content) > 0
-    assert rst.content.strip() == '2'
--- a/api/tests/integration_tests/models/llm/test_azure_openai_model.py
+++ b/api/tests/integration_tests/models/llm/test_azure_openai_model.py
@@ -76,6 +76,8 @@ def test_chat_get_num_tokens(mock_decrypt, mocker):

@patch('core.helper.encrypter.decrypt_token', side_effect=decrypt_side_effect)
 def test_run(mock_decrypt, mocker):
+    mocker.patch('core.model_providers.providers.base.BaseModelProvider.update_last_used', return_value=None)
+
    openai_model = get_mock_azure_openai_model('gpt-35-turbo', mocker)
    messages = [PromptMessage(content='Human: Are you Human? you MUST only answer `y` or `n`? \nAssistant: ')]
    rst = openai_model.run(
@@ -83,4 +85,3 @@ def test_run(mock_decrypt, mocker):
        stop=['\nHuman:'],
    )
    assert len(rst.content) > 0
-    assert rst.content.strip() == 'n'
--- a/api/tests/integration_tests/models/llm/test_huggingface_hub_model.py
+++ b/api/tests/integration_tests/models/llm/test_huggingface_hub_model.py
@@ -95,6 +95,8 @@ def test_inference_endpoints_get_num_tokens(mock_decrypt, mock_model_info, mocke

@patch('core.helper.encrypter.decrypt_token', side_effect=decrypt_side_effect)
 def test_hosted_inference_api_run(mock_decrypt, mocker):
+    mocker.patch('core.model_providers.providers.base.BaseModelProvider.update_last_used', return_value=None)
+
    model = get_mock_model(
        'google/flan-t5-base',
        'hosted_inference_api',
@@ -111,6 +113,8 @@ def test_hosted_inference_api_run(mock_decrypt, mocker):

@patch('core.helper.encrypter.decrypt_token', side_effect=decrypt_side_effect)
 def test_inference_endpoints_run(mock_decrypt, mocker):
+    mocker.patch('core.model_providers.providers.base.BaseModelProvider.update_last_used', return_value=None)
+
    model = get_mock_model(
        '',
        'inference_endpoints',
@@ -121,4 +125,3 @@ def test_inference_endpoints_run(mock_decrypt, mocker):
        [PromptMessage(content='Answer the following yes/no question. Can you write a whole Haiku in a single tweet?')],
    )
    assert len(rst.content) > 0
-    assert rst.content.strip() == 'no'
--- a/api/tests/integration_tests/models/llm/test_minimax_model.py
+++ b/api/tests/integration_tests/models/llm/test_minimax_model.py
@@ -54,11 +54,12 @@ def test_get_num_tokens(mock_decrypt):


@patch('core.helper.encrypter.decrypt_token', side_effect=decrypt_side_effect)
-def test_run(mock_decrypt):
+def test_run(mock_decrypt, mocker):
+    mocker.patch('core.model_providers.providers.base.BaseModelProvider.update_last_used', return_value=None)
+
    model = get_mock_model('abab5.5-chat')
    rst = model.run(
        [PromptMessage(content='Human: Are you a real Human? you MUST only answer `y` or `n`? \nAssistant: ')],
        stop=['\nHuman:'],
    )
    assert len(rst.content) > 0
-    assert rst.content.strip() == 'n'
--- a/api/tests/integration_tests/models/llm/test_openai_model.py
+++ b/api/tests/integration_tests/models/llm/test_openai_model.py
@@ -58,7 +58,9 @@ def test_chat_get_num_tokens(mock_decrypt):


@patch('core.helper.encrypter.decrypt_token', side_effect=decrypt_side_effect)
-def test_run(mock_decrypt):
+def test_run(mock_decrypt, mocker):
+    mocker.patch('core.model_providers.providers.base.BaseModelProvider.update_last_used', return_value=None)
+
    openai_model = get_mock_openai_model('text-davinci-003')
    rst = openai_model.run(
        [PromptMessage(content='Human: Are you Human? you MUST only answer `y` or `n`? \nAssistant: ')],
@@ -69,7 +71,9 @@ def test_run(mock_decrypt):


@patch('core.helper.encrypter.decrypt_token', side_effect=decrypt_side_effect)
-def test_chat_run(mock_decrypt):
+def test_chat_run(mock_decrypt, mocker):
+    mocker.patch('core.model_providers.providers.base.BaseModelProvider.update_last_used', return_value=None)
+
    openai_model = get_mock_openai_model('gpt-3.5-turbo')
    messages = [PromptMessage(content='Human: Are you Human? you MUST only answer `y` or `n`? \nAssistant: ')]
    rst = openai_model.run(
@@ -77,4 +81,3 @@ def test_chat_run(mock_decrypt):
        stop=['\nHuman:'],
    )
    assert len(rst.content) > 0
-    assert rst.content.strip() == 'n'
--- a/api/tests/integration_tests/models/llm/test_replicate_model.py
+++ b/api/tests/integration_tests/models/llm/test_replicate_model.py
@@ -65,6 +65,8 @@ def test_get_num_tokens(mock_decrypt, mocker):

@patch('core.helper.encrypter.decrypt_token', side_effect=decrypt_side_effect)
 def test_run(mock_decrypt, mocker):
+    mocker.patch('core.model_providers.providers.base.BaseModelProvider.update_last_used', return_value=None)
+
    model = get_mock_model('a16z-infra/llama-2-13b-chat', '2a7f981751ec7fdf87b5b91ad4db53683a98082e9ff7bfd12c8cd5ea85980a52', mocker)
    messages = [PromptMessage(content='Human: 1+1=? \nAnswer: ')]
    rst = model.run(
--- a/api/tests/integration_tests/models/llm/test_spark_model.py
+++ b/api/tests/integration_tests/models/llm/test_spark_model.py
@@ -58,7 +58,9 @@ def test_get_num_tokens(mock_decrypt):


@patch('core.helper.encrypter.decrypt_token', side_effect=decrypt_side_effect)
-def test_run(mock_decrypt):
+def test_run(mock_decrypt, mocker):
+    mocker.patch('core.model_providers.providers.base.BaseModelProvider.update_last_used', return_value=None)
+
    model = get_mock_model('spark')
    messages = [PromptMessage(content='Human: 1 + 1=? \nAssistant: Integer answer is:')]
    rst = model.run(
@@ -66,4 +68,3 @@ def test_run(mock_decrypt):
        stop=['\nHuman:'],
    )
    assert len(rst.content) > 0
-    assert rst.content.strip() == '2'
--- a/api/tests/integration_tests/models/llm/test_tongyi_model.py
+++ b/api/tests/integration_tests/models/llm/test_tongyi_model.py
@@ -52,7 +52,9 @@ def test_get_num_tokens(mock_decrypt):


@patch('core.helper.encrypter.decrypt_token', side_effect=decrypt_side_effect)
-def test_run(mock_decrypt):
+def test_run(mock_decrypt, mocker):
+    mocker.patch('core.model_providers.providers.base.BaseModelProvider.update_last_used', return_value=None)
+
    model = get_mock_model('qwen-v1')
    rst = model.run(
        [PromptMessage(content='Human: Are you Human? you MUST only answer `y` or `n`? \nAssistant: ')],
--- a/api/tests/integration_tests/models/llm/test_wenxin_model.py
+++ b/api/tests/integration_tests/models/llm/test_wenxin_model.py
@@ -52,7 +52,9 @@ def test_get_num_tokens(mock_decrypt):


@patch('core.helper.encrypter.decrypt_token', side_effect=decrypt_side_effect)
-def test_run(mock_decrypt):
+def test_run(mock_decrypt, mocker):
+    mocker.patch('core.model_providers.providers.base.BaseModelProvider.update_last_used', return_value=None)
+
    model = get_mock_model('ernie-bot')
    messages = [PromptMessage(content='Human: 1 + 1=? \nAssistant: Integer answer is:')]
    rst = model.run(
@@ -60,4 +62,3 @@ def test_run(mock_decrypt):
        stop=['\nHuman:'],
    )
    assert len(rst.content) > 0
-    assert rst.content.strip() == '2'
--- a/api/tests/integration_tests/models/llm/test_xinference_model.py
+++ b/api/tests/integration_tests/models/llm/test_xinference_model.py
@@ -0,0 +1,74 @@
+import json
+import os
+from unittest.mock import patch, MagicMock
+
+from core.model_providers.models.entity.message import PromptMessage, MessageType
+from core.model_providers.models.entity.model_params import ModelKwargs, ModelType
+from core.model_providers.models.llm.xinference_model import XinferenceModel
+from core.model_providers.providers.xinference_provider import XinferenceProvider
+from models.provider import Provider, ProviderType, ProviderModel
+
+
+def get_mock_provider():
+    return Provider(
+        id='provider_id',
+        tenant_id='tenant_id',
+        provider_name='xinference',
+        provider_type=ProviderType.CUSTOM.value,
+        encrypted_config='',
+        is_valid=True,
+    )
+
+
+def get_mock_model(model_name, mocker):
+    model_kwargs = ModelKwargs(
+        max_tokens=10,
+        temperature=0.01
+    )
+    server_url = os.environ['XINFERENCE_SERVER_URL']
+    model_uid = os.environ['XINFERENCE_MODEL_UID']
+    model_provider = XinferenceProvider(provider=get_mock_provider())
+
+    mock_query = MagicMock()
+    mock_query.filter.return_value.first.return_value = ProviderModel(
+        provider_name='xinference',
+        model_name=model_name,
+        model_type=ModelType.TEXT_GENERATION.value,
+        encrypted_config=json.dumps({
+            'server_url': server_url,
+            'model_uid': model_uid
+        }),
+        is_valid=True,
+    )
+    mocker.patch('extensions.ext_database.db.session.query', return_value=mock_query)
+
+    return XinferenceModel(
+        model_provider=model_provider,
+        name=model_name,
+        model_kwargs=model_kwargs
+    )
+
+
+def decrypt_side_effect(tenant_id, encrypted_api_key):
+    return encrypted_api_key
+
+
+@patch('core.helper.encrypter.decrypt_token', side_effect=decrypt_side_effect)
+def test_get_num_tokens(mock_decrypt, mocker):
+    model = get_mock_model('llama-2-chat', mocker)
+    rst = model.get_num_tokens([
+        PromptMessage(type=MessageType.HUMAN, content='Who is your manufacturer?')
+    ])
+    assert rst == 5
+
+
+@patch('core.helper.encrypter.decrypt_token', side_effect=decrypt_side_effect)
+def test_run(mock_decrypt, mocker):
+    mocker.patch('core.model_providers.providers.base.BaseModelProvider.update_last_used', return_value=None)
+
+    model = get_mock_model('llama-2-chat', mocker)
+    messages = [PromptMessage(content='Human: 1+1=? \nAnswer: ')]
+    rst = model.run(
+        messages
+    )
+    assert len(rst.content) > 0