Spaces:
Sleeping
Sleeping
update
Browse files
app.py
CHANGED
|
@@ -216,12 +216,33 @@ if "rag" not in st.session_state:
|
|
| 216 |
|
| 217 |
if "llm" not in st.session_state:
|
| 218 |
st.session_state.llm = None
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 219 |
|
| 220 |
-
|
| 221 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
| 222 |
|
| 223 |
if "embd" not in st.session_state:
|
| 224 |
-
st.session_state.embd =
|
| 225 |
|
| 226 |
if "save_dir" not in st.session_state:
|
| 227 |
st.session_state.save_dir = None
|
|
@@ -246,25 +267,9 @@ if st.session_state.gemini_api is None:
|
|
| 246 |
else:
|
| 247 |
os.environ["GOOGLE_API_KEY"] = st.session_state.gemini_api
|
| 248 |
|
| 249 |
-
st.session_state.model =
|
| 250 |
-
model="gemini-1.5-flash",
|
| 251 |
-
temperature=0,
|
| 252 |
-
max_tokens=None,
|
| 253 |
-
timeout=None,
|
| 254 |
-
max_retries=2,
|
| 255 |
-
)
|
| 256 |
|
| 257 |
st.write(f"Key is set to: {st.session_state.gemini_api}")
|
| 258 |
-
model_name="bkai-foundation-models/vietnamese-bi-encoder"
|
| 259 |
-
model_kwargs = {'device': 'cpu'}
|
| 260 |
-
encode_kwargs = {'normalize_embeddings': False}
|
| 261 |
-
|
| 262 |
-
st.session_state.embd = HuggingFaceEmbeddings(
|
| 263 |
-
model_name=model_name,
|
| 264 |
-
model_kwargs=model_kwargs,
|
| 265 |
-
encode_kwargs=encode_kwargs
|
| 266 |
-
)
|
| 267 |
-
|
| 268 |
st.write(f"loaded vietnamese-bi-encoder")
|
| 269 |
|
| 270 |
if st.session_state.save_dir is None:
|
|
@@ -278,6 +283,8 @@ def load_txt(file_path):
|
|
| 278 |
doc = loader_sv.load()
|
| 279 |
return doc
|
| 280 |
|
|
|
|
|
|
|
| 281 |
with st.sidebar:
|
| 282 |
uploaded_files = st.file_uploader("Chọn file CSV", accept_multiple_files=True, type=["txt"])
|
| 283 |
if st.session_state.gemini_api:
|
|
@@ -306,45 +313,43 @@ with st.sidebar:
|
|
| 306 |
else:
|
| 307 |
st.session_state.uploaded_files = set()
|
| 308 |
st.session_state.rag = None
|
| 309 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 310 |
if st.session_state.uploaded_files:
|
| 311 |
if st.session_state.gemini_api is not None:
|
| 312 |
with st.spinner("Đang xử lý, vui lòng đợi..."):
|
| 313 |
if st.session_state.rag is None:
|
| 314 |
-
docs_texts
|
| 315 |
-
|
| 316 |
-
results = recursive_embed_cluster_summarize(st.session_state.model, st.session_state.embd, docs_texts, level=1, n_levels=3)
|
| 317 |
-
|
| 318 |
-
all_texts = docs_texts.copy()
|
| 319 |
-
|
| 320 |
-
for level in sorted(results.keys()):
|
| 321 |
-
summaries = results[level][1]["summaries"].tolist()
|
| 322 |
-
all_texts.extend(summaries)
|
| 323 |
-
|
| 324 |
-
vectorstore = Chroma.from_texts(texts=all_texts, embedding=st.session_state.embd)
|
| 325 |
-
|
| 326 |
-
retriever = vectorstore.as_retriever()
|
| 327 |
-
|
| 328 |
-
def format_docs(docs):
|
| 329 |
-
return "\n\n".join(doc.page_content for doc in docs)
|
| 330 |
-
|
| 331 |
-
template = """
|
| 332 |
-
Bạn là một trợ lí AI hỗ trợ tuyển sinh và sinh viên. \n
|
| 333 |
-
Hãy trả lời câu hỏi chính xác, tập trung vào thông tin liên quan đến câu hỏi. \n
|
| 334 |
-
Nếu bạn không biết câu trả lời, hãy nói không biết, đừng cố tạo ra câu trả lời.\n
|
| 335 |
-
Dưới đây là thông tin liên quan mà bạn cần sử dụng tới:\n
|
| 336 |
-
{context}\n
|
| 337 |
-
hãy trả lời:\n
|
| 338 |
-
{question}
|
| 339 |
-
"""
|
| 340 |
-
prompt = PromptTemplate(template = template, input_variables=["context", "question"])
|
| 341 |
-
rag_chain = (
|
| 342 |
-
{"context": retriever | format_docs, "question": RunnablePassthrough()}
|
| 343 |
-
| prompt
|
| 344 |
-
| st.session_state.model
|
| 345 |
-
| StrOutputParser()
|
| 346 |
-
)
|
| 347 |
-
st.session_state.rag = rag_chain
|
| 348 |
|
| 349 |
if st.session_state.gemini_api is not None:
|
| 350 |
if st.session_state.llm is None:
|
|
|
|
| 216 |
|
| 217 |
if "llm" not in st.session_state:
|
| 218 |
st.session_state.llm = None
|
| 219 |
+
|
| 220 |
+
@st.cache_resource
|
| 221 |
+
def get_chat_google_model(api_key):
|
| 222 |
+
os.environ["GOOGLE_API_KEY"] = api_key
|
| 223 |
+
return ChatGoogleGenerativeAI(
|
| 224 |
+
model="gemini-1.5-flash",
|
| 225 |
+
temperature=0,
|
| 226 |
+
max_tokens=None,
|
| 227 |
+
timeout=None,
|
| 228 |
+
max_retries=2,
|
| 229 |
+
)
|
| 230 |
+
|
| 231 |
+
@st.cache_resource
|
| 232 |
+
def get_embedding_model():
|
| 233 |
+
model_name = "bkai-foundation-models/vietnamese-bi-encoder"
|
| 234 |
+
model_kwargs = {'device': 'cpu'}
|
| 235 |
+
encode_kwargs = {'normalize_embeddings': False}
|
| 236 |
|
| 237 |
+
model = HuggingFaceEmbeddings(
|
| 238 |
+
model_name=model_name,
|
| 239 |
+
model_kwargs=model_kwargs,
|
| 240 |
+
encode_kwargs=encode_kwargs
|
| 241 |
+
)
|
| 242 |
+
return model
|
| 243 |
|
| 244 |
if "embd" not in st.session_state:
|
| 245 |
+
st.session_state.embd = get_embedding_model()
|
| 246 |
|
| 247 |
if "save_dir" not in st.session_state:
|
| 248 |
st.session_state.save_dir = None
|
|
|
|
| 267 |
else:
|
| 268 |
os.environ["GOOGLE_API_KEY"] = st.session_state.gemini_api
|
| 269 |
|
| 270 |
+
st.session_state.model = get_chat_google_model(st.session_state.gemini_api)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 271 |
|
| 272 |
st.write(f"Key is set to: {st.session_state.gemini_api}")
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 273 |
st.write(f"loaded vietnamese-bi-encoder")
|
| 274 |
|
| 275 |
if st.session_state.save_dir is None:
|
|
|
|
| 283 |
doc = loader_sv.load()
|
| 284 |
return doc
|
| 285 |
|
| 286 |
+
|
| 287 |
+
|
| 288 |
with st.sidebar:
|
| 289 |
uploaded_files = st.file_uploader("Chọn file CSV", accept_multiple_files=True, type=["txt"])
|
| 290 |
if st.session_state.gemini_api:
|
|
|
|
| 313 |
else:
|
| 314 |
st.session_state.uploaded_files = set()
|
| 315 |
st.session_state.rag = None
|
| 316 |
+
|
| 317 |
+
def format_docs(docs):
|
| 318 |
+
return "\n\n".join(doc.page_content for doc in docs)
|
| 319 |
+
|
| 320 |
+
@st.cache_resource
|
| 321 |
+
def compute_rag_chain(model, embd, docs_texts):
|
| 322 |
+
results = recursive_embed_cluster_summarize(model, embd, docs_texts, level=1, n_levels=3)
|
| 323 |
+
all_texts = docs_texts.copy()
|
| 324 |
+
for level in sorted(results.keys()):
|
| 325 |
+
summaries = results[level][1]["summaries"].tolist()
|
| 326 |
+
all_texts.extend(summaries)
|
| 327 |
+
vectorstore = Chroma.from_texts(texts=all_texts, embedding=embd)
|
| 328 |
+
retriever = vectorstore.as_retriever()
|
| 329 |
+
template = """
|
| 330 |
+
Bạn là một trợ lí AI hỗ trợ tuyển sinh và sinh viên. \n
|
| 331 |
+
Hãy trả lời câu hỏi chính xác, tập trung vào thông tin liên quan đến câu hỏi. \n
|
| 332 |
+
Nếu bạn không biết câu trả lời, hãy nói không biết, đừng cố tạo ra câu trả lời.\n
|
| 333 |
+
Dưới đây là thông tin liên quan mà bạn cần sử dụng tới:\n
|
| 334 |
+
{context}\n
|
| 335 |
+
hãy trả lời:\n
|
| 336 |
+
{question}
|
| 337 |
+
"""
|
| 338 |
+
prompt = PromptTemplate(template=template, input_variables=["context", "question"])
|
| 339 |
+
rag_chain = (
|
| 340 |
+
{"context": retriever | format_docs, "question": RunnablePassthrough()}
|
| 341 |
+
| prompt
|
| 342 |
+
| model
|
| 343 |
+
| StrOutputParser()
|
| 344 |
+
)
|
| 345 |
+
return rag_chain
|
| 346 |
+
|
| 347 |
if st.session_state.uploaded_files:
|
| 348 |
if st.session_state.gemini_api is not None:
|
| 349 |
with st.spinner("Đang xử lý, vui lòng đợi..."):
|
| 350 |
if st.session_state.rag is None:
|
| 351 |
+
docs_texts = [d.page_content for d in documents]
|
| 352 |
+
st.session_state.rag = compute_rag_chain(st.session_state.model, st.session_state.embd, docs_texts)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 353 |
|
| 354 |
if st.session_state.gemini_api is not None:
|
| 355 |
if st.session_state.llm is None:
|