Spaces:

chenguittiMaroua
/

asm-app

Sleeping

App Files Files Community

chenguittiMaroua commited on Apr 14

Commit

c6f0f67

verified ·

1 Parent(s): 15f5c7f

Update main.py

Browse files

Files changed (1) hide show

main.py +35 -11

main.py CHANGED Viewed

@@ -723,18 +723,26 @@ def generate_dynamic_visualization_code(df: pd.DataFrame, request: Visualization
 @app.post("/summarize")
 @limiter.limit("5/minute")
 async def summarize_document(request: Request, file: UploadFile = File(...)):
     try:
         # Validate file type
         filename = file.filename.lower()
-        file_ext = None
-        for ext in SUPPORTED_EXTENSIONS:
-            if filename.endswith(ext):
-                file_ext = ext
-                break
         if not file_ext:
             supported_formats = ", ".join(SUPPORTED_EXTENSIONS.keys())
@@ -747,7 +755,10 @@ async def summarize_document(request: Request, file: UploadFile = File(...)):
         text = await extract_text_from_file(file, file_ext)
         if not text.strip():
-            raise HTTPException(400, "The document appears to be empty or contains no extractable text")
         # Clean and chunk text
         text = clean_text(text)
@@ -787,10 +798,15 @@ async def extract_text_from_file(file: UploadFile, file_ext: str) -> str:
             try:
                 return content.decode('utf-8')
             except UnicodeDecodeError:
-                # ODT is a zip file, would need proper parsing in production
-                raise HTTPException(400, "ODT file parsing requires additional libraries")
     except Exception as e:
-        raise HTTPException(400, f"Failed to extract text from file: {str(e)}")
 def clean_text(text: str) -> str:
     """Clean and normalize text"""
@@ -803,10 +819,18 @@ async def generate_summary(text: str, chunk_size: int = 1000) -> str:
     summarizer = get_summarizer()
     summaries = []
     for chunk in chunks:
-        summary = summarizer(chunk, max_length=150, min_length=50, do_sample=False)[0]["summary_text"]
         summaries.append(summary)
     return " ".join(summaries)
 @app.post("/qa")
 @limiter.limit("5/minute")
 async def question_answering(

+SUPPORTED_EXTENSIONS: Dict[str, str] = {
+    '.txt': 'text/plain',
+    '.md': 'text/markdown',
+    '.docx': 'application/vnd.openxmlformats-officedocument.wordprocessingml.document',
+    '.pptx': 'application/vnd.openxmlformats-officedocument.presentationml.presentation',
+    '.pdf': 'application/pdf',
+    '.rtf': 'application/rtf',
+    '.odt': 'application/vnd.oasis.opendocument.text'
+}
 @app.post("/summarize")
 @limiter.limit("5/minute")
 async def summarize_document(request: Request, file: UploadFile = File(...)):
     try:
         # Validate file type
+        if not file.filename:
+            raise HTTPException(status_code=400, detail="No filename provided")
         filename = file.filename.lower()
+        file_ext = next((ext for ext in SUPPORTED_EXTENSIONS if filename.endswith(ext)), None)
         if not file_ext:
             supported_formats = ", ".join(SUPPORTED_EXTENSIONS.keys())
         text = await extract_text_from_file(file, file_ext)
         if not text.strip():
+            raise HTTPException(
+                status_code=400,
+                detail="The document appears to be empty or contains no extractable text"
+            )
         # Clean and chunk text
         text = clean_text(text)
             try:
                 return content.decode('utf-8')
             except UnicodeDecodeError:
+                raise HTTPException(
+                    status_code=400,
+                    detail="ODT file parsing requires additional libraries"
+                )
     except Exception as e:
+        raise HTTPException(
+            status_code=400,
+            detail=f"Failed to extract text from file: {str(e)}"
+        )
 def clean_text(text: str) -> str:
     """Clean and normalize text"""
     summarizer = get_summarizer()
     summaries = []
     for chunk in chunks:
+        summary = summarizer(
+            chunk,
+            max_length=150,
+            min_length=50,
+            do_sample=False
+        )[0]["summary_text"]
         summaries.append(summary)
     return " ".join(summaries)
 @app.post("/qa")
 @limiter.limit("5/minute")
 async def question_answering(