utils/extract_text.py

"""
Модуль для обработки HTML-фрагментов
"""

import re
from typing import Optional


def extract_text(html_content: Optional[str]) -> str:
    """
    Извлекает текст из HTML с помощью регулярных выражений.

    Args:
        html_content (Optional[str]): HTML-строка для извлечения текста

    Returns:
        str: Извлеченный текст или пустая строка
    """
    if not html_content:
        return ""

    # Удаляем HTML-теги
    text = re.sub(r"<[^>]+>", " ", html_content)

    # Декодируем HTML-сущности
    text = re.sub(r"&[a-zA-Z]+;", " ", text)

    # Заменяем несколько пробелов на один
    text = re.sub(r"\s+", " ", text).strip()

    return text


def wrap_html_fragment(fragment: str) -> str:
    """
    Оборачивает HTML-фрагмент в полный HTML-документ.

    Args:
        fragment (str): HTML-фрагмент

    Returns:
        str: Полный HTML-документ
    """
    if "<!DOCTYPE html>" in fragment and "<html>" in fragment:
        return fragment

    return f"""<!DOCTYPE html>
<html>
<head>
    <title></title>
</head>
<body>
{fragment}
</body>
</html>"""
-												html wrap fix

											
										
										
											2025-04-27 12:53:49 +03:00
+								"""
 								Модуль для обработки HTML-фрагментов
 								"""
-												tests-passed

											
										
										
											2025-07-31 18:55:59 +03:00
+								import re
 								from typing import Optional
-												upgrade schema, resolvers, panel added

											
										
										
											2025-05-16 09:23:48 +03:00
-												Improve topic sorting: add popular sorting by publications and authors count

											
										
										
											2025-06-02 02:56:11 +03:00
-												tests-passed

											
										
										
											2025-07-31 18:55:59 +03:00
+								def extract_text(html_content: Optional[str]) -> str:
-												upgrade schema, resolvers, panel added

											
										
										
											2025-05-16 09:23:48 +03:00
+								    """
-												tests-passed

											
										
										
											2025-07-31 18:55:59 +03:00
+								    Извлекает текст из HTML с помощью регулярных выражений.
-												upgrade schema, resolvers, panel added

											
										
										
											2025-05-16 09:23:48 +03:00
 								    Args:
-												tests-passed

											
										
										
											2025-07-31 18:55:59 +03:00
+								        html_content (Optional[str]): HTML-строка для извлечения текста
-												upgrade schema, resolvers, panel added

											
										
										
											2025-05-16 09:23:48 +03:00
 								    Returns:
-												Improve topic sorting: add popular sorting by publications and authors count

											
										
										
											2025-06-02 02:56:11 +03:00
+								        str: Извлеченный текст или пустая строка
-												upgrade schema, resolvers, panel added

											
										
										
											2025-05-16 09:23:48 +03:00
+								    """
-												tests-passed

											
										
										
											2025-07-31 18:55:59 +03:00
+								    if not html_content:
-												Improve topic sorting: add popular sorting by publications and authors count

											
										
										
											2025-06-02 02:56:11 +03:00
+								        return ""
-												upgrade schema, resolvers, panel added

											
										
										
											2025-05-16 09:23:48 +03:00
-												tests-passed

											
										
										
											2025-07-31 18:55:59 +03:00
+								    # Удаляем HTML-теги
 								    text = re.sub(r"<[^>]+>", " ", html_content)
 								    # Декодируем HTML-сущности
 								    text = re.sub(r"&[a-zA-Z]+;", " ", text)
 								    # Заменяем несколько пробелов на один
 								    text = re.sub(r"\s+", " ", text).strip()
 								    return text
-												upgrade schema, resolvers, panel added

											
										
										
											2025-05-16 09:23:48 +03:00
-												html wrap fix

											
										
										
											2025-04-27 12:53:49 +03:00
+								def wrap_html_fragment(fragment: str) -> str:
 								    """
-												tests-passed

											
										
										
											2025-07-31 18:55:59 +03:00
+								    Оборачивает HTML-фрагмент в полный HTML-документ.
-												upgrade schema, resolvers, panel added

											
										
										
											2025-05-16 09:23:48 +03:00
-												html wrap fix

											
										
										
											2025-04-27 12:53:49 +03:00
+								    Args:
-												tests-passed

											
										
										
											2025-07-31 18:55:59 +03:00
+								        fragment (str): HTML-фрагмент
-												upgrade schema, resolvers, panel added

											
										
										
											2025-05-16 09:23:48 +03:00
-												html wrap fix

											
										
										
											2025-04-27 12:53:49 +03:00
+								    Returns:
 								        str: Полный HTML-документ
 								    """
-												tests-passed

											
										
										
											2025-07-31 18:55:59 +03:00
+								    if "<!DOCTYPE html>" in fragment and "<html>" in fragment:
-												html wrap fix

											
										
										
											2025-04-27 12:53:49 +03:00
+								        return fragment
-												upgrade schema, resolvers, panel added

											
										
										
											2025-05-16 09:23:48 +03:00
-												tests-passed

											
										
										
											2025-07-31 18:55:59 +03:00
+								    return f"""<!DOCTYPE html>
-												html wrap fix

											
										
										
											2025-04-27 12:53:49 +03:00
+								<html>
 								<head>
 								    <title></title>
 								</head>
 								<body>
 								{fragment}
 								</body>
 								</html>"""