OSS Insight JP

CatchTheTornado/text-extract-api

★ 2,987 Python MIT スコア: 76 GitHub →

概要

Document (PDF, Word, PPTX ...) extraction and parse API using state of the art modern OCRs + Ollama supported models. Anonymize documents. Remove PII. Convert any document or picture to structured JSON or Markdown

リポジトリ情報

スター数★ 2,987
フォーク数252
言語Python
ライセンスMIT
作成日2024/10/23
最終更新2025/12/9
Issue数47

トピック

anonymizationapiextractjsonllmocrocr-pythonpdfpii

関連サービス

このOSSの運用に役立つサービス