OSS Insight JP

adbar/trafilatura

★ 5,450 Python Apache-2.0 スコア: 72.21 GitHub →

概要

Python & Command-line tool to gather text and metadata on the Web: Crawling, scraping, extraction, output as CSV, JSON, HTML, MD, TXT, XML

リポジトリ情報

スター数★ 5,450
フォーク数347
言語Python
ライセンスApache-2.0
作成日2019/4/8
最終更新2025/9/12
Issue数100

トピック

article-extractorcorpus-buildercorpus-toolscrawlerhtml-to-markdownhtml2textllmnews-aggregatornews-crawlernlpragreadabilityrss-feedscrapingteitext-cleaningtext-extractiontext-miningtext-preprocessingweb-scraping

関連サービス

このOSSの運用に役立つサービス