PDFからテキストだけをなるべく楽に抽出する方法、探してました

タイトルが全てです。

まあ探せばあるだろうとは思いつつ、PDFってフォーマットがこういうことをするのに厄介なのは当然ながら承知していたので、ちょっと頭が痛かった。
手軽な方法として、とりあえずpythonでpdfmixer.sixを使ってみました。
使うと言っても雑にコードを走らせた程度だったため、後からちょっとテキストを修正したりもしたものの、思いの外軽い負担で済んだ。良かった。

可能な限り早めにケリをつけるべき作業があるので、今回は取り急ぎ。

Written on November 25, 2022