不久前,发表了一篇文章后不久 Markdown 指南,我查找信息以了解 LibreOffice 是否可用于创建这些类型的文档。除了“你为什么要这样做?”之类的答案之外,我什么也没找到。数数。我们的想法是使用 Word 或 Writer 类型编辑器创建一个文档,然后将其保存为 .md 格式,但正如我所说;我什么也没找到。最近,微软发布了一个类似的工具,它的名字是 标记下来.
MarkItDown 是一个 蟒蛇库 它可以安装在系统上(自 Python 3.12 起不能安装在 Linux 上)或虚拟环境 (env) 中。安装后,基本或原始使用需要用 Python 编写几行,如下所示。但这并不是使用它的唯一方法。
使用 Python 进行 MarkItDown
API 就是这么简单:
from markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)
从上面第一行导入库;第二个创建一个兼容对象;在第三个中,它执行转换 - 转换为示例中名为 text.xlsx 的文件 - 在第四个中,它将在控制台中打印结果。此外,正如中所解释的 在GitHub上, 可以与 ChatGPT 等 LLM 兼容,所有这一切都符合消费者的口味并取决于每个人的知识。
如果代码不是最适合我们的,一位名叫 Matt Palmer 的开发人员会创建 一个网 以方便完成任务。虽然是英文的,但是使用起来却非常简单。框底部显示支持的文件,包括 PDF、PPTX、DOCX、XLSX、图像、音频、HTML 和文本文件。我们唯一要做的就是将文件拖到框中并等待奇迹发生,如标题屏幕截图所示。
在撰写本文时,下载文件时出现问题,显示错误消息而不是文本。有可能(我尚未验证)我看到它是因为我从 Linux、LibreOffice 或两者创建了该文件,但我在下载文件时看到该错误。它的转换效果很好,您始终可以复制它生成的纯文本,将其粘贴到文本文件中并使用 .md 扩展名保存。
要查看它,在 Linux 中我们可以使用 Okular、Visual Studio Code 或某些程序等工具。 她准备好了,除其他。
请注意
尽管该工具是由 Microsoft 创建的,但并非一切都会顺利。为了获得最佳结果,您必须使用正确的选项。例如,要放置一个 # Titular
o ## Título 2
,您必须在 Word 或 Writer 选项中选择它。有序或无序列表、链接、图像也是如此……如果我们不使用正确的选项,而是选择文本并使用粗体和更大的字体,Markdown 就不会那样工作,我们可能会得到混合的结果。有关受支持品牌的更多信息,我们建议您访问本说明第一段中的链接。
现在,它是微软的官方工具,它可能是将支持的文件转换为 Markdown 的最佳选择。