微软推出 MarkItDown,一款将文档转换为 Markdown 的工具

标记下来

不久前,发表了一篇文章后不久 Markdown 指南,我查找信息以了解 LibreOffice 是否可用于创建这些类型的文档。除了“你为什么要这样做?”之类的答案之外,我什么也没找到。数数。我们的想法是使用 Word 或 Writer 类型编辑器创建一个文档,然后将其保存为 .md 格式,但正如我所说;我什么也没找到。最近,微软发布了一个类似的工具,它的名字是 标记下来.

MarkItDown 是一个 蟒蛇库 它可以安装在系统上(自 Python 3.12 起不能安装在 Linux 上)或虚拟环境 (env) 中。安装后,基本或原始使用需要用 Python 编写几行,如下所示。但这并不是使用它的唯一方法。

使用 Python 进行 MarkItDown

API 就是这么简单:

from markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)

从上面第一行导入库;第二个创建一个兼容对象;在第三个中,它执行转换 - 转换为示例中名为 text.xlsx 的文件 - 在第四个中,它将在控制台中打印结果。此外,正如中所解释的 在GitHub上, 可以与 ChatGPT 等 LLM 兼容,所有这一切都符合消费者的口味并取决于每个人的知识。

如果代码不是最适合我们的,一位名叫 Matt Palmer 的开发人员会创建 一个网 以方便完成任务。虽然是英文的,但是使用起来却非常简单。框底部显示支持的文件,包括 PDF、PPTX、DOCX、XLSX、图像、音频、HTML 和文本文件。我们唯一要做的就是将文件拖到框中并等待奇迹发生,如标题屏幕截图所示。

在撰写本文时,下载文件时出现问题,显示错误消息而不是文本。有可能(我尚未验证)我看到它是因为我从 Linux、LibreOffice 或两者创建了该文件,但我在下载文件时看到该错误。它的转换效果很好,您始终可以复制它生成的纯文本,将其粘贴到文本文件中并使用 .md 扩展名保存。

要查看它,在 Linux 中我们可以使用 Okular、Visual Studio Code 或某些程序等工具。 她准备好了,除其他。

请注意

尽管该工具是由 Microsoft 创建的,但并非一切都会顺利。为了获得最佳结果,您必须使用正确的选项。例如,要放置一个 # Titular o ## Título 2,您必须在 Word 或 Writer 选项中选择它。有序或无序列表、链接、图像也是如此……如果我们不使用正确的选项,而是选择文本并使用粗体和更大的字体,Markdown 就不会那样工作,我们可能会得到混合的结果。有关受支持品牌的更多信息,我们建议您访问本说明第一段中的链接。

现在,它是微软的官方工具,它可能是将支持的文件转换为 Markdown 的最佳选择。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责资料:AB Internet Networks 2008 SL
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。