App下載

如何在 Java 中將 DOCX 轉(zhuǎn)換為 HTML

玉面郎君 2021-08-24 11:44:30 瀏覽數(shù) (3274)
反饋

雖然 Word DOCX 格式是創(chuàng)建文本文檔的首選,但當(dāng)我們進(jìn)入基于 Web 的領(lǐng)域時(shí),它可能是不夠的。在考慮格式化在線文檔時(shí),超文本標(biāo)記語言 (HTML) 成為應(yīng)用程序和網(wǎng)站的明顯贏家之一。這種動(dòng)態(tài)語言利用設(shè)置提示或元素來構(gòu)建可以傳輸?shù)綖g覽器并作為可讀網(wǎng)頁呈現(xiàn)給最終用戶的文檔。HTML 的結(jié)構(gòu)甚至允許集成圖像、交互式表單和其他更難用簡單的 Word 文檔創(chuàng)建的對象。

Word DOCX 格式實(shí)際上基于不同的標(biāo)記語言 XML(可擴(kuò)展標(biāo)記語言)。微軟在 2000 年代中期將其最受歡迎的程序——Word、Excel 和 PowerPoint——轉(zhuǎn)變?yōu)殚_放標(biāo)準(zhǔn)、基于 XML 的格式。此舉旨在改進(jìn)文件大小、圖像壓縮和安全性,并保持領(lǐng)先于競爭對手的優(yōu)勢。雖然由于與其他平臺(tái)兼容,一些用戶仍然更喜歡舊的 DOC 版本,但 DOCX 格式通常是當(dāng)前文字處理項(xiàng)目的更好選擇。

由于每種格式的細(xì)微差別,如果您嘗試從 Word 文檔中起草 HTML 代碼,則與文件格式相關(guān)的附加格式和樣式可能會(huì)阻礙其使用。除此之外,DOCX 設(shè)計(jì)的復(fù)雜性使得解析信息成為一項(xiàng)令人不快的任務(wù)。在本教程中,我們將演示如何使用 Java 中的 API 將任何 DOCX 文件自動(dòng)轉(zhuǎn)換為 HTML,從而即時(shí)改進(jìn)兼容性和產(chǎn)品質(zhì)量。

首先,我們將通過在 pom.xml 中添加對存儲(chǔ)庫的引用來安裝 Maven:

<repositories>
    <repository>
        <id>jitpack.io</id>
        <url>https://jitpack.io</url>
    </repository>
</repositories>

然后,我們可以在 pom.xml 中添加

<dependencies>
    <dependecy>
        <groupId>com.github.Cloudmersive</groupId>
        <artifactId>Cloudmersive.APIClient.Java</artifactId>
        <version>v3.90</version>
    </dependecy>
</dependencies>

安裝完成后,我們準(zhǔn)備將導(dǎo)入添加到我們的控制器頂部,并使用以下代碼調(diào)用轉(zhuǎn)換函數(shù):

// 導(dǎo)入類
// import com.cloudmersive.client.invoker.ApiClient;
// import com.cloudmersive.client.invoker.ApiException;
// import com.cloudmersive.client.invoker.Configuration;
// import com.cloudmersive.client.invoker.auth.*;
// import com.cloudmersive.client.invoker.ConvertDocumentApi;

APIClient defaultClient = Configuration.getDefau;tApiClient();

// Configure API key authorization : Apikey
ApiKeyAuth Apikey = (ApiKeyAuth) defaultClient.getAuthentication("Apikey");

// Uncomment the following line to set a prefix for the API key, e.g. "Token" (defaults to null)

//Apikey.setApiKeyPrefix("Token");

ConvertDocumentApi apiInstance = new ConvertDocumentApi();

File inputFile = new File("/path/to/inputfile"); // File | Input file to perform the operation on.

try {

    byte[] result = apiInstance.convertDocumentDocxToHtml(inputFile);

    System.out.println(result);

} catch (ApiException e) {

    System.err.println("Exception when calling ConvertDocumentApi#convertDocumentDocxToHtml");

    e.printStackTrace();

}

為確保流程正確運(yùn)行,您需要輸入幾個(gè)參數(shù):

  • 文件 - 要對其執(zhí)行操作的 DOCX 文件。
  • API 密鑰 – 您的個(gè)人 API 密鑰。如需獲取API key,可訪問Cloudmersive網(wǎng)站注冊免費(fèi)賬號(hào);這在我們的 API 庫中每月提供 800 次調(diào)用。

該過程將返回一個(gè) HTML 文檔,該文檔可輕松用于適用的網(wǎng)站和/或應(yīng)用程序。


0 人點(diǎn)贊