ConvertZ ver 7.21 2004年7月13日
(僅供個人免費使用,不得作任何商業用途)
用途: 中文 Big5/GBK/Unicode/UTF8 內碼轉換器。
注意:檔案轉換衹能將純文字格式的文件(例如 txt, html 等)轉碼,
並不適用於如 MS Word, Excel 等 binary 檔案。
系統要求: 視窗9x/ME/NT/2000/XP/2003
安裝:
將所有檔案解壓到一個新資料夾,然後直接在檔案總管執行 convertz.exe。
開啟ConvertZ後可於程式設定一欄選擇加快捷列到桌面、開始功能表、或程式集。
刪除程式:
程式本身並不改變系統登錄或填入任何數值,若要從硬碟刪除本程式,
只須在檔案總管刪除 ConvertZ 所在的檔案夾及其捷徑。
注意事項:
為節省程式的開發時間,ConvertZ 用Windows 內建的 API 進行 unicode 內碼的轉換,故此視窗必須已經同時已安裝繁體 (codepage 950) 及簡體 (codepage 936) 的中文支援。
ConvertZ 於啟動時會偵查系統,若發現缺少上述codepage支援會作出提示。
Win9x/ME 使用者可以到 Windows Update下載、或在安裝 Ms Office/IE 時選擇加入有關元件; Win2000/XP 使用者可以在「控制檯」安裝有關支援。
在 Win9x/ME 繁體視窗下預覽 Unicode 簡體文字時部份字會變成 ? 符號,這是因為程式所用的元件在繁體視窗下無法顯示簡體字的原故,對輸出結果並無影響。在 Win2000/NT 無這問題,所有簡體 unicode 字可正常顯示。
版本記錄:
ver 7.21
- ID3轉換「目錄模式」預覽標籤時出現輕微記憶體泄漏,已修正。
- 修正「檔案及資料夾名稱轉碼」窗口介面上的一些錯誤。
- 補上剪貼簿GBK<>Shift-JIS轉換模式。
- 於剪貼簿轉換時自動修正因不正確鍵盤設置而導致的亂碼。
ver 7.20
- 修正QuotedPrintable解碼當遇到換行符號時無法正確轉換的bug。
- ID3編輯器复制ID3v2標籤到ID3v1時漏了曲目一欄,已修正。
- 檔案轉換窗口當來源目錄和程式安裝目錄相同時,會無法顯示檔名,已修正。
- 個別情形下CF_HTML轉換剪貼時會有文字缺失情況,已修正。
- 各熱鍵組合可自行選擇轉換的模式。
- ID3轉換添加在標籤欄目結尾插入空白字元的選項,解決個別程式的兼容問題。
- 當檔名或ID3轉碼窗口開啟時,如果在My Document目錄下建立新資料夾,會導致AV錯誤,已修正。
- ID3編輯窗口,當勾取id3v2而下面各欄目是空白的話,更新時程式會長時間停頓,已修正。
- 檔名/ID3轉碼:在檔案模式時,選取目錄會開啟新窗口,避免跟目錄模式混淆。
- 其它一些介面上的小更改。
ver 7.11
- 個別網友回報打開剪貼簿檢視器時出現程式錯誤,我對可能引致這錯誤的一段
程式碼作了些修改。
- 檔案轉換介面上的的小修正。
ver 7.10
- 依ID3v2官方規格重寫ID3標籤轉換的部份:
a. 支持ID3 v2.2/2.3/2.4的讀取,及v2.3/2.4的寫入。(舊版只支持v2.3)
b. 除Ansi轉碼外,現支持ID3 v2.3/2.4標籤轉換成Unicode/Utf-8格式。
c. 舊版本轉出的utf-8 ID2v2標籤有bug,漏填ID3 frame的encoding byte,已修正。
注意此新版無法辨識舊版本轉出來錯誤的utf-8標籤,必須用舊版ConvertZ先轉回
Ansi編碼再用新版本做轉換。
d. 舊版本只轉換ID3v2.x標籤內指定欄目,現所有欄目的文字一概轉換。
e. 支持ID3 v2.3/2.4 compressed frames,轉換時自動解壓和再次壓縮。
f. 編輯ID3v2.x標籤資料時,沒能顯示的欄目將保留不變。(舊版本是將之刪除)
g. 新增選項,供一次性轉換當前目錄及子目錄內的所有MP3檔案。
h. ID3v1.x不支持utf-8編碼,舊版錯誤的一併轉換,已修改。
i. 輸入/輸出編碼一欄只顯示big5/gbk/shift-jis,若要將ID3v2.x轉換為
unicode/utf-8,可於另一下拉式方塊選擇Ansi、Unicode-BE、Unicode-LE
或Utf-8(Ansi是指big5/gbk/s-jis任何一種),若輸出是unicode/utf-8時,
ID3v2.x標籤會依Ansi轉碼的類型自動轉換。
- 對程式碼做一些優化,轉換速度有提陞。
- 取消 *.ndx檔案(昇級用家可刪除安裝目錄內的這些檔案),改用*.cdx格式代替。
- 其它一些介面上小錯誤的修正。
Ver 7.04
- 在Win9x當檔案轉換時若"轉換檔案名稱"及"轉換檔案內容"同時選取時,
副檔案名會多了一個字符, 已修正.
- "資料夾及檔案名稱轉換"的窗口, 當預覽的檔名長度起出窗口寬度會用提示方塊顯示.
Ver 7.03
- 修正在cgi文件轉碼修正charset時將\符號錯誤切除的問題.
- 修正顯示檔案名稱的提示方塊無法顯示系統語系以外unicode文字的問題.
- 調整窗口大小令程式適用於大部份的熒幕解像.
- 更改在Win9x下部份窗口所用的字型(w2k/xp不變)。
- Win9x下在選擇資料夾的窗口當按下「新資料夾」按鈕時會出現程式錯誤,已修正。
- Explorer crash 後自動復原工具欄的小圖示(需要Shell ver.4.70或以後)。
Ver 7.02
- 修正在Win9x當開啟檔案名稱及ID3標籤轉換窗口時出現的AV錯誤。
- 一些介面上字型的修改。
Ver 7.01
- 檔案轉換新增日文 Shift-JIS, JIS, EUC-JP 編碼的支持。
所有半形日文假名會自動轉成全形字符。
* GBK日語文件可能會被錯誤偵測做EUC-JP(因為兩種編碼的日文假名部份都是用
相同內碼區段),使用時請注意。
- 新增資料夾/檔案名稱的編碼轉換。* 工具列左邊第二個按鍵。
模式一:整個資料夾的檔案及子目錄名稱的轉換。
模式二:只轉換指定的檔案或目錄名稱。
* 來源編碼一欄Big5(asc)及GBK(asc)是當中文字被錯誤分拆成兩個Unicode西歐
字元時(通常是更新Windows版本後出現)做文字內碼修正之用。
- 剪貼簿轉換加入其它一些轉碼模式。
- ID3 標籤轉換加入日文 Shift-JIS 的支持。
- 舊版本在某些情況當轉碼後會缺了文章最後的一個字節,已修正。
- 主工具列可調校自訂的底色和按鈕顏色。
- 大量小錯誤的修正.
Ver 6.02
- 當選用「全部加入(包含子目錄所有檔案)」及只勾取「轉換檔案名稱」時,
檔案可能被轉成錯誤的名稱或出現系統錯誤,已修正。
Ver 6.01
- 修正檔案轉換後檔案名稱的英文字母全變成大寫的問題.
Ver 6.0
- WinNT/2000/XP: 大部份程式元件都重新編寫,現支援讀寫unicode檔案名的文件及
Unicode文字的顯示。
- ID3 Tag 加入 UTF-8 格式的轉換。
- ID3 轉換: 當選擇檔案時自動測試來源標籤的編碼。注意,因為標籤內的中文字數
太短,未必能正確測出來源編碼,轉換前須先預覽文字去確定選擇模式正確與否。
- 為免混淆,ID3標籤轉碼的窗口取消"檔案名稱"的轉碼。
- ID3標籤的編輯窗口:當標籤的原來編碼是UTF-8時編輯後會同樣用UTF-8儲存,否則會用
系統的ANSI編碼(Big5/GBK)儲存。
- WinNT/2000/XP 檔案轉換: 當"轉換檔案內容"及"轉換檔案名稱"同時選取,
按"開始轉換"之後會顯示另一個窗口供選擇檔案名稱的轉碼模式。
- WinNT/2000/XP 檔案轉換: 加入檔案名稱的Unicode簡/繁轉換。
- 舊版的模掩(mask)的程式碼有bug,會導致一些某些檔名錯誤地被忽略不能轉,已修正。
- 修正Command Line轉換當用 /f:s 參數時出現的轉碼錯誤.
- 大量小錯誤的修正,不在此盡錄。
- 為免要分開做NT/9x兩個版本,在加入Unicode檔名支援的同時已儘量顧及Win9x/ME的兼容,
我沒時間在Win9x做充分測試,若發現錯誤請向我報告。
Ver 5.70
- 「文字即時轉換」改為當視窗內有文字被反白選取時,只會轉換選取的部份。否則會全篇轉換。
- 修正當檔案大小是0的時候出現閱讀錯誤的問題。
- MIME > ANSI 更名為 Base64 > ANSI 避免對名稱的混淆。
- 字碼對照表少量修改.
- 更新詞彙修正列表
- 修正剪貼簿CF_HTML轉換時的一些錯誤。
- 修正Unicode繁簡轉換時部份字不能轉的問題。
- 在程式設定「快速鍵1/剪貼簿轉換」加入「自動复制選取文字入剪貼簿」選項,當勾取這選項時:
※當有文字被選取會自動复制到剪貼簿,省卻Ctrl-C的步驟,若果「轉碼後自動貼上使用中視窗」
同時打勾的話,功能會同「即時轉換」相似,唯一分別是轉換後剪貼簿文字內容仍會保留。
※如果沒有選取文字,則改為轉換剪貼簿原有的內容。
- 修正Html Dec/Hex Notation轉換的一個小錯誤。
- 中國海支援在沒有安裝中國海字集的系統某些字會顯示不出來,預設值改為不啟動。
Ver 5.60
- 修正在ID3轉換窗口為檔案重新命名(用右鍵功能表)後的顯示錯誤。
- 修正檔名提示窗口當鼠標移離時間中會出現不能自動隱藏提示的問題。
- 在檔案轉換新增HZ簡體編碼的支援。
- 在剪貼簿轉換新增下列模式:
*「統一碼 > GBK (直接轉換)」、「統一碼> Big5 (直接轉換)」 :
將Unicode文字直接轉換為GBK(或Big5),不作任何修正。
因為在IE复制的中文字是Unicode編碼,若將對岸的網頁的中文連結复制到其它
下載程式(ie. FlashGet)會無法下載,复制後先作上面的轉換可解決這問題。
例如:在繁體Windows下复制簡體網頁的中文檔案連結到剪貼簿,复制後做先做
一個「統一碼 > GBK (直接轉換)」的轉換,再貼到FlashGet的指定窗口(窗口內
看到的亂碼是GBK碼的中文字),便可以正常下載。
* 「HZ <> GBK」、「HZ <> Big5」、「GBK <> HZ」、「Big5 <> HZ」
* 「Base64> ANSI」、「Quoted-Printable > ANSI」
Ver 5.51
- ID3 轉換顯示「標題」及「藝人」的位置倒轉了,已修正。
- 編輯ID3標籤時若檔案無ID3v2標籤時會錯誤地插入空白的 ID3v2 標籤,已修正。
- 在ID3v2標籤新增「原唱者」一欄。
Ver 5.50
- 新增MP3檔案ID3v1/ID3v2標籤的GBK<>Big5簡/繁轉換。
- 將用戶新增的修正詞彙獨立存放於user_b5fix.dat及user_gbfix.dat
兩個檔案,跟原本內建的分開儲存,程式執行時會自動合并。
- 顯示檔案名的窗口若果檔名長度超出窗口的闊度時會用提示方塊顯示全名。
- 修正剪貼簿檢視器在Win2000/XP部份情況下有些字不能正常顯示的問題。
Ver 5.41
- 當校正列表內的詞彙有空白格時會導致排序錯誤, 令其它一些首個單字相同的
詞彙不能夠正確執行校正, 已修復這錯誤.
Ver 5.40
- 修正用熱鍵做剪貼簿轉換時無法將文字貼到IE的問題
- 增加"即時轉換"功能,可以將文字編輯方塊內的文字經熱鍵立即轉換。
* 注:因為這功能利用了剪貼簿做有關轉換,原有的剪貼簿內容會被清除。
- 加入中國海Big5外字集日文假名的支援。
- 介面上的一些修改。
Ver 5.31
- 修正某些情況下統一碼轉換的快速鍵無效的問題。
- 修正剪貼簿檢視器顯示unicode文字時可能出現斷字的問題。
- 在程式設定新增選項用作調校主工具列右邊的空隙,預設值是0,若不想工具列
遮蓋其它視窗右上角的按鈕,可將數值調至大約70-80。
Ver 5.30
- 對核心程式碼改寫,轉換速度提陞10-50%(視乎不同的轉碼模式)。
- 修正了html notation在某些情況下無法還原做文字的問題。
- 修正幾個介面上的小錯誤。
Ver 5.21
- 修正當文章內包含無效的html notation時出現字串被中途切斷的問題
Ver 5.20
- 更改主工具列的按鈕排列
- 修正按快速鍵時無聲效提示的問題
- 修正當目標檔案夾是relative path時出現的錯誤
- 修正詞彙編輯器內含少於一筆記錄時出現的顯示錯誤
- 對numeric notation的轉換進行一些優化
- 修正當目標碼是unicode/utf-8/numeric_notation在確認覆寫同名檔案時
選'否'仍然會覆寫的問題
Ver 5.10
- 移除「程式設定」內「更新檔名中文編碼」一欄,將類似選項搬到「檔案轉換」的視窗。
- 在「檔案轉換」有「轉換檔案名稱」及「轉換檔案內容」兩個選項。
「轉換檔案名稱」 「轉換檔案內容」 用途
------------------------------------------------------------------------
勾取 不勾取 檔案名稱轉碼及重新命名,內容不變
勾取 勾取 檔名及內容同時轉碼,再儲存到目標檔案夾
不勾取 勾取 只對檔案內容轉碼,再儲存到目標檔案夾
- 可以對檔案夾下的所有檔案及子目錄名稱一次過的進行轉碼及重新命名
- 除 decimal notation 之外,現在 hex notation 亦可以在轉換時還原做文字。
- 加入剪貼簿「unicode > hex notation」及「unicode > decimal notation」功能。
- 檔案轉換加入 「decimal notation」選項。
- 修正一個導致記憶體泄漏的問題。
- 內碼表及詞彙修正表的一些修正。
Ver 5.06
- 修正經send_to啟動轉案轉換時無法轉&#xxxxx;格式統一碼的問題。
- 修改內碼對照表及詞彙修正表。
Ver 5.05
- 將Big5/GBK內碼對照表及詞彙修正表作一些修正(多數是不常用的字),
令繁轉簡時能對映到更合適的字形。
- 修正當輸出是GBK或Unicode繁體的時候某些字非常用字不能轉出來的問題。
- 以往版本當HTML檔案內Meta標籤的Charset數值除一些常用的寫法外很多都轉不
過來,現在所有已知的Big5/GBK/Unicode/UTF8的編法寫法都轉換時可自動修正。
- 修正其它一些小錯誤。
Ver 5.03
- 在 Ver 4.3 - 5.01 當目標字形是簡體時部份字不能做詞彙修正,已修正.
- 若經由「檔案總管」功能表的「傳送到」啟動 ConvertZ 時,當點擊右上角
「轉碼設定」的按鈕會出現程式錯誤,已修正。
- 修正了檔案轉換當目標檔案是唯讀時出現的程式錯誤。
- 修正了其它一些小 bug.
Ver 5.01
- 修正在 Win2000/XP 下當設定的的不是中文字型時不能預覽文章的問題.
Ver 5.0
+ 在繁體 Win2000 及 XP 下剪貼簿檢視器及檔案預覽的窗口支援 Unicode 簡體字顯示。
+ 加入剪貼簿 CF_HTML 的支援。當在 Word、Excel、Powerpoint、IE、Outlook 等程式
之間做統一碼剪貼簿轉換時,貼回到程式時所有文字式樣(i.e. 字型/大小/顏色等)、
表格、圖像、鏈結、數學方程式、ActiveX 元件等均全部保留。
* 在 繁體 Win9x/ME 下若果有簡體字不能正常顯示請將字型改做 SimSun 或 Arial Unicode MS。
* 在 Ms Word 每次不應同時剪貼太多頁數(視乎文件是否有大量圖像及表格),否則 ConvertZ
讀入資料的時間會幾何級數上昇,嚴重拖慢速度,正常情況每次轉換不應超過 20 頁。
* 若不須保留格式可在程式設定關閉這選項,加快轉換速度。
+ 可以將 &#xxxxx; 格式的 unicode numeric notation (統一碼數字記法) 還原成目標編碼文字。
在程式設定可開關這選項。
+ 檔案轉換:解決轉換大型檔案時可能出現記憶體不足的情況,不再受系統記憶體多少所限制,
任何2GB以下的檔案都可以正常轉換。
+ 檔案轉換時狀態列會顯示正在轉換中的檔案名字,方便觀察進度。
+ 在「檔案轉換」「進階選項」「語文輸出模式」一欄,若「繁體中文」及「簡體中文」
兩個都不勾取時,程式不會做詞彙修正,而且輸出文字的字形會依照原文,當目標編碼
沒有同一字形時才會用同義繁/簡體字代替。
Ver 4.3
- 修正部份字不能正確轉碼的問題
- Command 模式可以自動偵測來源檔編碼
Ver 4.21
- 一些錯誤的修正
Version 4.20:
- 以往的版本當轉為 GBK, Unicode-BE, Unicode-LE 及 UTF-8 「繁體中文」時,一些
字當無對應 Big5 字時會變成空白格,現已修正(插入原本的字)。
- 修正當剪貼簿衹有 unicode 文字時檢視器無法內容的問題。(只發生在 Win9x)
Version 4.10:
- 之前版本當為來源檔案選擇不正確的編碼時可能會出現 'List index
out of bounds' 的錯誤,已修正。
- 加強 Command Mode 的支援,可以自由在 Unicode-LE, Unicode-BE,
UTF-8, GBK, Big5 各種編碼間做檔案轉換及可以指定輸出的是繁體
或是簡體 (當輸出內碼是 Big5 時只可以是繁體)。
使用的語法跟之前不同,詳細資料參巧在本檔案近結尾的部份。
Ver 4.03
- 更改排序的方法去修正個別詞彙不能修正的問題.
- 修正簡體轉簡體時部份包含簡體字的詞彙不能修正的問題.
- 字碼對照表作出小量更改.
Ver 4.02
* 改寫偵測編碼的方法,準確率提陞,繁體GBK文章亦再不會被誤認作BIG5。
* 添加幾個GBK的缺字。
- 改正轉換 html 檔案時部份 charset 的數值不能修正的錯誤。
- 修正其它一些小錯誤。
Ver 4.01
- 修正在 Explorer Mode 下不能作 Unicode 檔案轉換的問題。
- 修正另外幾個介面上的小錯誤。
Ver 4.0
+ 新增 Unicode Big Endian, Unicode Little Endian, UTF8 檔案轉換的功能.
+ 除Big5 外,其它輸出模式可以選擇結果是繁體或簡體中文.
* 輸入及輸出的內碼可以相同。例如:Big5>Big5,方便只作詞彙修正而不轉碼
的情況用。或 GBK>GBK 然後選擇輸出結果是繁體或簡體字型。
* 可自由設定 UTF8 編碼的輸出檔案是否加 BOM (Byte-Order-Mark) 到檔案開
始部份。
* Unicode Big-Endian 及 Unicode Little-Endian 自動加 BOM 到檔案開始部份。
+ 除原有的剪貼簿GBK<>Big5熱鍵外,新增統一碼繁/簡體轉換的熱鍵.
+ 「檔案轉換」視窗新增「只轉換檔案名稱」選項,只對檔名轉碼及重新命名。
**********************************
剪貼簿統一碼繁簡轉換的應用:
Q: 在繁體 Windows 下,如何在簡體網頁貼文?
A: 先用繁體輸入法在簡體網頁打好文字,剪入剪貼簿,選擇 ConvertZ 主工具列
上「剪貼簿 統一碼:繁轉簡」功能,然後貼回原處便可。
Q: 如何在繁體系統的 OutLook Express 寄出簡體中文電郵?
A: 步驟大致同上,注意將轉換後的剪貼簿內文貼回 OutLook 前先將文字的編碼法
轉成簡體,方法:功能表-->格式/編碼/簡體中文(GB2312)。
Q: 當复制簡體網頁的內容到剪貼簿及貼到其它應用程式,所有簡體字變成問號,怎辦?
A: 复制後在 ConvertZ 的主工具列上選擇「剪貼簿 統一碼:簡轉繁」功能,所有
剪貼簿內的簡體字會轉換成繁體字,再貼到其它程式便可以。
* 在簡體視窗下,遇到上述類似情況,解決方法一樣,只須將選擇的
「剪貼簿 統一碼:繁轉簡」及「剪貼簿 統一碼:簡轉繁」倒過來。
* 這功能同時適用於其它用Unicode作文字核心的程式(ie. Word, Excel)。
*********************************
有關詞彙修正的補充資料:
程式會從文件前端開始讀取內容,同時對照詞庫內有沒有相同字串
(對照時以較長的字串為優先),若找到相同的便會進行替換及
跳到該字串尾後繼續搜尋及轉換,全篇文章從首至尾只會讀取一次。
下面是參巧例子:
在詞庫內有 : AB , MM
ABC , NNN
CD , OO
DE , PP
FG , QQ
轉換前的字串是: ABCDACDEFGABADE
轉換後變成: NNNDAOOEQQMMAPP
注意第一個出現的 AB 因為 ABC 的出現並無轉為 MM, 而第一個出現的 CD
亦因為被 ABC 中斷而無轉為 OO, 同樣道理,第一個出現的 DE 亦無轉為 PP。
利用這規律技巧地添加新字串到「詞彙修正」的詞庫便可有效提高辨識率。
『簡轉繁修正列表』內有大量左右兩邊都相同(左右兩組字串完全相同)的字串,
是依上述法則添加到表內作提高轉換的準確率之用,除非瞭解上述法則及將
相關的其它字彙作出修改,否則不應刪除這些字串。
客服