先講結論:
對於表格辨識和轉換的效果蠻不錯的,但目前的反應速度仍然慢到很影響體驗
背景
不知道大家是否有遇過這樣的情況——
「台上講者的簡報內容非常豐富,但是沒有足夠時間紀錄下來」
於是便拿著自己的手機拍下來,但其實之後再重新看的機會也不高
然後這些照片就變成所謂的「數位廢棄物」佔用著我們手機的空間
而要重新把這樣有結構的內容,轉換成適合筆記的格式一直以來也都是一件不容易的事情
許多相關的應用光是要把這樣的文字提取出來就已經十分吃力了
不過最近更新有了視覺能力的GPT-4可以把這個做的更好嗎?
測試內容
剛好最近上的一門課就遇到了這樣的表格內容(如圖)
於是就拿它來試看看好了,以下是我下的指令
請你幫我把這個表格中的資訊提取出來,用Markdown表格的方式呈現。
然後整理這個頁面的重點和關鍵字
以下是ChatGPT整理成Markdown輸出的表格:
I/S | 2022/1-12 | % | 註解 |
---|---|---|---|
1. 營業收入 | 100 | 100% | (1)P1Q1+…+PnQn - (2)退貨退款 |
2. 營業成本 | 80 | 80% | 營業成本 : 進貨+材料+直接人工 |
營業毛利 | 20 | 20% | 毛利率 : (1)進貨降價 (2)提升overhead |
3. 營業費用 | 40 | 40% | 費用成本 : 行銷+管理+研發+攤提 |
本業淨利(損) | (20) | (20%) | 本業淨利損計算 |
4. 營業外收支 | 20 | 20% | 事非營業之收支或資產 : 並註明金額CF |
資產剩餘利(損) | 0 | 0% | |
所得稅 | 0 | 0% | |
所得稅後利(損) | 0 | 0% | |
EBITDA | Earning before interest, tax, depreciation and amortization |
對照一下原始的內容,可以發現在一些註解的地方還是有少數的錯誤
不過在表格的格式上卻是完全正確的,算是滿令人驚艷的
最後就是關於它反應速度的部分
在剛上傳圖片後大概會有5~10秒沒有輸出,之後的輸出速度大概每個字會花差不多1秒左右
以這邊的表格來說大概就需要2~3分鐘了,算是目前用起來體驗比較不好的地方吧
結論
目前GPT-4的視覺能力還只有開放在網頁版上
等到它之後開放API,應該也會有非常多有意思的東西可以期待了