讓LLM看網路文章
在使用各種大型語言模型(LLM)的時候
偶爾會需要透過額外的網路上的資訊來輔助任務的進行
通常用的這幾種方式其實都各有缺點:
- 使用有內建幫忙寫好爬蟲閱讀的工具➡️不是每一款工具都有,而且也比較難自己調整
- 直接整個網頁原始碼丟進去➡️很容易就花費了太大量的token,導致任務重點被模糊掉
- 自己寫對應的爬蟲➡️開發週期很長
Reader API
現在這款名為 Reader API 的工具
就是專門來解決這個問題的
它透過內建的爬蟲與AI解析工具
來將原始碼中的內容轉換成適合LLM使用的文字
如此一來,LLM再去做後續的處理的時候就變得更加輕鬆準確了
目前它是完全免費的
有興趣的都可以去試看看!
應用連結
🔗 https://jina.ai/reader
Reader API 使用方式
而且它的 API 使用方式也很簡單
將目標網頁的網址放入 https://r.jina.ai/
後即可
舉例來所
目標網站如果是https://udn.com/news/story/6809/7898221
直接訪問
https://r.jina.ai/https://udn.com/news/story/6809/7898221
demo效果
左邊:網頁原始碼
右邊:抓出來的文字(markdown格式)