Tham khảo công cụ tích hợp
Trang này ghi lại tất cả 47 công cụ tích hợp trong sổ đăng ký công cụ Hermes, được nhóm theo bộ công cụ. Tính khả dụng khác nhau tùy theo nền tảng, thông tin đăng nhập và bộ công cụ được kích hoạt.
Đếm nhanh: 10 công cụ trình duyệt, 4 công cụ tệp, 10 công cụ RL, 4 công cụ Home Assistant, 2 công cụ đầu cuối, 2 công cụ web và 15 công cụ độc lập trên các bộ công cụ khác.
Ngoài các công cụ tích hợp sẵn, Hermes có thể tải các công cụ một cách linh hoạt từ máy chủ MCP. Các công cụ MCP xuất hiện với tiền tố tên máy chủ (ví dụ: github_create_issue cho máy chủ github MCP). Xem Tích hợp MCP để biết cấu hình.
Bộ công cụ trình duyệt
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
quay lại trình duyệt | Điều hướng trở lại trang trước trong lịch sử trình duyệt. Yêu cầu browser_navigate được gọi trước. | — |
browser_click | Nhấp vào một phần tử được xác định bằng ID giới thiệu của nó từ ảnh chụp nhanh (ví dụ: '@e5'). ID giới thiệu được hiển thị trong dấu ngoặc vuông ở đầu ra ảnh chụp nhanh. Yêu cầu browser_navigate và browser_snapshot được gọi trước tiên. | — |
browser_console | Nhận kết quả đầu ra của bảng điều khiển trình duyệt và lỗi JavaScript từ trang hiện tại. Trả về thông báo console.log/warn/error/info và các ngoại lệ JS chưa được phát hiện. Sử dụng tính năng này để phát hiện các lỗi JavaScript im lặng, lệnh gọi API không thành công và cảnh báo ứng dụng. Yêu cầu… | — |
browser_get_images | Nhận danh sách tất cả hình ảnh trên trang hiện tại cùng với URL và văn bản thay thế của chúng. Hữu ích cho việc tìm kiếm hình ảnh để phân tích bằng công cụ thị giác. Yêu cầu browser_navigate được gọi trước. | — |
trình duyệt_navigate | Điều hướng đến một URL trong trình duyệt. Khởi tạo phiên và tải trang. Phải được gọi trước các công cụ trình duyệt khác. Để truy xuất thông tin đơn giản, hãy ưu tiên web_search hoặc web_extract (nhanh hơn, rẻ hơn). Sử dụng các công cụ trình duyệt khi bạn cần… | — |
browser_press | Nhấn một phím bàn phím. Hữu ích khi gửi biểu mẫu (Enter), điều hướng (Tab) hoặc phím tắt. Yêu cầu browser_navigate được gọi trước. | — |
browser_scroll | Cuộn trang theo một hướng. Sử dụng tính năng này để hiển thị thêm nội dung có thể ở bên dưới hoặc bên trên chế độ xem hiện tại. Yêu cầu browser_navigate được gọi trước. | — |
browser_snapshot | Nhận ảnh chụp nhanh dựa trên văn bản của cây khả năng truy cập của trang hiện tại. Trả về các phần tử tương tác có ID giới thiệu (như @e1, @e2) cho browser_click và browser_type. full=false (mặc định): chế độ xem nhỏ gọn với các yếu tố tương tác. full=true: tính… | — |
loại_trình duyệt | Nhập văn bản vào trường đầu vào được xác định bằng ID giới thiệu của nó. Xóa trường trước, sau đó nhập văn bản mới. Yêu cầu browser_navigate và browser_snapshot được gọi trước tiên. | — |
browser_vision | Chụp ảnh màn hình của trang hiện tại và phân tích nó bằng AI tầm nhìn. Sử dụng tính năng này khi bạn cần hiểu nội dung trên trang một cách trực quan - đặc biệt hữu ích cho CAPTCHA, các thử thách xác minh bằng hình ảnh, bố cục phức tạp hoặc khi văn bản bị ngắt quãng… | — |
Bộ công cụ làm rõ
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
làm rõ | Hãy hỏi người dùng một câu hỏi khi bạn cần làm rõ, phản hồi hoặc đưa ra quyết định trước khi tiếp tục. Hỗ trợ hai chế độ: 1. Trắc nghiệm — cung cấp tối đa 4 lựa chọn. Người dùng chọn một hoặc nhập câu trả lời của riêng họ thông qua tùy chọn 'Khác' thứ 5. 2.… | — |
Bộ công cụ code_execution
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
thực thi_code | Chạy tập lệnh Python có thể gọi các công cụ Hermes theo chương trình. Sử dụng tính năng này khi bạn cần hơn 3 lệnh gọi công cụ với logic xử lý giữa chúng, cần lọc/giảm đầu ra công cụ lớn trước khi chúng đi vào ngữ cảnh của bạn, cần phân nhánh có điều kiện (… | — |
Bộ công cụ cronjob
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
cronjob | Trình quản lý tác vụ theo lịch trình thống nhất. Sử dụng action="create", "list", "update", "pause", "resume", "run", hoặc "remove" để quản lý công việc. Hỗ trợ các công việc hỗ trợ kỹ năng với một hoặc nhiều kỹ năng đính kèm và skills=[] khi cập nhật sẽ xóa các kỹ năng đính kèm. Việc chạy cron diễn ra trong các phiên mới không có bối cảnh trò chuyện hiện tại. | — |
Bộ công cụ ủy quyền
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
đại biểu_task | Sinh ra một hoặc nhiều tác nhân phụ để thực hiện các nhiệm vụ trong bối cảnh biệt lập. Mỗi tác nhân phụ có cuộc trò chuyện, phiên cuối và bộ công cụ riêng. Chỉ bản tóm tắt cuối cùng được trả về -- các kết quả của công cụ trung gian không bao giờ xuất hiện trong cửa sổ ngữ cảnh của bạn. HAI… | — |
Bộ công cụ file
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
bản vá | Các chỉnh sửa tìm và thay thế có mục tiêu trong tệp. Sử dụng cái này thay vì sed/awk trong terminal. Sử dụng kết hợp mờ (9 chiến lược) để những khác biệt nhỏ về khoảng trắng/thụt lề sẽ không phá vỡ nó. Trả về một khác biệt thống nhất. Tự động chạy kiểm tra cú pháp sau khi chỉnh sửa… | — |
đọc_file | Đọc một tập tin văn bản với số dòng và phân trang. Sử dụng cái này thay vì cat/head/tail trong terminal. Định dạng đầu ra: 'LINE_NUM|CONTENT'. Đề xuất tên tệp tương tự nếu không tìm thấy. Sử dụng offset và giới hạn cho các tệp lớn. LƯU Ý: Không thể đọc được hình ảnh o… | — |
tệp_tìm_kiếm | Tìm kiếm nội dung tập tin hoặc tìm tập tin theo tên. Sử dụng cái này thay vì grep/rg/find/ls trong terminal. Được hỗ trợ bởi Ripgrep, nhanh hơn so với shell tương đương. Tìm kiếm nội dung (target='content'): Tìm kiếm Regex bên trong tệp. Chế độ đầu ra: khớp hoàn toàn với dòng… | — |
write_file | Viết nội dung vào một tập tin, thay thế hoàn toàn nội dung hiện có. Sử dụng cái này thay vì echo/cat heredoc trong terminal. Tạo thư mục mẹ tự động. GHI ĐÈ toàn bộ tệp - sử dụng 'bản vá' cho các chỉnh sửa được nhắm mục tiêu. | — |
Bộ công cụ trợ lý gia đình
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
ha_call_service | Gọi dịch vụ Home Assistant để điều khiển thiết bị. Sử dụng ha_list_services để khám phá các dịch vụ có sẵn và thông số của chúng cho từng miền. | — |
ha_get_state | Nhận trạng thái chi tiết của một thực thể Trợ lý gia đình duy nhất, bao gồm tất cả các thuộc tính (độ sáng, màu sắc, điểm đặt nhiệt độ, chỉ số cảm biến, v.v.). | — |
ha_list_entities | Liệt kê các thực thể Trợ lý gia đình. Tùy chọn lọc theo miền (đèn, công tắc, khí hậu, cảm biến, cảm biến nhị phân, vỏ bọc, quạt, v.v.) hoặc theo tên khu vực (phòng khách, bếp, phòng ngủ, v.v.). | — |
ha_list_services | Liệt kê các dịch vụ (hành động) có sẵn của Home Assistant để điều khiển thiết bị. Hiển thị những hành động nào có thể được thực hiện trên từng loại thiết bị và những thông số nào chúng chấp nhận. Sử dụng tính năng này để khám phá cách kiểm soát các thiết bị được tìm thấy qua ha_list_entities. | — |
Công cụ Honcho (honcho_conclude, honcho_context, honcho_profile, honcho_search) không còn được tích hợp sẵn nữa. Chúng có sẵn thông qua plugin nhà cung cấp bộ nhớ Honcho tại plugins/memory/honcho/. Xem Plugins để biết cách cài đặt và sử dụng.
Bộ công cụ image_gen
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
hình ảnh_tạo | Tạo hình ảnh chất lượng cao từ lời nhắc văn bản bằng mẫu FLUX 2 Pro với khả năng nâng cấp tự động gấp 2 lần. Tạo hình ảnh chi tiết, nghệ thuật được tự động nâng cấp để có kết quả độ phân giải cao. Trả về một URL hình ảnh được nâng cấp duy nhất. Hiển thị nó bằng cách sử dụng… | FAL_KEY |
Bộ công cụ bộ nhớ
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
ký ức | Lưu thông tin quan trọng vào bộ nhớ liên tục tồn tại qua các phiên. Bộ nhớ của bạn xuất hiện trong lời nhắc hệ thống khi bắt đầu phiên -- đó là cách bạn ghi nhớ những điều về người dùng và môi trường của bạn giữa các cuộc trò chuyện. KHI NÀO ĐỂ SA… | — |
Bộ công cụ nhắn tin
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
gửi_tin nhắn | Gửi tin nhắn đến nền tảng nhắn tin được kết nối hoặc liệt kê các mục tiêu có sẵn. QUAN TRỌNG: Khi người dùng yêu cầu gửi đến một kênh hoặc người cụ thể (không chỉ là tên nền tảng đơn thuần), hãy gọi send_message(action='list') ĐẦU TIÊN để xem tar có sẵn… | — |
Bộ công cụ moa
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
hỗn hợp_tác nhân | Định tuyến một vấn đề khó khăn thông qua nhiều LLM biên giới một cách cộng tác. Thực hiện 5 lệnh gọi API (4 mô hình tham chiếu + 1 trình tổng hợp) với nỗ lực lý luận tối đa - sử dụng một cách tiết kiệm cho các vấn đề thực sự khó khăn. Tốt nhất cho: toán phức tạp, thuật toán nâng cao… | OPENROUTER_API_KEY |
Bộ công cụ ## rl
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
rl_check_status | Nhận trạng thái và số liệu cho quá trình đào tạo. TỶ LỆ GIỚI HẠN: thực thi tối thiểu 30 phút giữa các lần kiểm tra cho cùng một lần chạy. Trả về số liệu WandB: bước, trạng thái, phần thưởng_trung bình, mất mát, phần trăm_chính xác. | TINKER_API_KEY, WANDB_API_KEY |
rl_edit_config | Cập nhật trường cấu hình. Trước tiên hãy sử dụng rl_get_current_config() để xem tất cả các trường có sẵn cho môi trường đã chọn. Mỗi môi trường có các tùy chọn cấu hình khác nhau. Cài đặt cơ sở hạ tầng (mã thông báo, URL, lora_rank, learning_ra… | TINKER_API_KEY, WANDB_API_KEY |
rl_get_current_config | Nhận cấu hình môi trường hiện tại. Chỉ trả về các trường có thể sửa đổi: group_size, max_token_length, Total_steps, step_per_eval, use_wandb, Wandb_name, max_num_workers. | TINKER_API_KEY, WANDB_API_KEY |
rl_get_results | Nhận kết quả và số liệu cuối cùng cho một đợt đào tạo đã hoàn thành. Trả về số liệu cuối cùng và đường dẫn đến trọng số đã huấn luyện. | TINKER_API_KEY, WANDB_API_KEY |
rl_list_environments | Liệt kê tất cả các môi trường RL có sẵn. Trả về tên môi trường, đường dẫn và mô tả. MẸO: Đọc file_path bằng các công cụ tệp để hiểu cách hoạt động của từng môi trường (trình xác minh, tải dữ liệu, phần thưởng). | TINKER_API_KEY, WANDB_API_KEY |
rl_list_runs | Liệt kê tất cả các lần tập luyện (đang hoạt động và đã hoàn thành) cùng với trạng thái của chúng. | TINKER_API_KEY, WANDB_API_KEY |
rl_select_environment | Chọn môi trường RL để đào tạo. Tải cấu hình mặc định của môi trường. Sau khi chọn, hãy sử dụng rl_get_current_config() để xem cài đặt và rl_edit_config() để sửa đổi chúng. | TINKER_API_KEY, WANDB_API_KEY |
rl_start_training | Bắt đầu quá trình đào tạo RL mới với môi trường và cấu hình hiện tại. Hầu hết các thông số đào tạo (lora_rank, learning_rate, v.v.) đều cố định. Sử dụng rl_edit_config() để đặt group_size, batch_size, Wanb_project trước khi bắt đầu. CẢNH BÁO: Đào tạo… | TINKER_API_KEY, WANDB_API_KEY |
rl_stop_training | Dừng công việc đào tạo đang chạy. Sử dụng nếu số liệu có vẻ tệ, quá trình đào tạo bị trì trệ hoặc bạn muốn thử các cài đặt khác. | TINKER_API_KEY, WANDB_API_KEY |
rl_test_inference | Kiểm tra suy luận nhanh cho mọi môi trường. Thực hiện một vài bước suy luận + tính điểm bằng OpenRouter. Mặc định: 3 bước x 16 lần hoàn thành = 48 lần triển khai trên mỗi mô hình, thử nghiệm 3 mô hình = tổng cộng 144. Kiểm tra tải môi trường, thi công nhanh chóng, trong… | TINKER_API_KEY, WANDB_API_KEY |
Bộ công cụ session_search
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
phiên_tìm kiếm | Tìm kiếm trí nhớ dài hạn của bạn về các cuộc trò chuyện trong quá khứ. Đây là thông tin thu hồi của bạn -- mọi phiên trước đây đều có thể tìm kiếm được và công cụ này tóm tắt những gì đã xảy ra. CHỦ ĐỘNG SỬ DỤNG ĐIỀU NÀY khi: - Người dùng nói 'chúng tôi đã làm việc này trước đây', 'nhớ khi nào', 'lần trước… | — |
Bộ công cụ skill
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
skill_manage | Quản lý kỹ năng (tạo, cập nhật, xóa). Kỹ năng là bộ nhớ thủ tục của bạn - các phương pháp tiếp cận có thể sử dụng lại cho các loại nhiệm vụ định kỳ. Các kỹ năng mới đi tới ~/.hermes/skills/; các kỹ năng hiện có có thể được sửa đổi ở bất cứ nơi nào họ sống. Hành động: tạo (đầy đủ SKILL.m… | — |
skill_view | Các kỹ năng cho phép tải thông tin về các nhiệm vụ và quy trình làm việc cụ thể cũng như các tập lệnh và mẫu. Tải toàn bộ nội dung của kỹ năng hoặc truy cập các tệp được liên kết của nó (tài liệu tham khảo, mẫu, tập lệnh). Cuộc gọi đầu tiên trả về nội dung SKILL.md cộng với… | — |
danh sách kỹ năng | Liệt kê các kỹ năng có sẵn (tên + mô tả). Sử dụng Skill_view(name) để tải toàn bộ nội dung. | — |
Bộ công cụ terminal
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
quy trình | Quản lý các tiến trình nền được bắt đầu bằng terminal(background=true). Hành động: 'list' (hiển thị tất cả), 'thăm dò ý kiến' (kiểm tra trạng thái + đầu ra mới), 'log' (đầu ra đầy đủ với phân trang), 'đợi' (chặn cho đến khi hoàn thành hoặc hết thời gian chờ), 'kill' (chấm dứt), 'write' (sen… | — |
thiết bị đầu cuối | Thực thi các lệnh shell trên môi trường Linux. Hệ thống tập tin vẫn tồn tại giữa các cuộc gọi. Đặt background=true cho các máy chủ chạy lâu. Đặt notify_on_complete=true (với background=true) để nhận thông báo tự động khi quá trình kết thúc — không cần bỏ phiếu. KHÔNG sử dụng cat/head/tail - hãy sử dụng read_file. KHÔNG sử dụng grep/rg/find - hãy sử dụng search_files. | — |
Bộ công cụ việc cần làm
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
việc cần làm | Quản lý danh sách nhiệm vụ của bạn cho phiên hiện tại. Sử dụng cho các tác vụ phức tạp có hơn 3 bước hoặc khi người dùng cung cấp nhiều tác vụ. Gọi không có tham số để đọc danh sách hiện tại. Viết: - Cung cấp mảng 'todos' để tạo/cập nhật các mục - merge=… | — |
Bộ công cụ tầm nhìn
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
phân tích tầm nhìn | Phân tích hình ảnh bằng tầm nhìn AI. Cung cấp mô tả toàn diện và trả lời câu hỏi cụ thể về nội dung hình ảnh. | — |
Bộ công cụ web
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
web_search | Tìm kiếm trên web thông tin về bất kỳ chủ đề nào. Trả về tối đa 5 kết quả có liên quan kèm theo tiêu đề, URL và mô tả. | EXA_API_KEY hoặc PARALLEL_API_KEY hoặc FIRECRAWL_API_KEY hoặc TAVILY_API_KEY |
web_extract | Trích xuất nội dung từ URL trang web. Trả về nội dung trang ở định dạng đánh dấu. Cũng hoạt động với các URL PDF - chuyển trực tiếp liên kết PDF và nó sẽ chuyển đổi thành văn bản đánh dấu. Các trang dưới 5000 ký tự trả về đánh dấu đầy đủ; các trang lớn hơn được tóm tắt LLM. | EXA_API_KEY hoặc PARALLEL_API_KEY hoặc FIRECRAWL_API_KEY hoặc TAVILY_API_KEY |
Bộ công cụ tts
| Công cụ | Mô tả | Yêu cầu môi trường |
|---|---|---|
text_to_speech | Chuyển đổi văn bản thành âm thanh lời nói. Trả về MEDIA: đường dẫn mà nền tảng phân phối dưới dạng tin nhắn thoại. Trên Telegram, nó phát dưới dạng bong bóng thoại, trên Discord/WhatsApp dưới dạng tệp đính kèm âm thanh. Ở chế độ CLI, lưu vào ~/voice-memos/. Giọng nói và nhà cung cấp… | — |